LLM-白泽🐲 | OldWang TechTalk

OldWang TechTalk

type

status

date

slug

summary

tags

category

icon

password

😀

用chatgpt生成多轮完整对话数据，而不是QA对，从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式（SDF，Self-Distillation with Feedback）

notion image

📝 方法

使用自我对话的方式来完成一个多轮对话，具体案例参考。需要一个seed（Quora和stackoverflow问题作为seed）,和一个标准模版来帮助chatgpt产生此次对话。

notion image

使用lora对所有线性层微调，使用chatgpt来蒸馏模型（让模型生成4个答案，然后用chatgpt来选一个最好的答案作为label），

🤗 可借鉴

模型规模：

7B,13B,30B

V1（base），V1.5（两个chatGPT,减少prompt对对话长度的占用）,V2（加入SDF）版本模型

参数配置：

lora dim = 8

🧬 效果

notion image

📎 核心代码

数据形式

notion image

作者:老王TechTalk
链接:https://www.illusionjourney.com/article/baize
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

LLM-白泽🐲LLM-白泽🐲

老王TechTalk

老王TechTalk

Do not go gentle into that good night, rage, rage!

最新文章