type
status
date
slug
summary
tags
category
icon
password
用chatgpt生成多轮完整对话数据,而不是QA对,从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式(SDF,Self-Distillation with Feedback)
📝 方法
使用自我对话的方式来完成一个多轮对话,具体案例参考。需要一个seed(Quora和stackoverflow问题作为seed),和一个标准模版来帮助chatgpt产生此次对话。
使用lora对所有线性层微调,使用chatgpt来蒸馏模型(让模型生成4个答案,然后用chatgpt来选一个最好的答案作为label),
🤗 可借鉴
模型规模:
7B,13B,30B
V1(base),V1.5(两个chatGPT,减少prompt对对话长度的占用),V2(加入SDF)版本模型
参数配置:
lora dim = 8
🧬 效果
📎 核心代码
数据形式
- 作者:老王TechTalk
- 链接:https://www.illusionjourney.com/article/baize
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。