type
status
date
slug
summary
tags
category
icon
password
😀
用chatgpt生成多轮完整对话数据,而不是QA对,从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式(SDF,Self-Distillation with Feedback)
notion image

📝 方法

使用自我对话的方式来完成一个多轮对话,具体案例参考。需要一个seed(Quora和stackoverflow问题作为seed),和一个标准模版来帮助chatgpt产生此次对话。
notion image
使用lora对所有线性层微调,使用chatgpt来蒸馏模型(让模型生成4个答案,然后用chatgpt来选一个最好的答案作为label),

🤗 可借鉴

模型规模:
7B,13B,30B
V1(base),V1.5(两个chatGPT,减少prompt对对话长度的占用),V2(加入SDF)版本模型
参数配置:
lora dim = 8

🧬 效果

notion image

📎 核心代码

数据形式

notion image
 
 
LLM-白泽🐲LLM-白泽🐲

老王TechTalk
老王TechTalk
Do not go gentle into that good night, rage, rage!