产品使用说明
本内容为您提供模型微调的支持文档,帮助您了解微调过程并快速提高微调效果。
特别注意:在使用前,若您的数据集已在数据量、数据格式、数据质量等方便准备充分,您可以直接进行模型微调。其中要求:
1、数据量建议不少于2000条(2000条以上的数据更能微调出效果);
2、数据格式需要遵循训练集、测试集格式要求才可上传;
3、数据质量则要求每条数据均符合微调的方向,且具备明确清晰的指令和答案。满足以上三个条件后会大大增加模型训练的效果。因此您在微调模型前请仔细检查自己的数据,以期获得更好的微调效果。
在进行模型微调时,平台提供多种能力供您使用:
目录大纲
1.构造数据集:该功能将为您提供数据集,【预置数据集】提供了多类热门、开源的数据,【问答对生成】可基于您的现有文件为您抽取符合平台规范的Q&A对
2.数据集格式转换:该功能可将其他格式的数据集转换为平台需要的训练集、测试集数据格式
3.测试集效果对比:根据您所上传的测试集,该功能提供相应的主观判断工具来帮助您评估微调后的模型效果
4.微调前后在线体验:模型发布后,该功能提供在线体验,以便您快捷验证模型微调后的效果
一、构造数据集
首先,在使用微调模型前需要明确,两千条数据才能拥有更好的微调效果。我们在构造数据集时为您提供了两种方式增加您的数据量:分别是【预置数据集】和【问答对生成】(即将上线)。
预置数据集
我们为您提供的预置数据集包括多个行业领域,您可以选择您相应领域的数据集进行模型微调,但【预置数据集】本身不支持用户更改转化。
问答对生成
即将上线
二、数据集格式转换
若您在上传数据时,报错原因为数据格式相关内容,您可以使用平台中【格式转换】的功能(该功能仅出现在上传失败后)。目前平台支持输入格式为jsonl和csv的文件,文件输出格式为jsonl。
上传失败后,点击导入数据下的【格式转换】后,用户可以选择所上传文件中的字段作为输出文件中的instruction、input、output。进而获得可作为开源大模型微调训练集的jsonl文件。
三、测试集效果对比
在进行基础数据的获取和转换后,您还能选择通过上传测试集检验模型微调的效果(该功能目前用于Autolink-AI微调,开源大模型微调即将上线)。在【Autolink-AI微调】任务创建时,用户必须上传测试集。
在模型微调结束后,您可以在任务页面点击【效果评测】查看相应的结果。
训练任务完成后,您可以依据测试集中的标准答案(target)对微调先后的效果进行对比评估;勾选您满意的答案,平台将自动为您计算模型微调后的效果提升比率。
对于您满意的微调数据,可以进行结果下载,平台将为您新建一个数据集,并将其保存至【我的数据集】。
四、微调前后在线体验
当微调任务运行成功后,您可以将该模型【发布为服务】,发布成功后才可进行【在线体验】。【我的模型服务】页面的【在线体验】将同步该模型能力。
您可以在页面中对微调前后的模型进行提问,需要注意的是,您提问的prompt最好和上传的训练集中的prompt保持一致(不需要相应的jsonl格式),以此更好的能够感受到模型微调前后效果的改变。
案例分析
1.案例背景
案例——春联生成模型
本案例主要是采用了bloom-7b微调的春联生成模型,在实际应用中,用户只需输入一个主题,模型就能根据这个主题生成与之相关的春联。这不仅节省了用户思考的时间,还能为用户提供了更多有趣和个性化的春联选择,为即将到来的新年提供非常有益的帮助。
2.数据集&模型
数据集
数据集名称 | 行业领域 | 应用范围 | 数据量 |
---|---|---|---|
春联 | 对联 | 开源大模型微调 | 2700+ |
模型
模型选择 | 模型介绍 |
---|---|
bloom-7b | BLOOMZ-7B是一个由BigScience研发并开源的大型语言模型(LLM),参数量为70亿。它是在一个包含46种语言和13种编程语言的1.5万亿个tokens上训练的,可用于多种自然语言处理任务。 |
数据处理详情
由于刚获得的数据还不能满足我们微调模型的条件,基于此,我们需要进行以下几步:
(1)采集与春联相关的数据集
(2)对数据集进行Q&A生成、prompt优化、数据格式修改
(3)选择预训练模型,设置超参数后进行微调训练
(4)模型部署和测试
根据案例目的,收集到春联数据集如下:
春联实例 |
---|
到处莺歌燕语,漫天凤舞龙飞 |
金龙闹海春潮涌,喜鹊登枝福韵高 |
春日春风春浩荡,龙年龙岁龙腾飞 |
龙门丽景催鱼跃,祖国宏图任我描 |
彩凤来仪迎大治,金龙起舞庆新春 |
英雄儿女鲲鹏志,锦绣江山龙虎姿 |
一元复始龙增岁,万物生辉燕报春 |
装点江山凭妙手,更新世纪在龙年 |
苍龙日暮还行雨,老树春深更著花 |
江山秀丽神龙舞,道路逶迤骏马驰 |
龙腾虎跃兴大治,燕舞莺歌庆升平 |
根据春联数据集生成Q&A问答对(这里是根据春联生成春联的主题)
春联实例 | 主题 |
---|---|
狮吼惊天曲,龙吟动地诗 | 龙年,震撼人心的乐诗 |
巨龙腾盛世,乳燕报新春 | 龙年,盛世繁荣,新春喜庆 |
辰时龙起舞,春日燕翻飞 | 龙年,春日生机 |
到处莺歌燕语,漫天凤舞龙飞 | 龙年,春日生机,繁荣昌盛 |
金龙闹海春潮涌,喜鹊登枝福韵高 | 龙年,春意盎然,福运高照 |
春日春风春浩荡,龙年龙岁龙腾飞 | 春日龙年,生机勃勃 |
优化数据集的prompt,以便更好的训练模型,形成更加标准的回答
**prompt优化前 ** | **prompt优化后 ** |
---|---|
请你帮我按照我输入的主题生成一副春联,主题是:XXX | 你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题是:XXX |
根据开源大模型训练集要求调整数据集对应成instruction、input、output里的内容
instruction | input | output |
---|---|---|
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。 | 主题:龙年,震撼人心的乐诗 | 狮吼惊天曲,龙吟动地诗 |
一系列的处理完毕后将数据上传至数据集中:
3.训练参数
数据准备完成后进行模型微调,默认平台给的初始学习率,由于数据量只有2700+,因此我们提高训练次数到30次。
学习率 | 训练次数 |
---|---|
0.00001 | 30 |
4.对比效果
根据上面数据的准备和模型微调后,得到的微调前后效果如下:
input | 模型微调前效果 | 模型微调后效果 |
---|---|---|
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:龙年,大吉 | 大利 | 春风浩荡千帆进,巨龙腾飞万象新。 |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题为:龙年,发财 | 春风万里财源广,龙气千秋福气浓。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:龙年,平安 | 龙年吉祥平安永,岁月平安幸福长。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:祖国繁荣昌盛 | 祖国繁荣山河壮,人民幸福日月红。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:和平 | 祖国强盛千秋业,人民幸福万年春。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:龙年,团圆 | 春风万里同舟渡,龙日千里共舞龙。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:和谐,富饶 | 和谐富饶人尽醉,平安喜乐岁方新。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:国泰民安 | 国泰民安财源广,龙飞凤舞锦绣春。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:爱国,团结 | 国强民富红旗展,党好群亲赤子心。 | |
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:勤奋,快乐 | 勤奋苦读勤为乐,学习求知学有成。 |