产品使用说明

本内容为您提供模型微调的支持文档,帮助您了解微调过程并快速提高微调效果。

特别注意:在使用前,若您的数据集已在数据量、数据格式、数据质量等方便准备充分,您可以直接进行模型微调。其中要求:
1、数据量建议不少于2000条(2000条以上的数据更能微调出效果);
2、数据格式需要遵循训练集、测试集格式要求才可上传;
3、数据质量则要求每条数据均符合微调的方向,且具备明确清晰的指令和答案。满足以上三个条件后会大大增加模型训练的效果。因此您在微调模型前请仔细检查自己的数据,以期获得更好的微调效果。

在进行模型微调时,平台提供多种能力供您使用:

目录大纲

1.构造数据集:该功能将为您提供数据集,【预置数据集】提供了多类热门、开源的数据,【问答对生成】可基于您的现有文件为您抽取符合平台规范的Q&A对

2.数据集格式转换:该功能可将其他格式的数据集转换为平台需要的训练集、测试集数据格式

3.测试集效果对比:根据您所上传的测试集,该功能提供相应的主观判断工具来帮助您评估微调后的模型效果

4.微调前后在线体验:模型发布后,该功能提供在线体验,以便您快捷验证模型微调后的效果

一、构造数据集

首先,在使用微调模型前需要明确,两千条数据才能拥有更好的微调效果。我们在构造数据集时为您提供了两种方式增加您的数据量:分别是【预置数据集】和【问答对生成】(即将上线)。

预置数据集

我们为您提供的预置数据集包括多个行业领域,您可以选择您相应领域的数据集进行模型微调,但【预置数据集】本身不支持用户更改转化。

img

问答对生成

即将上线

二、数据集格式转换

若您在上传数据时,报错原因为数据格式相关内容,您可以使用平台中【格式转换】的功能(该功能仅出现在上传失败后)。目前平台支持输入格式为jsonl和csv的文件,文件输出格式为jsonl。

img

上传失败后,点击导入数据下的【格式转换】后,用户可以选择所上传文件中的字段作为输出文件中的instruction、input、output。进而获得可作为开源大模型微调训练集的jsonl文件。

img

三、测试集效果对比

在进行基础数据的获取和转换后,您还能选择通过上传测试集检验模型微调的效果(该功能目前用于Autolink-AI微调,开源大模型微调即将上线)。在【Autolink-AI微调】任务创建时,用户必须上传测试集。

img

在模型微调结束后,您可以在任务页面点击【效果评测】查看相应的结果。

img

训练任务完成后,您可以依据测试集中的标准答案(target)对微调先后的效果进行对比评估;勾选您满意的答案,平台将自动为您计算模型微调后的效果提升比率。

img

对于您满意的微调数据,可以进行结果下载,平台将为您新建一个数据集,并将其保存至【我的数据集】。

img

四、微调前后在线体验

当微调任务运行成功后,您可以将该模型【发布为服务】,发布成功后才可进行【在线体验】。【我的模型服务】页面的【在线体验】将同步该模型能力。

img

img

您可以在页面中对微调前后的模型进行提问,需要注意的是,您提问的prompt最好和上传的训练集中的prompt保持一致(不需要相应的jsonl格式),以此更好的能够感受到模型微调前后效果的改变。

img

案例分析

1.案例背景

案例——春联生成模型

本案例主要是采用了bloom-7b微调的春联生成模型,在实际应用中,用户只需输入一个主题,模型就能根据这个主题生成与之相关的春联。这不仅节省了用户思考的时间,还能为用户提供了更多有趣和个性化的春联选择,为即将到来的新年提供非常有益的帮助。

2.数据集&模型

数据集

数据集名称 行业领域 应用范围 数据量
春联 对联 开源大模型微调 2700+

模型

模型选择 模型介绍
bloom-7b BLOOMZ-7B是一个由BigScience研发并开源的大型语言模型(LLM),参数量为70亿。它是在一个包含46种语言和13种编程语言的1.5万亿个tokens上训练的,可用于多种自然语言处理任务。

数据处理详情

由于刚获得的数据还不能满足我们微调模型的条件,基于此,我们需要进行以下几步:

(1)采集与春联相关的数据集

(2)对数据集进行Q&A生成、prompt优化、数据格式修改

(3)选择预训练模型,设置超参数后进行微调训练

(4)模型部署和测试

根据案例目的,收集到春联数据集如下:

春联实例
到处莺歌燕语,漫天凤舞龙飞
金龙闹海春潮涌,喜鹊登枝福韵高
春日春风春浩荡,龙年龙岁龙腾飞
龙门丽景催鱼跃,祖国宏图任我描
彩凤来仪迎大治,金龙起舞庆新春
英雄儿女鲲鹏志,锦绣江山龙虎姿
一元复始龙增岁,万物生辉燕报春
装点江山凭妙手,更新世纪在龙年
苍龙日暮还行雨,老树春深更著花
江山秀丽神龙舞,道路逶迤骏马驰
龙腾虎跃兴大治,燕舞莺歌庆升平

根据春联数据集生成Q&A问答对(这里是根据春联生成春联的主题)

春联实例 主题
狮吼惊天曲,龙吟动地诗 龙年,震撼人心的乐诗
巨龙腾盛世,乳燕报新春 龙年,盛世繁荣,新春喜庆
辰时龙起舞,春日燕翻飞 龙年,春日生机
到处莺歌燕语,漫天凤舞龙飞 龙年,春日生机,繁荣昌盛
金龙闹海春潮涌,喜鹊登枝福韵高 龙年,春意盎然,福运高照
春日春风春浩荡,龙年龙岁龙腾飞 春日龙年,生机勃勃

优化数据集的prompt,以便更好的训练模型,形成更加标准的回答

**prompt优化前 ** **prompt优化后 **
请你帮我按照我输入的主题生成一副春联,主题是:XXX 你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题是:XXX

根据开源大模型训练集要求调整数据集对应成instruction、input、output里的内容

instruction input output
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。 主题:龙年,震撼人心的乐诗 狮吼惊天曲,龙吟动地诗

一系列的处理完毕后将数据上传至数据集中:

img

3.训练参数

数据准备完成后进行模型微调,默认平台给的初始学习率,由于数据量只有2700+,因此我们提高训练次数到30次。

学习率 训练次数
0.00001 30

img

4.对比效果

根据上面数据的准备和模型微调后,得到的微调前后效果如下:

input 模型微调前效果 模型微调后效果
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:龙年,大吉 大利 春风浩荡千帆进,巨龙腾飞万象新。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题为:龙年,发财 春风万里财源广,龙气千秋福气浓。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:龙年,平安 龙年吉祥平安永,岁月平安幸福长。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:祖国繁荣昌盛 祖国繁荣山河壮,人民幸福日月红。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:和平 祖国强盛千秋业,人民幸福万年春。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:龙年,团圆 春风万里同舟渡,龙日千里共舞龙。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:和谐,富饶 和谐富饶人尽醉,平安喜乐岁方新。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:国泰民安 国泰民安财源广,龙飞凤舞锦绣春。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:爱国,团结 国强民富红旗展,党好群亲赤子心。
你是一位擅长创作春联的专家,请根据我提供的主题为我写出一副与主题相关的春联,其中春联格式要求:1、要字数相等,断句一致。除有意空出某字的位置以达到某种效果外,上下联字数必须相同,不多不少。2、要平仄相合,音调和谐。传统习惯是「仄起平落」,即上联末句尾字用仄声,下联末句尾字用平声。3、要词性相对,位置相同。一般称为「虚对虚,实对实」,就是名词对名词,动词对动词,形容词对形容词,数量词对数量词,副词对副词,而且相对的词必须在相同的位置上。4、要内容相关,上下衔接。上下联的含义必须相互衔接,但又不能重复。主题:勤奋,快乐 勤奋苦读勤为乐,学习求知学有成。