获得徽章 0
炼药师
什么是SFT,为什么要SFT。

有监督微调(Supervised Fine-Tuning,SFT)又称为指令微调(Instruction Tuning),是指在已经训练好的语言模型的基础上,通过使用有标注的特定任务数据进行进一步的微调,使模型具备遵循指令的能力,在特定任务或领域上表现得更好。

经过海量数据预训练后的语言模型虽然具备了大量的“知识”,但是由于其训练时目标仅是进行下一个词的预测,因此不能够理解并遵循人类自然语言形式的指令。为了使模型具有理解并响应人类指令的能力,还需要使用指令数据对其进行微调。

如何构造指令数据,如何高效低成本地进行指令微调训练,以及如何在语言模型基础上进一步扩大上下文等问题,是大语言模型在有监督微调阶段的核心。

另外,SFT也指自微调(Self-Fine-Tuning),即使用模型自己生成的数据进行微调,无需额外的人工标注数据。
展开
评论
炼药师
人工智能5大阶段,OpenAI 目前正处于第一阶段,有望即将达到第二阶段。
Level1 聊天机器人(Chatbots),能够与人类对话。
Level2 推理者(Reasoners),能解決人类级别问題的推理者。
Level3 代理(Agents),能够代表用户采取行动。
Level4 创新者(Innovator),能够帮助发明的AI。
Level5 组织者(Organizations),能够完成组织工作。
展开
评论
炼药师
深度学习的本质是信息萃取器
评论
炼药师
技术、产品、系统
评论
所以某人对电影A感兴趣后,可以向他推荐A上级的其他子类,也可以向她推荐A子级的导演、演员的其他作品。A的上级、下级、上级的子级,下级的相关电影,由知识图谱提供。上下级关系由知识图谱提供。A的上级有本体提供。
评论
狂飙火了之后,与狂飙相关的很多人和事都火了,如演员、猪脚饭。这说明,人们一旦对一个事物A感兴趣,与A相关的其他事物都会引起人们的兴趣。事物A与他们可能是包含关系,也可能是关联关系。更一般的说,人们对A感兴趣后,与A关联的其他事物都可能是人们感兴趣的,包括A上级的标签、类别,如反腐片,下级的内部成分,如演员、导演、猪脚饭,以及他们相关的事物,如高启强其他的作品。
9
下一页
个人成就
文章被点赞 40
文章被阅读 30,570
掘力值 564
收藏集
18
关注标签
7
加入于