Datawhale组队学习-大语言模型-day03

67 阅读1分钟

预训练

今天开始学习大模型构建方式中的预训练部分,这部分主要实现模型基本能力

数据工程

数据采集、数据预处理、数据配比、数据课程

局部截取_20250313_232321.png

数据采集:相当于先获取需要学习的内容,这里主要介绍了目前的获取途径,获取内容可以按专业程度分成通专用

数据预处理:质量过滤、去除重复、隐私保护、词元化,把收集到的内容用程序筛选出高质量、便于训练的词元

数据配比:有点像上学时根据分数、难度给不同学科分配时间

数据课程:给训练数据排先后顺序,就像排课程一样,一般先学数学,才能学好其他工科的专业课。

具体流程

这部分主要介绍大模型增量开发过程中的继续预训练,举了llama和yulan的例子

局部截取_20250313_232345.png

训练技术

主要讲解训练优化技术、模型参数量和训练效率评估。 可以理解为专题强化课和考试出题。

局部截取_20250313_232401.png 总结:预训练过程就像是在模拟人考前复习一样,先得收集考试资料、筛选出优质的教材、设计一个课程体系、学完之后针对性强化一下、最后去考试评价一下学得怎么样。整个过程像极了教一个小朋友学习。