从事大语言模型的实践探索工作,已有一年多的时间了。随着各种大模型的发布,以及各种技术概念不断涌现,深感过去掌握的那点神经网络的知识完全不够用,自己的知识结构很零散,需要有个系统的提升。
一、参加实战课的因缘
2023年底,为解决大语言模型应用中的一些问题,搜索到了大语言模型微调训练课程的信息,当时就感觉难得有这么全面和深入的课程设置,非常期待。2024年初,有幸参加了极客时间举办的为期两个半月的大语言模型LLM微调实战培训课程,该课程旨在帮助学员掌握大语言模型的技术原理和实践应用,并能够使用Hugging Face的Transformer库进行大模型微调。 课程内容涵盖以下几个方面:
- AI大模型的发展过程
- 大语言模型的技术原理
- 大语言模型微调的几种技术
- 使用HuggingFace的Transformer库进行大模型微调的实战
- 使用微软的DeepSpeed技术提高大语言模型训练的规模和速度
二、实战课程收获
通过这次培训,我收获了以下几方面的知识和技能:
- 掌握了大语言模型的基本概念和技术原理
我了解了大语言模型的发展历程,以及Transformer模型等技术在其中发挥的重要作用。我还学习了大语言模型的训练方法和评估指标,能够对大语言模型的技术原理进行深入理解。
- 掌握了大语言模型微调的技术和方法
我学习了几种常见的大语言模型微调技术,包括Prompt、PEFT、LoRA等。我还学习了如何使用Hugging Face的Transformer库进行大模型微调,能够根据不同的任务需求选择合适的方法进行微调。
- 能够使用大语言模型完成实际任务
我练习了如何使用微调后的ChatGLM3 6B模型和Llama2 7B模型完成各种实际任务,包括文本生成、文本分类、机器翻译等。我还学习了如何使用微软的DeepSpeed技术提高大语言模型训练的规模和速度,能够更有效地训练大语言模型。
三、课程感想
特别感谢这次培训主讲老师彭老师,课程准备非常有条理,各章节有机衔接,讲授中不断重复重要的理论原理。彭老师理论扎实、广博,具有丰富的实战经验,更难得是,能够将复杂的神经网络计算逻辑用生动形象的例子进行比拟讲解,非常受益。
这次培训让我对大语言模型有了更深入的了解和掌握,也让我意识到大语言模型在各个领域的巨大潜力。我相信,大语言模型将在未来发挥越来越重要的作用,并将改变我们的生活方式。
四、总结
这次培训对我来说是一次非常宝贵的学习机会,帮我建立起了大语言模型领域的相关知识体系。我将继续学习、跟踪技术的发展,不断实践,将AIGC的能力更多应用在金融科技领域。