本人小白,看了datawhale最近的大模型教程,记一些笔记和疑问,都是些拙见,希望大佬们能来指教一番。
-
LLM大语言模型:大在参数多,gpt-3有1750亿的参数;gpt-2是15亿的参数(这算小的)。参数大到一定程度,出现“涌现能力”,也就给的答案变智能了。
-
2024年2月,谷歌将PaLM 2更名为Gemini,Bard更名为Gemini(Bard底下是PaLM2,类比chatGPT底下是GPT)
-
RAG:从知识库中先找到信息,再以此去指导大模型生成答案。也就是在我输入的内容和模型生成答案之间加了个优化我的提问的过程,这样方便模型理解。(这应该就是类似把AI绘图之前各种调参数改成让RAG负责了?之前调参数应该是微调?)
-
LangChian:大语言模型开发框架,目的就是让之前大一统啥都会答的变成一个个专项的助手。去年的助手回答几个就忘了前面的对话,这样不连贯。用LangChian构建的应用有了记忆的能力。
-
配环境真煎熬啊。幸好群里大佬喂饭(。用vscode第一次远程连上阿里云。用Jupyter可以很方便看到每一步python得到的结果。教程里的git是为了拉项目到vscode上,conda是后续运行的环境。
-
踩坑:clone的时候要加https。
git clone https://github.com/datawhalechina/llm-universe.gitgit的教程得看一下。 -
踩坑:git clone 时遇到RPC failed; curl 16 Error in the HTTP2 framing layer fatal。上网搜了下,win+R后
git config --global http.version HTTP/1.1
总体来说第一章没什么难点,就是配环境有些痛苦。了解了大模型的结构和具体细分,期待后续的学习。