大模型相关的20个重要概念

102 阅读4分钟

大模型及相关技术不同于以前的技术开发,是一种全新的技术栈。如:微调,提示词工程,上下文,多轮对话,思维链,RAG,Agent,Multi Agent,workflow,function call,MCP,ReAct.专家认为,要入门一项新技术,从上到下重要的关键词 8-20,可以快速的了解新技术。 下面列出大模型开发的主要概念,方便大家理解记忆。

  • 微调:用新数据重新训练大模型,更新大模型的知识库或让大模型有新的能力。微调有全量微调,增量微调。

  • 蒸馏:用能力强模型训练能力弱的模型,让弱模型也有强模型的能力,例如:deepseek-r1蒸馏qwen,llama模型,出来的deepseek-8b,32b

  • 量化:大模型权重都是浮点数,用32位表达,量化技术用16位,8位,4位来表示浮点数,这是静态量化。还是动态量化:大模型有很多层,64层,128层,重要层用精度高量化,非重要层用精度低量化

  • Agent智能体: 通过大模型来“理解”用户需求,主动“规划”以达成目标,使用各种“工具”来完成任务,并最终“行动”执行这些任务。function Tool 和MCP 是Agent 能实现重要技术

  • function Tool:对函数的封装,让大模型知道函数的功能,入参,出参,从而能调用的外部工具。

  • MCP:对function Tool 进行标准化封装,也可以称为function Tool 2.0,相当于type-c接口, 方便外部大模型的调用。

  • RAG: Retrieval-augmented Generation, 检索增强生成。先用问题检索相关知识,再把问题和相关知识一起发给大模型,让大模型做出回答。大模型的知识库有限,无法及时更新,通过检索这个“外挂”让大模型了解新的知识。 Embedding,Reranker是RAG的重要技术。

  • Embedding:词嵌入,把文本转化成向量,方便进行矩阵运算。

  • Reranker: 重排序,计算问题与文本的相关度,对检索结果重排序,相关度高的放前面,相关度低的放后面。提高大模型回答质量。

  • 端到端(end2end):用一个模型解决用户的问题,与之相对应的是pipelines, 是分多步骤解决问题,端到端的模型比pipelines的解决方案更高效,准确度更高。例如:用户说话问问题,回答也需要语音。以前要先把语音转成文本,用文本生成文本答案,再把答案转成语音输出。端到端的直接语音输入,语音输出。

  • CoT:思维链,指把逻辑较为复杂的问题进行拆解,通过一系列有逻辑关系的思考,形成完整的思考的过程,用于解决复杂问题。

  • 多模态:数据有文本,声音,图像,视频等格式,每种数据格式是一种模态,多模态就指处理两种或两种以上格式的数据。例如:图片识别,识别图片的内容并输出文本,文本转声音,声音转文本。

  • Benchmark 评测集:一组数据集或测试集,有问题和答案,输入大模型,测试大模型性能,给大模型评分,给出大模型的榜单。

  • Prompt engineering 提示词工程:用户与大模型交互的入口。一段文本,告诉大模型你的任务,描述清楚你的需求,任务流程,让大模型工作,得到相应的结果。提示词工程指优化提示词,通过清晰的语言描述,举一两个输入输出的例子,描述思维过程,等方式让大模型更好的理解你的意图。

  • Deep Research: Agent的一种,它根椐用户的问题,拆解问题,给出解答步骤,通过互联网搜索数据或在本地数据搜索,得到相关数据,传入大模型,让大模型生成一份完整的报告。

  • Manus:Agent的一种,智能化的RPA, 它根椐用户输入的问题,分解步骤,利用computer use 功能,操作桌面,生成代码并执行代码,最终回答用户的问题。

  • browser use: 浏览器的自动化操作。利用大模型的图像识别能力,把浏览器的内容截图生成图片,让大模型识别,并指导下一步操作。

  • computer use:智能化的RPA。利用大模型的图像识别能力,把桌面的内容截图生成图片,让大模型识别,并指导下一步操作。

  • vibe coding(AI编程):通过写提示词描述清楚你的任务,流程,让大模型输出相应的代码并调试。包括代码编写,代码提示,代码调试,找原有代码的bug等任务。

下面用张图总结下各概念之间的关系:

关系图