面向开发者的LLM入门课程（一）LLM正在逐步改变人们的生活，如何基于LLM提供的API快速、便捷地开发一些具备更强能力

“ LLM正在逐步改变人们的生活，如何基于LLM提供的API快速、便捷地开发一些具备更强能力、集成LLM的应用，来便携地实现一些更新颖、更实用的能力，是一个急需学习的重要能力。本文结合吴恩达老师的课程介绍下如何快速的构建自己的LLM应用。 ”

讲在前面：在文末附录中，有对应的几个参考书目的电子版本和代码笔记，可以通过后台回复获取相关资料。

学习线路

下面是提纲挈领的整理下入门课程的学习大纲，按照这样的模式可以非常高效的掌握LLM应用开发。


LLM入门课程（学习路线）
├── 基础技能学习
│   ├── 基础概念
│   └── 编程语言
├── Prompt Engineering
│   └── Prompt Engineering模块
│       ├── 构造有效Prompt
│       └── 基于OpenAI API实现功能
├── API应用开发
│   └── API应用开发模块
│       └── 开发对话系统
├── LangChain框架学习
│   └── LangChain框架学习模块
│       └── 基于LangChain开发应用
├── 个性化应用开发
│   └── 个性化应用开发模块
│       └── 结合私有数据开发个性化应用
├── 多语言学习
│   └── 多语言学习模块
│       ├── 中文翻译教程
│       ├── 范例代码
│       └── 中文Prompt设计
├── 高级技巧学习
│   └── 高级技巧学习模块
│       └── 高级Prompt技巧
├── 实践与应用
│   └── 实践与应用模块
│       └── 应用开发实践
├── 社区与资源
    └── 社区与资源模块
        ├── 开源社区
        └── 最新技术进展

还有几门必备的课程：《Prompt Engineering for Developers》、《Building Systems with the ChatGPT API》、《LangChain for LLM Application Development》、《LangChain Chat With Your Data》

当前的大规模预训练语言模型，如ChatGPT等，虽然在处理通用问题上表现出色，但它们在利用用户特定数据方面存在一定的局限性。这些模型通常依赖于广泛的训练数据集，却未能有效整合用户个人的、私密的数据资源。这一局限在特定场景下尤为明显：模型无法访问用户的个人信息、企业内部数据等私有资源，以生成更为个性化和精准的回答。此外，由于模型的知识截止于预训练阶段，它们无法获取用户最新的实时数据，从而在处理需要最新信息的问题时显得力不从心。

设想一下，如果我们能够赋予语言模型直接访问和分析用户自有数据的能力，同时让模型能够实时吸收用户最新产生的数据流，那么模型的回答质量将得到显著提升。这种能力将使模型能够更深入地理解用户的具体情境，提供更加贴合实际需求的解决方案。

本文将探讨如何利用LangChain这一框架来整合用户的私有数据，以增强语言模型的功能。我们将讨论以下几个关键方面：

加载并处理本地文档：如何将用户的本地文档加载到系统中，并进行有效的文本切割和预处理。
向量数据库与词向量：介绍如何将文本转换为向量表示，并存储在向量数据库中以便于检索。
检索回答：探讨如何通过检索技术快速找到相关信息，并结合语言模型生成回答。
基于私有数据的问答与聊天：展示如何构建一个系统，使语言模型能够基于用户的私有数据进行问答和聊天，从而提供更加个性化的服务。

通过这些方法，我们期望打破传统预训练语言模型的局限，让模型的回答更加贴近用户的实际情况，提供更加精准和有价值的信息。

几个概念的澄清

***《基础模型》- 基础LLM是基于文本训练数据，训练出预测下一个单词能力的模型。其通常通过在互联网和其他来源的大量数据上训练，来确定紧接着出现的最可能的词。

《指令微调》- 通过专门的训练，可以更好地理解并遵循指令。指令微调 LLM 的训练通常基于预训练语言模型，先在大规模文本数据上进行预训练，掌握语言的基本规律。在此基础上进行进一步的训练与微调(finetune)，输入是指令，输出是对这些指令的正确回复。有时还会采用RLHF (reinforcement learning from human feedback，人类反馈强化学习)技术，根据人类对模型输出的反馈进一步增强模型遵循指令的能力。通过这种受控的训练过程，指令微调 LLM 可以生成对指令高度敏感、更安全可靠的输出，较少无关和损害性内容。

Prompt Engineering

Prompt 即成为与大模型交互输入的代称。即我们一般将给大模型的输入称为 Prompt，将大模型返回的输出称为 Completion。

LLM(大语言模型)的出现，自然语言处理的范式正在由 Pretrain-Finetune(预训练- 微调)向 Prompt Engineering(提示工程)演变。对于具有较强自然语言理解、生成能力，能够实现多样化任务处理的 LLM 来说，一个合理的 Prompt 设计极大地决定了其能力的上限与下限。Prompt Engineering，即是针对特定任务构造能充分发挥大模型能力的 Prompt 的技巧。要充分、高效地使用 LLM，Prompt Engineering 是必不可少的技能。

面向入门 LLM 的开发者，如何构造 Prompt 并基于LLM 提供的 API 实现包括总结、推断、转换等多种常用功能，是入门 LLM 开发的第一步。

Prompt 设计的两个关键原则：清晰明确 + 给予充足思考时间。

一、清晰明确的指令

使用分隔符清晰的表示输入的不同部分

寻求结构化的输出

要求模型检查是否满足条件

如果任务包含不一定能满足的假设(条件)，我们可以告诉模型先检查这些假设，如果不满足，则会指出并停止执行后续的完整流程。您还可以考虑可能出现的边缘情况及模型的应对，以避免意外的结果或错误发生。

提供少量的示例
"Few-shot" prompting，即在要求模型执行实际任务之前，给模型一两个已完成的样例，让模型了解我们的要求和期望的输出样式。

二、给模型时间去思考

在设计 Prompt 时，给予语言模型充足的推理时间非常重要。语言模型与人类一样，需要时间来思考并解决复杂问题。如果让语言模型匆忙给出结论，其结果很可能不准确。例如，若要语言模型推断一本书的主题，仅提供简单的书名和一句简介是不足够的。这就像让一个人在极短时间内解决困难的数学题，错误在所难免。

相反，我们应通过 Prompt 指引语言模型进行深入思考。可以要求其先列出对问题的各种看法，说明推理依据，然后再得出最终结论。在 Prompt 中添加逐步推理的要求，能让语言模型投入更多时间逻辑思维，输出结果也将更可靠准确。

综上所述，给予语言模型充足的推理时间，是 Prompt Engineering 中一个非常重要的设计原则。这将大大提高语言模型处理复杂问题的效果，也是构建高质量 Prompt 的关键之处。开发者应注意给模型留出思考空间，以发挥语言模型的最大潜力。

指定完成任务所需的步骤

指导模型在下结论之前找出一个自己的解法

在设计 Prompt 时，我们还可以通过明确指导语言模型进行自主思考，来获得更好的效果。举个例子，假设我们要语言模型判断一个数学问题的解答是否正确。仅仅提供问题和解答是不够的，语言模型可能会匆忙做出错误判断。

相反，我们可以在 Prompt 中先要求语言模型自己尝试解决这个问题，思考出自己的解法，然后再与提供的解答进行对比，判断正确性。这种先让语言模型自主思考的方式，能帮助它更深入理解问题，做出更准确的判断。

迭代优化

在开发大语言模型应用时，很难通过第一次尝试就得到完美适用的 Prompt。但关键是要有一个良好的迭代优化过程，以不断改进 Prompt。相比训练机器学习模型，Prompt 的一次成功率可能更高，但仍需要通过多次迭代找到最适合应用的形式。

文中举例一个非常完整的例子（《从产品说明书生成营销产品描述》）进行阐述上面的prompt 工程的迭代方向。具体可以参考附录中的PDF内容。

文本概括

在繁忙的信息时代，每一位开发者都面临着海量的文本信息处理的挑战。需要通过研究无数的文献资料来为项目找到关键的信息，但是时间却远远不够。

这个功能如同灯塔一样，照亮了处理信息海洋的道路。LLM 的强大能力在于它可以将复杂的文本信息简化，提炼出关键的观点。不再需要花费大量的时间去阅读所有的文档，只需要用 LLM 将它们概括，就可以快速获取到他所需要的信息。

主要介绍两部分：单一文本概括、概括多条文本

《单一文本概括》

可以进行如下的操作：限制输出文本长度、设置关键角度侧重、关键信息提取。

《多条文本概括》

在实际的工作流中，我们往往要处理大量的评论文本，下面的示例将多条用户评价集合在一个列表中，并利用 for 循环和文本概括(Summarize)提示词，将评价概括至小于 20 个词以下，并按顺序打印。当然，在实际生产中，对于不同规模的评论文本，除了使用 for 循环以外，还可能需要考虑整合评论、分布式等方法提升运算效率。

文本推断

我们将通过一个故事，引领你了解如何从产品评价和新闻文章中推导出情感和主题。让我们先想象一下，你是一名初创公司的数据分析师，你的任务是从各种产品评论和新闻文章中提取出关键的情感和主题。这些任务包括了标签提取、实体提取、以及理解文本的情感等等。在传统的机器学习流程中，你需要收集标签化的数据集、训练模型、确定如何在云端部署模型并进行推断。尽管这种方式可能会产生不错的效果，但完成这一全流程需要耗费大量的时间和精力。而且，每一个任务，比如情感分析、实体提取等等，都需要训练和部署单独的模型。

然而，就在你准备投入繁重工作的时候，你发现了大型语言模型(LLM)。LLM 的一个明显优点是，对于许多这样的任务，你只需要编写一个 Prompt，就可以开始生成结果，大大减轻了你的工作负担。这个发现像是找到了一把神奇的钥匙，让应用程序开发的速度加快了许多。最令你兴奋的是，你可以仅仅使用一个模型和一个 API 来执行许多不同的任务，无需再纠结如何训练和部署许多不同的模型。

***这里主要介绍三部分：情感推断、信息提取、主题推断

情感推断

情感识别

其它内容请读者自行下载PDF去学习，这里就不一一展示了。

**接下来主要介绍下《如何搭建基于LLM的问答系统》。如果大家还有哪些感兴趣的内容比如Tools的使用，Graph RAG的原理等等都可以多多交流！ **😄

附录

在后台回复以下内容可以获取相关材料

LLM01 可以获取PDF材料
吴恩达 可以获取吴恩达老师的课程地址（中英字幕），以及代码笔记
LangChain 可以获取教学课程

欢迎关注 <叨叨叨的成长记录>