基本概念
大语言模型(LLM)
大语言模型是指使用大量文本数据训练的深度学习模型,使得该模型可以生成自然语言文本或理解语言文本的含义。这些模型可以通过在庞大的数据集上进行训练来提供有关各种主题的深入知识和语言生产 。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构,在一定程度上模拟人类的语言认知和生成过程。
主流的LLM有哪些
DeepSeek的各个版本
什么是V3和R1
| 维度 | DeepSeek V3 | DeepSeek R1 |
|---|---|---|
| 核心优势 | ✅ 通用性强:多任务处理能力优秀(问答、对话、文本生成)。 ✅ 高效低成本:训练/推理资源消耗低,适配国产硬件。 ✅ 易部署:支持多框架集成(如vLLM),适合企业级应用。 | ✅ 推理专精:复杂逻辑推理能力顶尖(数学证明、代码生成)。 ✅ 长链推理:支持“思维链”输出,适合逐步分析任务。 ✅ 灵活部署:提供蒸馏小模型版本(如14B),适配本地化场景。 |
| 主要缺点 | ❌ 推理能力较弱:复杂逻辑任务(如数学证明)表现不如R1。 ❌ 场景局限:专业领域需额外微调。 | ❌ 通用性低:非推理类任务(如闲聊)效果一般。 ❌ 资源需求高:训练依赖强化学习,直接使用需较高算力。 |
| 应用场景 | 🔍 通用领域:客服系统、多语言翻译、内容生成。 🔍 企业需求:高性价比的多任务处理,如文档总结、营销文案生成。 | 🔍 专业领域:科研数学证明、金融量化分析、代码生成。 🔍 复杂推理:需逐步推导的任务(如算法设计、决策逻辑链)。 |
| 如何选择 | ➤ 选V3如果: - 任务以通用NLP为主(对话、生成)。 - 资源有限(需低成本/国产硬件)。 - 企业需要快速部署多任务系统。 | ➤ 选R1如果: - 任务涉及复杂逻辑推理(数学、代码)。 - 需要长链分析能力(如科研推导)。 - 本地化部署小模型(如14B蒸馏版)。 |
Deepseek R1有哪些版本
这些版本都是怎么来的
根据DeepSeek在Huggingface的介绍及发布相关模型看,主要分为3个版本
- DeepSeek-R1-Zero / DeepSeek-R1 (原生版本)
- DeepSeek-R1-Distill-Llama (Llama蒸馏版)
- DeepSeek-R1-Distill-Qwen (Qwen蒸馏版)
原文如下:
DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。借助 RL,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 遇到了诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini,为密集模型取得了新的最先进成果。
这一点我们在钉钉AI助手中的大模型选择菜单中也可了解到,目前各平台部署运行的R1模型均为原生版本
DeepSeek-R1 按参数量区分
deepseek-R1有发布8个版本,根据参数量从1.5b到671b不等,所谓的“满血版”是指671B参数的版本
去哪里使用
推荐
- DeepSeek chat.deepseek.com/ (官方)
- 钉钉 - AI助理 (阿里云 结合钉钉生态)
- 腾讯元宝 yuanbao.tencent.com/ (腾讯云 结合微信生态)
其他
- 硅基流动
- 纳米AI
名词解释
tokens
token 是模型用来表示自然语言文本的基本单位,也是我们的计费单元,可以直观的理解为“字”或“词”;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。
一般情况下模型中 token 和字数的换算比例大致如下:
- 1 个英文字符 ≈ 0.3 个 token。
- 1 个中文字符 ≈ 0.6 个 token。
上下文
上下文长度是 AI 模型一次能够处理的最大 Token 数量。它决定了模型处理能力的上限。上下文长度越大,模型能够处理的数据量就越大。
根据huggingface上信息所示DeepSeekR1的上下文长度为128k huggingface.co/deepseek-ai…
知识库 RAG(增强信息检索)
RAG 包含三个主要过程:检索、增强和生成。
- 检索:根据用户的查询内容,从外部知识库获取相关信息。具体而言,将用户的查询通过嵌入模型转换为向量,以便与向量数据库中存储的相关知识进行比对。通过相似性搜索,找出与查询最匹配的前 K 个数据。
- 增强:将用户的查询内容和检索到的相关知识一起嵌入到一个预设的提示词模板中。
- 生成:将经过检索增强的提示词内容输入到大型语言模型中,以生成所需的输出。
作者:越觞汤说 链接:juejin.cn/post/747754… 来源:稀土掘金
智能体 AI Agent(人工智能代理)
AI Agent可以完成对问题的理解,决策和执行
作者:半夏之沫 链接:juejin.cn/post/747196… 来源:稀土掘金
正常使用大模型时通常是下面这样
就是把我们的问题给到大模型应用,然后大模型应用返回推理出来的结果给到我们。但这里有一个问题不知道你发现没有,就是大部分用户其实都是普通人,比如用户希望大模型写一篇作文,那么用户只会向大模型说一句帮我写一篇一千字的作文,此时大模型通过推理写出来的作文肯定是差点意思的,但假如用户有点文学创作基础,就像下面这样。
因为用户在向大模型提问时,增加了更多的细节,此时大模型就会写出一篇以思乡为主题并且行文风格模仿席慕容老师的作文了。可问题又出现了,用户只是普通人,问问题时没办法问得那么专业,我们可以在用户和大模型中间加一个Agent(代理),用户你随便问,细节由代理来处理,就像下面这样。
而且要知道,大模型的种类有很多,大致可以分为 语言大模型(Large Language Model),视觉大模型(Visual Large Model)和 多模态大模型(Multimodal Large Language Models),那么用户的一次提问,也许并不是单一的一个大模型能处理的,就比如用户上传一个音频文件,要求基于音频文件画一张图出来,这种情况下需要多种大模型来处理,而协同不同大模型的工作,就由Agent来负责,就像下面这样。
AI Agent是能够感知用户的问题的,无论用户是输入了一段话,或者是用户上传了一段音频等,AI Agent能够将这些用户输入转换为能够理解的内容比如对输入做向量化。然后会使用到大模型来理解用户的输入,最终生成一份执行计划,而后会根据执行计划调用相应的工具从而输出用户想要得到的结果
LLM的基本使用方式
deepseek地址
手机端:app商店搜索deepseek
deepseek页面介绍
deepseek的多种模式
普通模式
适用场景
- 简单问答:问题明确且无需复杂分析时。
示例:
- “如何写一份会议通知?”
- “Excel中如何快速求和?”
- 日常咨询:生活或工作中的常见问题。
示例:
- “如何缓解工作压力?”
- “推荐几本适合机关单位阅读的书籍。”
- 快速任务处理:需要快速完成简单任务时。
示例:
- “将这段文字翻译成英文。”
- “整理以下数据为一个表格。”
特点
- 响应速度快,适合简单、直接的问题。
- 无需额外资源支持,适合日常使用。
深度思考模式
适用场景
- 复杂问题分析:当问题涉及多维度思考、逻辑推理或需要系统性解决方案时。
示例:
- “如何优化机关单位的公文流转效率?”
- “设计一个社区文化活动方案,需要考虑哪些因素?”
- 创意生成:需要灵感或创新性建议时。
示例:
- “为环保主题宣传活动设计一个新颖的口号。”
- “写一篇关于数字化转型的演讲稿,要求观点独特。”
- 长文本生成:需要撰写结构完整、内容详实的文章或报告时。
示例:
- “撰写一份关于乡村振兴的调研报告,包含现状、问题和对策。”
- “写一篇2000字的年终总结,涵盖工作成果和未来计划。”
特点
- 生成内容更注重逻辑性和深度。
- 适合需要高质量输出的场景。
联网搜索模式
适用场景
- 实时信息查询:需要获取最新数据、新闻或动态信息时。
示例:
- “今天的人民日报头版头条是什么?”
- “最新的个人所得税政策有哪些调整?”
- 事实核实:需要验证某个信息的准确性时。
示例:
- “2023年全国GDP增长率是多少?”
- “某条政策文件的具体发布时间是什么时候?”
- 特定资源查找:需要查找特定网站、工具或参考资料时。
示例:
- “帮我找一份关于智慧城市建设的白皮书。”
- “推荐几个适合机关单位使用的项目管理工具。”
特点
- 提供实时、准确的信息来源。
- 适合需要最新数据或外部资源支持的场景。
模式选择建议
| 诉求类型 | 推荐模式 | 原因 |
|---|---|---|
| 简单问答、日常咨询 | 普通模式 | 快速响应,适合简单任务。 |
| 复杂问题分析、创意生成 | 联网搜索模式 | 提供系统性、高质量的解决方案。 |
| 实时信息查询、事实核实 | 普通模式 | 获取最新、准确的外部信息 |
扩展使用技巧
知识库
在deepSeek中可以通过上传附件的形式来使用知识库,需注意的是,知识库仅能读取文字格式内容(可上传图片,会对图片中的文字进行OCR识别,识别精度不可控),所以推荐使用文本格式文档。
当用户上传文件知识库后,后续用户提出的问题,系统会通过内置的RAG流程,将用户的问题在知识库中检索,找出相关的信息,然后将这些信息与问题组成新的上下文输入到LLM中,而后大模型根据这些信息输出上下文信息
例如案例中我们将《关于开展2023年度山东省大数据工程专业职称考试工作的通知》的文件作为知识库给到大模型中,询问考试科目信息,deepseek从文档中找到更准确的信息输出给我们
限定输出格式
LLM允许我们我们通过一些提示词来限定输出格式,比如我们按以下方式提问:
请为我识别出每个人的姓名和年龄,按照以下格式输出,仅输出姓名和年龄,未识别到则输出空,格式如下:
```
<姓名> <年龄>
<姓名> <年龄>
....
```
然后我们给他一段小故事,故事内容是教室里的同学们在做自我介绍,以下为识别结果
大模型根据我们的要求,仅输出的我们想要的姓名和年龄等信息,同样的,使用这种方式可以输出一些满足专业领域使用的数据,比如JSON、HTML、CSV等等
例如输出成CSV格式后,在本地新建一个文件即可将数据用excel打开
使用SVG格式绘制简易图标
Markdown 语法
每当我面生成回答后,点击复制按钮
往往会得到类似以下的信息信息,这些信息里面会夹杂着很多的符号、代码等,既不方便阅读也不方便使用,可能还需要我们自己手动删除里面的一些符号,
以下是一个简洁且有设计感的食品机械行业logo的SVG代码示例:
```xml
<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200" viewBox="0 0 200 200">
<!-- 背景圆形 -->
<circle cx="100" cy="100" r="95" fill="#FFD700" stroke="#000" stroke-width="5"/>
<!-- 齿轮图案 -->
<circle cx="100" cy="100" r="60" fill="#FFF" stroke="#000" stroke-width="5"/>
<path d="M100,40 l0,20 a40,40 0 0,1 34.64,20 l-17.32,10 a20,20 0 0,0 -17.32,-10 z" fill="#000"/>
<path d="M100,160 l0,-20 a40,40 0 0,1 -34.64,-20 l17.32,-10 a20,20 0 0,0 17.32,10 z" fill="#000"/>
<path d="M160,100 l-20,0 a40,40 0 0,1 -20,34.64 l-10,-17.32 a20,20 0 0,0 10,-17.32 z" fill="#000"/>
<path d="M40,100 l20,0 a40,40 0 0,1 20,-34.64 l10,17.32 a20,20 0 0,0 -10,17.32 z" fill="#000"/>
<!-- 食品元素 -->
<circle cx="100" cy="100" r="30" fill="#FF6347"/>
<path d="M100,70 l15,30 -30,0 z" fill="#FFF"/>
<circle cx="100" cy="100" r="10" fill="#FFF"/>
</svg>
```
### 设计说明:
1. **背景圆形**:采用金色(#FFD700)作为背景,象征食品行业的繁荣与品质。
2. **齿轮图案**:代表机械行业,黑色齿轮与白色背景形成对比,突出机械感。
3. **食品元素**:中心红色圆形象征食品,白色三角形和圆形点缀,增加设计感和食品行业的关联性。
### 使用方式:
将上述代码保存为`.svg`文件即可使用。如果需要调整颜色或尺寸,可以直接修改代码中的数值或颜色值。
希望这个设计符合您的需求!
这是因为LLM输出往往是采用一种叫做Markdown的语言进行输出,Markdown是目前最流行的一种格式语言,往往常见于计算机类技术论坛、博客、开源代码的介绍等等场景
Markdown 是一种轻量级标记语言,创始人为约翰·格鲁伯(John Gruber)。 它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的 XHTML(或者HTML)文档。这种语言吸收了很多在电子邮件中已有的纯文本标记的特性。
由于 Markdown 的轻量化、易读易写特性,并且对于图片,图表、数学式都有支持,许多网站都广泛使用 Markdown 来撰写帮助文档或是用于论坛上发表消息。 如 GitHub、Reddit、Diaspora、[Stack Exchange](baike.baidu.com/item/Stack Exchange/13777796?fromModule=lemma_inlink)、OpenStreetMap 、SourceForge、简书等,甚至还能被使用来撰写电子书。
那么该如何使用呢,只需要下载一个编辑器工具,即可帮助我们完成格式的处理
- Typora
- MarkdownPad
- Mou
以Typora为例,将上述代码复制到编辑器中,即可还原格式
mermaid 流程图/思维导图/时序图
Markdown编辑器往往还支持使用mermaid,利用LLM还可以让他以mermaid语法输出,来绘制各种流程图/思维导图/时序图
将代码复制到Markdown编辑器,即可得到以下结果
sequenceDiagram
participant 用户
participant 系统
participant 数据库
用户->>系统: 登录请求
系统->>数据库: 查询用户信息
数据库-->>系统: 返回用户信息
系统-->>用户: 登录成功
用户->>系统: 提交订单
系统->>数据库: 保存订单信息
数据库-->>系统: 订单保存成功
系统-->>用户: 订单提交成功
sequenceDiagram
participant 用户
participant 系统
participant 数据库
用户->>系统: 登录请求
系统->>数据库: 查询用户信息
数据库-->>系统: 返回用户信息
系统-->>用户: 登录成功
用户->>系统: 提交订单
系统->>数据库: 保存订单信息
数据库-->>系统: 订单保存成功
系统-->>用户: 订单提交成功
流程图也是如此
flowchart TD
A[开始] --> B{用户是否已注册?}
B -- 是 --> C[用户输入用户名和密码]
B -- 否 --> D[引导用户注册]
C --> E{验证用户名和密码}
E -- 验证成功 --> F[登录成功]
E -- 验证失败 --> G[提示错误信息]
G --> C
F --> H[进入系统主页]
D --> I[填写注册信息]
I --> J[提交注册]
J --> K[注册成功]
K --> C
H --> L[结束]
flowchart TD
A[开始] --> B{用户是否已注册?}
B -- 是 --> C[用户输入用户名和密码]
B -- 否 --> D[引导用户注册]
C --> E{验证用户名和密码}
E -- 验证成功 --> F[登录成功]
E -- 验证失败 --> G[提示错误信息]
G --> C
F --> H[进入系统主页]
D --> I[填写注册信息]
I --> J[提交注册]
J --> K[注册成功]
K --> C
H --> L[结束]
思维导图也支持
mindmap
root((学习计划))
学习目标
短期目标
完成Python基础课程
阅读2本技术书籍
长期目标
掌握机器学习
参与开源项目
学习资源
在线课程
Coursera
Udemy
书籍
《Python编程:从入门到实践》
《机器学习实战》
学习方法
每日学习2小时
做笔记和总结
实践项目
时间安排
早晨: 阅读书籍
下午: 学习课程
晚上: 实践项目
mindmap
root((学习计划))
学习目标
短期目标
完成Python基础课程
阅读2本技术书籍
长期目标
掌握机器学习
参与开源项目
学习资源
在线课程
Coursera
Udemy
书籍
《Python编程:从入门到实践》
《机器学习实战》
学习方法
每日学习2小时
做笔记和总结
实践项目
时间安排
早晨: 阅读书籍
下午: 学习课程
晚上: 实践项目