一、 AI 和 AGI 概述
AI(Artificial Intelligence):是人工智能的缩写,它指的由人造的系统来模拟人类智能的技术,使机器能够像人一样学习、思考和做出决策,从而能够自主地执行各种任务
AGI(Artificial General Intelligence): 即通用人工智能,指的是具备与人类同等或更广泛认知能力的人工智能系统。它能够在不同领域自主完成复杂任务,并具备学习、创新和适应性。
1.1:AI 和 AGI 主要区别
| 特征 | 人工智能 (AI / 窄AI) | 通用人工智能 (AGI) |
|---|---|---|
| 范围 | 狭窄、专用。专注于单一或有限的任务。 | 广泛、通用。能够处理任何智力任务。 |
| 能力 | 缺乏真正的理解。通过识别数据模式来运作,但不“理解”其含义。 | 具备真正的认知能力,包括理解、推理和意识(理论上)。 |
| 学习与适应 | 学习范围受限,无法将其知识轻松应用到预设范围之外。 | 可以像人类一样学习,并将知识从一个领域灵活转移到另一个新领域。 |
| 目标 | 由人类程序员预先设定和定义。 | 可以自主设定和追求目标。 |
| 现状 | 已实现并广泛应用在我们日常生活中。 | 尚未实现,仍是未来愿景和长期目标。 |
| 例子 | 语音助手、人脸识别、推荐算法、工业机器人。 | 科幻电影中的角色,如《她》中的萨曼莎、《超能陆战队》中的大白(具备全面关怀能力时)、人类级别的智能机器人。 |
1.2 AI 应用分类
| 助手类 | 搜索类 | 定制Agent | 生活应用 |
|---|---|---|---|
| ChatGPT | Perplexity | ChatGPT GPTS | 石头扫地机器人 |
| Kimi Chat | 秘塔AI | coze | 小米智能门锁 |
| 文小言 | Devv | dify | Siri |
| 通义千文 | 小爱同学智能语音助手 | ||
| 智谱清言 | 小度智能屏 | ||
| DeepSeek |
Perplexity: 类似百度AI搜索
二、LLM大模型分类
| 国家 | 公司 | 对话产品 | 大模型 | 网址 |
|---|---|---|---|---|
| 美国 | OpenAI | ChatGPT | GPT | chatgpt.com/ |
| 美国 | Microsoft | Copilot | GPT和未知 | copilot.microsoft.com/ |
| 美国 | Gemini | Gemini | gemini.google.com/ | |
| 美国 | Meta | Meta AI | llama | https://www.meta.ai/ |
| 美国 | xAI | Grok | Grok3 | grok.com/ |
| 美国 | Authropic | Claude | Claude | claude.ai/ |
| 中国 | 百度 | 文心一言 | 文心 | yiyan.baidu.com/ |
| 中国 | 深度探索 | deepseek | DeepSeek | chat.deepseek.com/ |
| 中国 | 阿里云 | 通义千问 | Qwen2.5-Max | tongyi.aliyun.com/qianwen |
| 中国 | 腾讯 | 元宝 | 混元T1 | yuanbao.tencent.com/chat/ |
| 中国 | 智谱AI | 智谱清言 | GLM | chatglm.cn/ |
| 中国 | 月之暗面 | KimiChat | Moonshot | kimi.moonshot.cn/ |
三、多模态大模型介绍
多模态模型,特别是多模态大模型,是一种能够处理和整合多种类型数据(如文本、图像、音频、视频等)的深度学习模型
-
功能
跨模态理解与生成 图像与文本理解 文本生成图像 音频与文本理解
| 模型名称 | 开发者 | 特点 | 应用场景 |
|---|---|---|---|
| DALL-E | OpenAI | 根据文本描述生成图像 | 广泛应用于生成符合描述的图像 |
| stable-diffusion | stabilityai | 因其灵活性和开源性质,更适合那些希望深入了解模型工作原理并进行二次开发的专业人士 | 艺术创作、游戏开发、电影和视频制作 |
| midjoureny | 大卫·霍尔茨 | 易用性和强大的社区支持著称,快速获得高质量图像结果的创意工作者 | 艺术创作、广告营销、电影和视频制作 |
| FLUX | 黑森林实验室(Black ForestLabs) | 高质量图像生成、多版本支持、无需负面提示词、风格多样 | 创意产业、游戏开发、社交媒体内容创、个人创作 |
| Janus-Pro | DeepSeek | 新颖的自回归框架,统一多模态理解和生成 | 文生图领域,多模态生成 |
| 腾讯混元文生图模型 | 腾讯 | 中文原生DiT架构,支持中英文双语输入及理解 | 文生图,视频多模态视觉生成 |
| 通义千问-QVQ- Max | 阿里 | 通义千问QVQ视觉推理模型,支持视觉输入及思维链输出, | 在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。 |
四、专有模型介绍
- 医疗 自动驾驶
五、大模型工作原理
1 大模型是怎么工作的?
通俗原理,根据上下文,猜下一个词(的概率)。。。
2 训练和推理
再深一点理解,大模型推理,通俗来讲,就是AI“动脑筋思考 并给出答案”的过程。就像你做完数学题、写完作文一样,AI也需要通过一系列计算来“想”出结果。
step1:接收输入 AI的“耳朵和眼睛”
step2:计算匹配 AI的“大脑运算” step3:输出答案AI的“嘴巴”
1. 我们给推理程序若干token, 程序会加载大模型权重,算出概率最高的一个token是什么
2. 用生成的token, 再加上上文,就能继续生成下一个token。以此类推,生成下一个token
3 token
六、大模型应用产品架构
三者的区别主要体现在 主动性、用户角色、复杂性 和 目标层级 上。
| 维度 | AI Embedded (嵌入式) | AI Copilot (副驾驶) | AI Agent (智能体) |
|---|---|---|---|
| 核心隐喻 | 一个更强大的零部件 | 一个并肩工作的助手 | 一个可以委派任务的员工 |
| 主动性 | 被动、静态 | 按需响应 | 主动、自主 |
| 用户角色 | 使用者 | 评审者 & 指挥官 | 委托者 & 监督者 |
| 交互模式 | 无感交互 | 交互式对话 | 目标驱动 |
| 决策权 | 无,仅为功能服务 | 用户拥有最终决策权 | AI拥有部分决策和执行权 |
| 任务复杂度 | 低,单一、特定任务 | 中高,多步骤任务 | 高,复杂、多步骤项目 |
| 输出 | 增强的产品功能 | 建议、草稿、选项 | 最终成果 |
| 关键技术要求 | 高质量的特定AI模型 | 强大的生成和对话能力 | 规划、工具使用、长期记忆 |
1. AI Embedded 模式(嵌入式AI)
概述:这是最基础、最常见的AI集成形式。AI作为一种特性或功能组件被嵌入到现有的产品或工作流程中,在后台静默地增强产品的某个特定功能。用户通常不会明显地感觉到“我在和AI交互”,而是觉得某个功能变好用了
例子:
- 智能手机的相册:自动识别照片中的人物、地点和物体并进行分类。
- 网易云音乐/Spotify的每日推荐:基于你的听歌历史,利用AI算法推荐新歌。
2. AI Copilot 模式(副驾驶模式)
概述:AI作为一个协作伙伴,与用户并肩工作。用户主动发起请求,AI提供建议、草稿、代码或方案,但决策权和执行权仍在用户手中。用户需要审核、修改和批准AI的输出。
例子:
- GitHub Copilot:程序员写代码时,它建议整行或整段代码,程序员决定是否采纳。
- Microsoft 365 Copilot:用户让AI写一篇文档草稿、做一份PPT大纲、分析Excel数据,然后用户在此基础上进行编辑和优化。
3. AI Agent 模式(智能体模式)
- 概述:这是最高级的模式。AI不再只是一个被动的工具,而是一个能够自主理解、规划、执行并完成复杂目标的“代理” 。用户只需要给定一个高级目标,AI Agent会自己拆解任务、使用工具(如调用API、搜索网络)、执行子任务,并在过程中自我纠错,最终向用户汇报结果。
例子:
- AutoGPT:给定一个目标如“研究一下市场上最好的跑鞋并给我一份报告”,它会自动分解任务:搜索跑鞋评测 -> 访问电商网站看价格和评论 -> 汇总信息 -> 生成报告。
- GPT-4o中的高级数据分析:你上传一个数据文件并让它“分析趋势并做成图表”,它会自动编写Python代码、运行、调试并生成结果。
- 未来场景:告诉旅行Agent“为我规划一个下个月去日本的7天家庭旅行”,它会自动订机票、酒店、安排行程并预约餐厅