大模型2 基础知识一、 AI 和 AGI 概述 AI（Artificial Intelligence）：是人工智能的缩写

一、 AI 和 AGI 概述

AI（Artificial Intelligence）：是人工智能的缩写，它指的由人造的系统来模拟人类智能的技术，使机器能够像人一样学习、思考和做出决策，从而能够自主地执行各种任务

AGI（Artificial General Intelligence）：即通用人工智能，指的是具备与人类同等或更广泛认知能力的人工智能系统。它能够在不同领域自主完成复杂任务，并具备学习、创新和适应性。

1.1：AI 和 AGI 主要区别

特征	人工智能 (AI / 窄AI)	通用人工智能 (AGI)
范围	狭窄、专用。专注于单一或有限的任务。	广泛、通用。能够处理任何智力任务。
能力	缺乏真正的理解。通过识别数据模式来运作，但不“理解”其含义。	具备真正的认知能力，包括理解、推理和意识（理论上）。
学习与适应	学习范围受限，无法将其知识轻松应用到预设范围之外。	可以像人类一样学习，并将知识从一个领域灵活转移到另一个新领域。
目标	由人类程序员预先设定和定义。	可以自主设定和追求目标。
现状	已实现并广泛应用在我们日常生活中。	尚未实现，仍是未来愿景和长期目标。
例子	语音助手、人脸识别、推荐算法、工业机器人。	科幻电影中的角色，如《她》中的萨曼莎、《超能陆战队》中的大白（具备全面关怀能力时）、人类级别的智能机器人。

1.2 AI 应用分类

助手类	搜索类	定制Agent	生活应用
ChatGPT	Perplexity	ChatGPT GPTS	石头扫地机器人
Kimi Chat	秘塔AI	coze	小米智能门锁
文小言	Devv	dify	Siri
通义千文			小爱同学智能语音助手
智谱清言			小度智能屏
DeepSeek

Perplexity：类似百度AI搜索

国家	公司	对话产品	大模型	网址
美国	OpenAI	ChatGPT	GPT	chatgpt.com/
美国	Microsoft	Copilot	GPT和未知	copilot.microsoft.com/
美国	Google	Gemini	Gemini	gemini.google.com/
美国	Meta	Meta AI	llama	https://www.meta.ai/
美国	xAI	Grok	Grok3	grok.com/
美国	Authropic	Claude	Claude	claude.ai/
中国	百度	文心一言	文心	yiyan.baidu.com/
中国	深度探索	deepseek	DeepSeek	chat.deepseek.com/
中国	阿里云	通义千问	Qwen2.5-Max	tongyi.aliyun.com/qianwen
中国	腾讯	元宝	混元T1	yuanbao.tencent.com/chat/
中国	智谱AI	智谱清言	GLM	chatglm.cn/
中国	月之暗面	KimiChat	Moonshot	kimi.moonshot.cn/

多模态模型，特别是多模态大模型，是一种能够处理和整合多种类型数据（如文本、图像、音频、视频等）的深度学习模型

功能

跨模态理解与生成

图像与文本理解

文本生成图像 

音频与文本理解

模型名称	开发者	特点	应用场景
DALL-E	OpenAI	根据文本描述生成图像	广泛应用于生成符合描述的图像
stable-diffusion	stabilityai	因其灵活性和开源性质，更适合那些希望深入了解模型工作原理并进行二次开发的专业人士	艺术创作、游戏开发、电影和视频制作
midjoureny	大卫·霍尔茨	易用性和强大的社区支持著称，快速获得高质量图像结果的创意工作者	艺术创作、广告营销、电影和视频制作
FLUX	黑森林实验室（Black ForestLabs）	高质量图像生成、多版本支持、无需负面提示词、风格多样	创意产业、游戏开发、社交媒体内容创、个人创作
Janus-Pro	DeepSeek	新颖的自回归框架，统一多模态理解和生成	文生图领域，多模态生成
腾讯混元文生图模型	腾讯	中文原生DiT架构，支持中英文双语输入及理解	文生图，视频多模态视觉生成
通义千问-QVQ- Max	阿里	通义千问QVQ视觉推理模型，支持视觉输入及思维链输出，	在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。

通俗原理，根据上下文，猜下一个词（的概率）。。。

截屏2025-09-10 15.09.51.png

再深一点理解，大模型推理，通俗来讲，就是AI“动脑筋思考并给出答案”的过程。就像你做完数学题、写完作文一样，AI也需要通过一系列计算来“想”出结果。

step1:接收输入 AI的“耳朵和眼睛”

step2:计算匹配 AI的“大脑运算” step3:输出答案AI的“嘴巴”

1. 我们给推理程序若干token, 程序会加载大模型权重,算出概率最高的一个token是什么

2. 用生成的token, 再加上上文,就能继续生成下一个token。以此类推,生成下一个token

截屏2025-09-10 15.13.47.png

截屏2025-09-10 15.17.15.png

三者的区别主要体现在 主动性、用户角色、复杂性 和 目标层级 上。

维度	AI Embedded (嵌入式)	AI Copilot (副驾驶)	AI Agent (智能体)
核心隐喻	一个更强大的零部件	一个并肩工作的助手	一个可以委派任务的员工
主动性	被动、静态	按需响应	主动、自主
用户角色	使用者	评审者 & 指挥官	委托者 & 监督者
交互模式	无感交互	交互式对话	目标驱动
决策权	无，仅为功能服务	用户拥有最终决策权	AI拥有部分决策和执行权
任务复杂度	低，单一、特定任务	中高，多步骤任务	高，复杂、多步骤项目
输出	增强的产品功能	建议、草稿、选项	最终成果
关键技术要求	高质量的特定AI模型	强大的生成和对话能力	规划、工具使用、长期记忆

概述：这是最基础、最常见的AI集成形式。AI作为一种特性或功能组件被嵌入到现有的产品或工作流程中，在后台静默地增强产品的某个特定功能。用户通常不会明显地感觉到“我在和AI交互”，而是觉得某个功能变好用了

例子：

概述：AI作为一个协作伙伴，与用户并肩工作。用户主动发起请求，AI提供建议、草稿、代码或方案，但决策权和执行权仍在用户手中。用户需要审核、修改和批准AI的输出。

例子：

概述：这是最高级的模式。AI不再只是一个被动的工具，而是一个能够自主理解、规划、执行并完成复杂目标的“代理” 。用户只需要给定一个高级目标，AI Agent会自己拆解任务、使用工具（如调用API、搜索网络）、执行子任务，并在过程中自我纠错，最终向用户汇报结果。

例子：

AutoGPT：给定一个目标如“研究一下市场上最好的跑鞋并给我一份报告”，它会自动分解任务：搜索跑鞋评测 -> 访问电商网站看价格和评论 -> 汇总信息 -> 生成报告。
GPT-4o中的高级数据分析：你上传一个数据文件并让它“分析趋势并做成图表”，它会自动编写Python代码、运行、调试并生成结果。
未来场景：告诉旅行Agent“为我规划一个下个月去日本的7天家庭旅行”，它会自动订机票、酒店、安排行程并预约餐厅