大模型2 基础知识

215 阅读7分钟

一、 AI 和 AGI 概述

AI(Artificial Intelligence):是人工智能的缩写,它指的由人造的系统来模拟人类智能的技术,使机器能够像人一样学习、思考和做出决策,从而能够自主地执行各种任务

AGI(Artificial General Intelligence): 即通用人工智能,指的是具备与人类同等或更广泛认知能力的人工智能系统。它能够在不同领域自主完成复杂任务,并具备学习、创新和适应性。

1.1:AI 和 AGI 主要区别

特征人工智能 (AI / 窄AI)通用人工智能 (AGI)
范围狭窄、专用。专注于单一或有限的任务。广泛、通用。能够处理任何智力任务。
能力缺乏真正的理解。通过识别数据模式来运作,但不“理解”其含义。具备真正的认知能力,包括理解、推理和意识(理论上)。
学习与适应学习范围受限,无法将其知识轻松应用到预设范围之外。可以像人类一样学习,并将知识从一个领域灵活转移到另一个新领域。
目标由人类程序员预先设定和定义可以自主设定和追求目标
现状已实现并广泛应用在我们日常生活中。尚未实现,仍是未来愿景和长期目标。
例子语音助手、人脸识别、推荐算法、工业机器人。科幻电影中的角色,如《她》中的萨曼莎、《超能陆战队》中的大白(具备全面关怀能力时)、人类级别的智能机器人。

1.2 AI 应用分类

助手类搜索类定制Agent生活应用
ChatGPTPerplexityChatGPT GPTS石头扫地机器人
Kimi Chat秘塔AIcoze小米智能门锁
文小言DevvdifySiri
通义千文小爱同学智能语音助手
智谱清言小度智能屏
DeepSeek

Perplexity: 类似百度AI搜索

二、LLM大模型分类

国家公司对话产品大模型网址
美国OpenAIChatGPTGPTchatgpt.com/
美国MicrosoftCopilotGPT和未知copilot.microsoft.com/
美国GoogleGeminiGeminigemini.google.com/
美国MetaMeta AIllamahttps://www.meta.ai/
美国xAIGrokGrok3grok.com/
美国AuthropicClaudeClaudeclaude.ai/
中国百度文心一言文心yiyan.baidu.com/
中国深度探索deepseekDeepSeekchat.deepseek.com/
中国阿里云通义千问Qwen2.5-Maxtongyi.aliyun.com/qianwen
中国腾讯元宝混元T1yuanbao.tencent.com/chat/
中国智谱AI智谱清言GLMchatglm.cn/
中国月之暗面KimiChatMoonshotkimi.moonshot.cn/

三、多模态大模型介绍

多模态模型,特别是多模态大模型,是一种能够处理和整合多种类型数据(如文本、图像、音频、视频等)的深度学习模型

  • 功能

    跨模态理解与生成
    
    图像与文本理解
    
    文本生成图像 
    
    音频与文本理解
    
    
模型名称开发者特点应用场景
DALL-EOpenAI根据文本描述生成图像广泛应用于生成符合描述的图像
stable-diffusionstabilityai因其灵活性和开源性质,更适合那些希望深入了解模型工作原理并进行二次开发的专业人士艺术创作、游戏开发、电影和视频制作
midjoureny大卫·霍尔茨易用性和强大的社区支持著称,快速获得高质量图像结果的创意工作者艺术创作、广告营销、电影和视频制作
FLUX黑森林实验室(Black ForestLabs)高质量图像生成、多版本支持、无需负面提示词、风格多样创意产业、游戏开发、社交媒体内容创、个人创作
Janus-ProDeepSeek新颖的自回归框架,统一多模态理解和生成文生图领域,多模态生成
腾讯混元文生图模型腾讯中文原生DiT架构,支持中英文双语输入及理解文生图,视频多模态视觉生成
通义千问-QVQ- Max阿里通义千问QVQ视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。

四、专有模型介绍

  • 医疗 自动驾驶

五、大模型工作原理

1 大模型是怎么工作的?

通俗原理,根据上下文,猜下一个词(的概率)。。。

截屏2025-09-10 15.09.51.png

2 训练和推理

再深一点理解,大模型推理,通俗来讲,就是AI“动脑筋思考 并给出答案”的过程。就像你做完数学题、写完作文一样,AI也需要通过一系列计算来“想”出结果。

step1:接收输入 AI的“耳朵和眼睛”

step2:计算匹配 AI的“大脑运算” step3:输出答案AI的“嘴巴”

1. 我们给推理程序若干token, 程序会加载大模型权重,算出概率最高的一个token是什么

2. 用生成的token, 再加上上文,就能继续生成下一个token。以此类推,生成下一个token

3 token

截屏2025-09-10 15.13.47.png

六、大模型应用产品架构

截屏2025-09-10 15.17.15.png

三者的区别主要体现在 主动性、用户角色、复杂性 和 目标层级 上。

维度AI Embedded (嵌入式)AI Copilot (副驾驶)AI Agent (智能体)
核心隐喻一个更强大的零部件一个并肩工作的助手一个可以委派任务的员工
主动性被动、静态按需响应主动、自主
用户角色使用者评审者 & 指挥官委托者 & 监督者
交互模式无感交互交互式对话目标驱动
决策权,仅为功能服务用户拥有最终决策权AI拥有部分决策和执行权
任务复杂度,单一、特定任务中高,多步骤任务,复杂、多步骤项目
输出增强的产品功能建议、草稿、选项最终成果
关键技术要求高质量的特定AI模型强大的生成和对话能力规划、工具使用、长期记忆

1. AI Embedded 模式(嵌入式AI)

概述:这是最基础、最常见的AI集成形式。AI作为一种特性或功能组件被嵌入到现有的产品或工作流程中,在后台静默地增强产品的某个特定功能。用户通常不会明显地感觉到“我在和AI交互”,而是觉得某个功能变好用了

例子

  • 智能手机的相册:自动识别照片中的人物、地点和物体并进行分类。
  • 网易云音乐/Spotify的每日推荐:基于你的听歌历史,利用AI算法推荐新歌。

2. AI Copilot 模式(副驾驶模式)

概述:AI作为一个协作伙伴,与用户并肩工作。用户主动发起请求,AI提供建议、草稿、代码或方案,但决策权和执行权仍在用户手中。用户需要审核、修改和批准AI的输出。

例子

  • GitHub Copilot:程序员写代码时,它建议整行或整段代码,程序员决定是否采纳。
  • Microsoft 365 Copilot:用户让AI写一篇文档草稿、做一份PPT大纲、分析Excel数据,然后用户在此基础上进行编辑和优化。

3. AI Agent 模式(智能体模式)

  • 概述:这是最高级的模式。AI不再只是一个被动的工具,而是一个能够自主理解、规划、执行并完成复杂目标的“代理” 。用户只需要给定一个高级目标,AI Agent会自己拆解任务、使用工具(如调用API、搜索网络)、执行子任务,并在过程中自我纠错,最终向用户汇报结果。

例子

  • AutoGPT:给定一个目标如“研究一下市场上最好的跑鞋并给我一份报告”,它会自动分解任务:搜索跑鞋评测 -> 访问电商网站看价格和评论 -> 汇总信息 -> 生成报告。
  • GPT-4o中的高级数据分析:你上传一个数据文件并让它“分析趋势并做成图表”,它会自动编写Python代码、运行、调试并生成结果。
  • 未来场景:告诉旅行Agent“为我规划一个下个月去日本的7天家庭旅行”,它会自动订机票、酒店、安排行程并预约餐厅