大模型应用全景指南:从基础模型到垂直场景
一、基础大模型 (Foundation Models)
AI技术的最底层,提供通用的自然语言理解、生成、推理和多模态能力。
| 公司/组织 | 模型系列 | 主要特点与介绍 |
|---|
| OpenAI | GPT系列 | 通用大模型的标杆,开启大模型时代,在通用对话、推理和代码生成方面表现卓越(深度学习研究还尝试过论文方向,总体是六边形战士) |
| Anthropic | Claude系列 | 注重安全与长上下文,编码能力极强。强调AI"对齐"与安全性,在处理超长文档方面表现出色。深度集成到Cursor、Trae海外版等工具中,适合重度开发使用 |
| Google | Gemini系列 | 原生多模态的巨头。从一开始就为处理文本、图像、音频和视频而设计,深度集成于Google生态 |
| Meta | Llama系列 | 高质量开源模型的领导者。以卓越性能和开放许可证推动AI开源社区发展。(不可直接使用,可以在huggingface下载权重本地部署或通过ollama部署) |
| Mistral AI | Mistral系列 | 欧洲的AI新星。以高效的"混合专家模型"(MoE)架构闻名,保持高性能同时降低计算成本 |
| xAI | Grok系列 | 追求真实与幽默感。由埃隆·马斯克创立,能实时访问X平台数据,Deep Research应用得较早 |
| DeepSeek | DeepSeek系 | 专注代码与经济高效的开源。2025年2月发布的R1引发全球关注,中文表现总体可以,在大模型产品中属于"水桶机"类型 |
| 智谱AI | ChatGLM系列 | 清华背景,国内技术先驱。国内最早投入大模型研发的团队之一,ChatGLM系列是国内开源社区的重要力量 |
| 阿里巴巴 | Qwen系列 | 国内开源生态的主力。提供从极小参数到千亿参数的全尺寸模型,在中文语境下的报告撰写、文案创作方面表现优秀(手机端千问已使用一年) |
| 百度 | 文心一言 | 深度融合中文理解。在中文语言和文化理解上有深厚积累,在国内政企市场应用广泛 |
| 腾讯 | 混元大模型 | 融入腾讯生态的全能选手。集成在腾讯会议、腾讯文档等众多产品中,通过"腾讯元宝"App向C端用户提供服务(2026年2月微信元宝领红包活动) |
| 华为 | 盘古大模型 | 全栈自研的工业级AI。从昇腾芯片、MindSpore框架到盘古大模型,构建完全自主的AI技术栈,面向政企和工业领域,不能直接使用!!! |
| 月之暗面 | Kimi | 超长上下文的突破者。支持百万级汉字的超长上下文输入,非常适合处理和分析海量文本资料(本文就是用Kimi整理合并的) |
| 百川智能 | Baichuan系列 | 技术驱动的开源力量。由搜狗创始人王小川带队,主要将大模型拓展到医疗垂直领域。不能直接在网页使用!!! |
| 商汤科技 | 商汤日日新 | 视觉领域的AI巨头。依托计算机视觉领域的长期积累,在图文生成、数字人等视觉相关任务上表现突出 |
| 科大讯飞 | 讯飞星火 | 语音与教育领域的专家。凭借语音识别和合成领域的优势,在多语言交流、教育辅导、智能座舱等场景中落地能力强 |
二、AI原生应用与平台
(一)通用AI Agent与对话平台

| 应用/平台 | 定位 | 核心功能与特点 |
|---|
| Manus | 通用型AI Agent标杆 | 截止2025年最成功的通用型AI Agent,已被Meta以数十亿美元收购。实现从任务规划到执行完成的全流程,自动浏览网站、提取数据、填表、生成报告。做PPT能力突出 |
| Perplexity AI | 对话式搜索引擎 | 下一代搜索引擎,通过对话理解用户意图,直接给出整合信息来源的精炼答案。信息检索首选,网页信息深度检索、报表汇总能力强,速度快,适合快速查找和核实信息 |
| Openclaw (原ClawdBot) | 开源个人助手 | 2026年1月爆火的开源项目,完全开源和自托管,个人助手可以接入微信、钉钉等办公。该说不说,改名是真的频繁,今天出的教程明天就改名了 。看着和OpenAI优点接近,会不会还改~哈哈 |
| Coze | 一站式智能体开发平台 | 字节出品,提供友好的图形化界面,通过拖拽节点方式组合大模型、插件(新闻、天气)、知识库、工作流,快速创建功能强大的AI Bot,国内版的叫做扣子 |
(二)内容创作类
1. 视频生成

| 工具 | 核心特点 | 适用场景 |
|---|
| LumeFlow.AI | 一站式AI影片生成,支持文字/图片/视频一键生成高质量短视频,操作简单无复杂参数 | 快速短视频创作 |
| OpenAI Sora | 基于Diffusion Transformer(DiT),定义长时序视频,最长60s高清视频。目前需ChatGPT Pro付费用户且需申请 | 长时序高质量视频 |
| Runway | 视频生成领域标杆,细腻电影感+强大可控性,写实风格强,已引入Gen4.5 image to video。采用"订阅+点数"模式,免费版125次一次性额度 | 专业影视制作 |
| Pika | 每月80免费额度,生成3秒视频,主页提供多种风格灵感 | 创意快速生成 |
| Luma Dream Machine | 4秒1080p视频,无论是否付费,生成视频均无水印 | 无水印需求创作 |
| 可灵 (昆仑万维) | 国产"Sora级"视频大模型,最长2分钟,偏写实风格,人脸细节好 | 真实人物长视频 |
| 即梦AI (字节) | 界面清爽上手方便,支持动作模仿,与抖音生态联动,挺有意思的 | 抖音爆款内容 |
| 海螺AI (Minimax) | 支持首尾帧控制,画质优秀,Minimax在音视频多模态方面实力较强 | 精细控制视频生成 |
| 万兴天幕 (万兴科技) | 对标Runway,提供丰富行业模版库,支持高级运镜控制,生成速度较慢 | 专业剪辑+可控性 |
| 腾讯混元 | 融入腾讯生态,无独立应用 | 企业内部视频需求 |
| 通义万相 (阿里) | 阿里系视频生成 | 阿里生态内容创作 |
选择建议:想做抖音爆款→即梦;需要真实人物长视频→可灵;专业剪辑+可控性→万兴天幕/Runway
2. 图像生成

使用路径分类:
- 通用大模型:通义千问、百度文心一言、字节豆包、腾讯元宝等
- 视频生成类附带:即梦、可灵、通义万相等视频工具均支持高质量图片生成
- 专业图像工具:
| 工具 | 核心特点 |
|---|
| Midjourney | 全球最具影响力的AI艺术创作社区,艺术感和想象力顶级,通过在Discord社区使用指令生成 |
| Stable Diffusion | 开源文生图基石,开源文生图大模型的基石,也是全球最广泛部署的 AI 图像生成技术底座。虽然无法直接使用,但其开发人员应用生态(如 ComfyUI、Fooocus、WebUI)广,也可以使用封装好的 Web 应用如 Fooocus、Draw Things。 |
| 即时设计 | 面向UI/UX设计师的国产在线协作设计平台,深度融合AI辅助能力 |
| Whee (美图) | 美图公司推出,主打"零门槛艺术创作",美图秀秀AI版 |
建议流程:描述场景→大模型优化提示词→手动优化细节→生成图片→追加提示词优化。付费用户建议手动优化时尽可能多提供内容
3. 音频创作

国际工具:
| 工具 | 定位 | 核心特点 |
|---|
| Suno AI | AI音乐生成 | 全球最成熟的AI音乐生成平台,带人声歌曲+纯音乐,个性化和专业性强,完全闭源商用。纯音乐表现优于人声 |
| Udio | AI音乐生成 | Suno最强竞品,质量也不错,免费额度更多,目前不支持中文,闭源 |
| ElevenLabs | AI语音合成 | 顶尖TTS平台,被BBC、网飞用于配音,音色克隆及STT转化,闭源 |
| MusicGen (Meta) | 开源音乐生成 | 开源音乐生成模型代表,可在Huggingface下载模型权重,适合本地部署 |
国内工具:
| 工具 | 定位 | 核心特点 |
|---|
| Minimax Audio | TTS技术 | 国内TTS技术第一梯队,支持多达32种语言和部分方言 |
| 讯飞听见等 | 语音SaaS平台 | 科大讯飞推出的讯飞听见、讯飞写作、讯飞同传等 |
| 通义听悟 (阿里) | 会议记录 | 与淘宝、钉钉深度集成,适合会议记录和待办事项。2025年底开始限制每月免费使用时长,开启付费模式 |
| 腾讯智聆 | 语音服务 | 与腾讯应用深度联动,腾讯会议常用 |
| 火山引擎语音 (字节) | B端语音服务 | 服务抖音、今日头条、飞书等,无直接面向C端产品 |
| 海绵音乐 (字节) | 中文音乐生成 | 中文适配强,文字/图片生成完整歌曲,可与抖音联合分发,零门槛快速出歌 |
| 网易天音 | 专业音乐创作 | 专业度高,适合有一定基础的用户 |
| 天谱乐 (趣丸科技) | 多模态音乐生成 | 全球首个多模态音乐生成大模型,支持文本、图片、视频输入,界面风格简洁易操作 |
| 音潮 | 跨模态创作 | 专注于跨模态创作,生成音乐人声流畅度不错,网页界面简单,侧重手机端 |
三、垂直领域与企业级解决方案
| 应用/平台 | 垂直领域 | 核心功能与特点 |
|---|
| 飞书 Aily | 办公协同 | 深度融入办公场景的智能助手。理解和处理飞书文档、日历、会议信息,自动汇总会议纪要、管理待办事项、快速查找内部资料,提升团队协作效率 |
| 实在智能 | RPA+AI (超自动化) | 第三代智能数字员工。将传统RPA与大模型结合,使数字员工不仅能执行固定流程,还能理解文档、进行对话、处理非结构化数据,实现更复杂的业务流程自动化 |
| 讯飞星火智能体 | 教育、医疗 | 行业知识增强的智能体。教育领域扮演AI老师进行个性化辅导;医疗领域辅助医生撰写病历和解读报告 |
| GitHub Copilot | 软件开发 | AI编程的革命性工具。作为IDE插件实时理解代码,自动补全代码片段、函数甚至整个类,极大提高编程效率和质量(关于AI软件开发这里就列一个古早的,后面单开一页) |
| Harvey AI | 法律服务 | 专为律师设计的AI平台。通过海量法律文件和案例学习,帮助律师进行案例研究、起草合同、分析法律文件、预测案件结果 |
| 百川医疗大模型 | 医疗健康 | 专注于医疗领域的垂直大模型。通过医学文献、病历和临床指南学习,辅助医生诊断、提供治疗建议,用通俗语言向患者解释病情 |
| 集成办公AI | 通用办公 | Notion AI、Office、WPS、钉钉、飞书等均集成AI服务。飞书多维表格的BI可视化对非技术人员较友好 |
四、数字人智能体

| 平台 | 定位 | 核心特点 |
|---|
| HeyGen | AI数字人口播视频 | 典型AI数字人口播视频生成平台。输入脚本生成带真人形象的讲解视频,文本转语音,多语言多风格,表情和口型自然。视频翻译功能强大,能保留原视频人物音色和口型,实现无缝跨语言传播 |
| 蝉镜数字人 | 数字人平台 | 国产数字人解决方案,适合电商场景 |
| 腾讯智影 | 智能视频平台 | 腾讯云智能视频平台,提供剪辑、配音和数字人口播,面向自媒体创作者和企业做课程、宣传片、解说视频 |
| 百度慧播星 | 智能直播工具 | 智能直播和数字人口播工具,支持虚拟主播24小时直播或自动讲解,面向主播、小商家、教育机构 |
| 硅基智能 | B端数字人 | 主打虚拟主播、虚拟客服等数字人解决方案,用于政务、金融、文旅、地产等行业导览、接待和活动主持 |
| 一知智能 | 智能客服数字人 | 以智能客服和知识问答为核心,数字人为外在形象,帮企业在网站、APP、小程序部署会说话、能办事的数字人客服 |
| 蚂蚁集团数字员工 (数字蚂力) | 企业AI员工 | 面向企业的AI员工团队,做客服、营销、巡店、运营等工作,按"提升人效、降本增效"提供B端方案 |
五、工作流与Agent编排工具
(一)低代码/可视化平台
| 工具 | 核心特点 | 详细介绍 |
|---|
| Dify | 企业级开源平台,功能全面 | 国内领先的LLM应用开发平台,提供可视化AIGC应用开发、知识库与工作流编排。集成提示词工程、流程编排、API部署,易于集成与部署,对国内开发者非常友好 |
| Coze | 字节系,生态全模版多 | 字节跳动的零代码平台,拖拽式开发,内置海量插件,可快速发布至多平台(飞书、微信等)。一站式智能体开发,图形化界面拖拽节点组合大模型、插件、知识库、工作流 |
| n8n | 开源,可私有化部署 | 强大的工作流自动化工具,通过节点连接400+常见Web服务(Gmail、Slack、Notion),可视化创建自动化流程。与AI模型结合可实现更智能的自动化 |
| 百度千帆 AgentBuilder | 基于文心大模型 | 提供零/低代码开发模式,适合构建企业级智能客服与行业方案 |
| 阿里云 灵积 | 开放云雀等模型 | 支持插件扩展和全渠道发布,适合开发智能聊天机器人 |
| Flowise | 拖放式可视化开发 | 专为LLM设计的可视化开发工具,可组合提示词、记忆、检索等模块 |
(二)编程框架(全代码)
Agent应用的开发框架目前是百家争鸣,不同场景下各个框架各有特点,很多时候是混合使用。同时大厂如阿里的AgentScope也在开发自己的框架,并通过生态在钉钉中积极反馈改进。
| 工具 | 核心特点 | 详细介绍 |
|---|
| LangChain / LangGraph | 模块化生态强大 | 构建LLM应用的核心代码库(Python/JS),提供链、智能体、记忆等模块化工具,用于连接大模型、管理记忆、与外部数据源交互。LangGraph是其基于图的推理扩展,提供最大灵活性和控制力 |
| AutoGen | 微软多智能体协作 | 微软推出的多智能体协作框架,以对话驱动,支持定义多种智能体进行复杂任务协作 |
| CrewAI | 角色驱动协作 | 角色驱动的多智能体协作框架,可定义不同角色智能体分工合作,适合多步骤任务 |
| Semantic Kernel | 微软轻量级SDK | 轻量级SDK,支持将AI功能快速集成到传统应用中,擅长规划与插件调用 |
| LlamaIndex | RAG应用专用 | 专为高效构建RAG应用设计,提供数据连接、索引、检索接口,与LangChain常搭配使用 |
| Haystack | 端到端NLP框架 | 开源NLP框架,用于构建端到端的问答、搜索与对话系统,模块化程度高 |
(三)桌面级Agent应用
| 工具 | 核心特点 | 详细介绍 |
|---|
| 实在Agent | RPA+AI,国产信创 | 杭州实在智能推出的桌面级Agent,整合RPA与自研屏幕语义理解技术,通过自然语言对话驱动。擅长在国产信创环境(如统信UOS) 中自动执行跨软件任务,保留传统RPA功能,可构建组件或通过智能体完成浏览器任务 |
| Claude Cowork (海外) | 协同办公标杆 | Anthropic推出的标杆产品,侧重协同办公与任务规划,引爆了桌面Agent风潮 |
| OpenClaw / Clawdbot (开源) | 开源高权限 | 著名开源项目,通过调用Claude等API获得"大脑",系统级权限高,可深度操控电脑,适合开发者和极客 |
| 天工Skywork桌面版 | 本地隐私安全 | 主打本地文件深度理解与处理,支持多模态生成,隐私安全突出(本地虚拟机隔离),堪称"Windows版Claude Cowork" |
| 阶跃AI桌面伙伴 | 早期入局者 | 能连接操作系统,在本地、浏览器和终端环境作业,提供"悬浮窗"和可分享的"妙计"功能 |
| MiniMax Agent 2.0 | AI原生工作台 | 定位"AI原生工作台",支持Mac/Windows,通过接管本地环境操作文件和软件,能积累长期记忆 |
| 阿里QoderWork | 阿里生态 | 用户通过一句话描述,即可调用授权应用完成文件整理、数据处理等任务 |
| 腾讯WorkBuddy | 面向非技术用户 | 腾讯云推出的桌面Agent,面向非技术用户,可自主完成从本地文件处理到内容生成等复杂多步骤工作流 |
| 微软UFO2 (开源框架) | 多智能体底层框架 | 微软的开源多智能体框架,从操作系统底层构建,允许多个专用Agent协同工作,可靠性和扩展性高 |
六、浏览器与智能操作工具
| 工具 | 定位 | 核心特点 |
|---|
| Manus | 通用型AI Agent | 全流程任务执行,从任务规划到执行完成(成果交付),自动浏览网站、提取数据、填表、生成报告。已被Meta以数十亿美元收购 |
| Perplexity | 增强型搜索引擎 | 信息检索首选,网页信息深度检索、报表汇总能力强,速度快,定位增强型搜索引擎 |
| Comet (Perplexity) | AI浏览器 | Perplexity推出的AI浏览器,在Perplexity右上角下载,但下载后可能无法正常安装 |
| Neon AI Browser (Opera) | AI浏览器 | Opera推出的AI浏览器,需订阅(19.9美元/月) |
| Kimi+浏览器插件 | 浏览器助手 | 即插即用,适合浏览器内网页阅读与轻量任务,点问笔划词解释、全文总结、侧边栏持续对话 |
| Openclaw (原ClawdBot) | 开源个人助手 | 2026年1月爆火,完全开源和自托管,适用于日常工作自动化、开发效率、浏览器相关任务,适合开发者 |
| 实在Agent | 桌面级Agent | RPA的AI增强版,可构建组件或通过智能体完成浏览器任务,擅长国产信创环境 |
七、使用建议总结
核心原则:没有最好的工具,只有最合适的工具。
| 场景 | 推荐工具 | 理由 |
|---|
| 代码辅助 | Claude | 编码能力极强,深度集成Cursor、Trae等开发工具 |
| 长文档处理 | Kimi、Claude | Kimi支持百万字上下文(本文就是用Kimi整理合并的);Claude长上下文+安全性强 |
| 中文内容创作 | 阿里Qwen、百度文心一言、DeepSeek | Qwen在中文文案创作自然;DeepSeek是"水桶机"类型 |
| 视频生成-专业级 | Runway、万兴天幕 | 细腻电影感、强大可控性、高级运镜 |
| 视频生成-短视频/抖音 | 即梦AI | 界面清爽、动作模仿、与抖音生态联动 |
| 视频生成-真实人物长视频 | 可灵 | 国产"Sora级"、最长2分钟、写实风格 |
| 视频生成-无水印 | Luma Dream Machine | 无论是否付费均无水印 |
| 音乐生成-国际 | Suno AI、Udio | Suno最成熟;Udio免费额度更多 |
| 音乐生成-中文 | 海绵音乐、天谱乐 | 海绵中文适配强+抖音联动;天谱乐多模态输入 |
| 办公协同 | 飞书Aily、Notion AI、钉钉、飞书集成AI | 飞书Aily深度融入办公场景;飞书多维表格BI可视化对非技术人员友好(根据实际办公场景选择) |
| 智能体开发-无代码 | Coze | 字节生态、拖拽开发、模板多、一键发布多平台 |
| 智能体开发-低代码 | Dify | 功能全面、企业级、对国内开发者友好 |
| 智能体开发-开源可私有化 | n8n | 开源、连接400+服务、可私有化部署 |
| 智能体开发-全代码 | LangChain / LlamaIndex | 模块化工具、最大灵活性、复杂应用底层框架(实际开发的框架单开一页,这俩具有代表性,但并非推荐适用) |
| 企业级自动化 | 实在智能 | RPA+AI结合、国产信创环境支持、处理非结构化数据 |
| 桌面Agent-普通用户 | 腾讯WorkBuddy、天工Skywork | WorkBuddy面向非技术用户;天工隐私安全突出(目前桌面级感觉仍有很长一段路走) |
| 桌面Agent-开发者 | OpenClaw/Moltbot | 开源、高权限、可深度定制(安全性以及海量token消耗仍是问题) |
| 信息检索/搜索 | Perplexity | 对话式搜索、直接给答案、速度快 |