人工智能发展阶段
”人工智能”(AI)这个术语通常用于描述致力于执行接近人类智能任务(如语音识别、语言翻译和视觉感知)的计算机系统。
AI 发展的两个阶段:感知智能时代和认知智能时代。
感知智能时代
感知智能是指通过视觉、听觉、触觉等传感器获取环境信息,并与之交互的能力。其核心在于环境感知与交互,依赖传感器(如激光雷达、摄像头)和算法处理。
感知智能在人工智能领域,是实现机器与外界交互的基础,涉及多传感器融合技术。以自动驾驶为例,其通过激光雷达、摄像头等感知设备采集环境数据,结合AI算法实现实时决策。
截至2021年,机器在语音识别、图像识别等方面已接近人类水平,但仍属于弱人工智能范畴。
认知智能时代
认知智能是人工智能的高级形态,指机器通过理解、推理等类人能力构建决策系统。该技术聚焦概念抽象、自主推理等人类高阶思维能力的机器模拟,目前机器在概念、意识、观念等认知表现上仍存在系统性差距。至2023年,其技术特征已形成知识图谱与深度学习的融合。
2025年,有观点指出AI的未来将从“感知智能”迈向“认知智能”,理解人类意图与情感是其关键瓶颈。2026年,汉王科技宣布构建了覆盖感知智能、认知智能、具身智能的全栈AI技术体系;毕马威报告指出未来竞争高地将集中在人机协同的“认知智能”;周鸿祎指出AI已经从模仿表象走到了理解规律,是一次认知的大跃迁。
什么是大模型?
大模型(LLM)是指由人工神经网络构建的一类具有大量参数的人工智能模型。其通常先通过自监督学习或半监督学习在海量数据上进行预训练,然后通过指令微调和人类对齐等方法进一步优化其性能和能力。
大模型具有参数量大、训练数据大、计算资源大等特点,拥有解决通用任务、遵循人类指令、进行复杂推理等能力。
目前,大模型已在多个领域得到广泛应用,包括搜索引擎、智能体、相关垂直产业及基础科学等领域,推动了各行业的智能化发展。
在回顾语言人工智能的近期历史时,我们观察到主要是生成式的仅解码器(Transformer)模型被称为LLM。很多人认为LLM的关键特点就是“大”,但在实践中,这样的描述显然有局限性。
如果我们创建一个与GPT-3能力相当但参数量减少到原来的1/10的模型,这样的模型是否就不属于“LLM”的范畴了?
同样,如果我们发布一个与GPT-4同等规模的模型,它能够进行准确的文本分类,但没有生成能力,那么它还能被称为“LLM”吗?即使它的主要功能不是语言生成,但它仍然可以表示文本。
这类定义的问题在于我们排除了一些能力很强的模型。无论我们给某个模型起什么名字,都不会改变它的行为方式。
“LLM”这个术语的定义随着新模型的发布而不断演变,“大”的定义是相对的,今天被认为“大”的模型,明天可能就显得很小了。目前同一事物有很多不同的称呼,“LLM”也包括那些不生成文本且可以在消费级硬件上运行的模型。
常见的大模型
大模型的主要类别包括:大语言模型、视觉大模型、多模态大模型以及基础科学大模型等。
| 模型名称 | 开源 | 发布公司 | 主要特点 | 关键技术 |
|---|---|---|---|---|
| DeepSeek | 是 | 深度求索 | 专注于视觉与语言多模态结合,支持图像生成与推理 | 多模态学习、Transformer架构 |
| 通义千问(Qwen) | 是 | 阿里巴巴 | 开源大模型,支持中文理解与生成,具备强大的推理能力 | GPT-3架构优化 |
| 智谱清言(GLM) | 是 | 质谱科技 | 聚焦中文NLP,强大的跨行业能力 | 自监督学习、Transformer架构 |
| 豆包(Doubao) | 否 | 字节跳动 | 生成式AI产品,强调多轮对话和情感理解,生成符合上下文的文本 | GPT-3架构、知识增强 |
| 混元(Tencent Hunyuan) | 是 | 腾讯 | 提供多模态AI能力,支持文本、图像、视频等多种数据类型的处理 | 多模态融合、深度学习 |
| Kimi | 是 | 月之暗面 | 专注于自然语言处理,提供高效的文本生成和理解能力 | 自监督学习、Transformer架构 |
| GPT | 否 | OpenAI | 强大的自然语言处理能力,支持多种语言任务 | Transformer架构、大规模预训练 |
| Glaude | 否 | Anthropic | 专注于生成安全和可靠的文本,支持成文本生成 | Constitutional AI、Transformer架构 |
| LLama | 是 | Meta | 开源大模型,支持多种语言任务,注重效率和可扩展性 | Transformer架构、自监督学习 |
| Gemini | 否 | 多模态模型,支持文本、图像和视频处理 | 多模态学习、Transformer架构 |
通义千问大模型版本区分:
- 通义千问2.5:这是通义千问第2.5代通用模型。
- 版本编号(如0314、2025-03-05):这些数字通常代表模型的发布或修订日期。
- 72B:指大模型的内部参数量,比如还有DeepSeek满血版DeepSeek-671B,1个B为10亿。
- 1M:这个标签通常指的是模型处理文本时的最大token数(或“上下文窗口"大小)。32k意味着模型能够在一个实例中处理最多32000个token。这对于处理长文本特别有用。
- Turbo:这可能指的是模型的一个优化版本,旨在提高速度和效率,可能在保持生成质量的同时减少了资源消耗。
- Preview:这通常意味着该模型是供早期访问、测试或预览的版本。它可能不是最终的商业版本,但提供了对即将发布功能的早期查看。
- 带V字:这意味着模型被设计或优化以处理视觉数据,比如图像或视频。
大模型赋能行业分析
垂类大模型(Vertical Large Language Model)是针对特定行业或领域进行深度优化的人工智能模型,通过融合行业知识、业务规则及场景数据实现精准应用,具有专业性、合规性及场景适配性特征。2024年成为其规模化应用元年,全国已有197个大模型通过备案,其中行业大模型占比70% 。
该模型以“平台+应用+服务”为落地路径,涵盖数据工厂、算力工厂、模型工厂及智能体工厂等核心模块,支撑医疗、金融、政务、工业等垂直领域的智能问答、文档解析、工艺优化等场景,采用LoRA微调技术实现业务精准适配。
大模型 + 金融
| 核心类别 | 核心定位 |
|---|---|
| 技术研发与运营 | 作为基础支撑类别,聚焦AI基础设施建设与运维,涵盖模型训练优化、系统运维、通用AI和大数据平台搭建等场景 |
| 运营管理数字化 | 推动内部流程数字化改造,以实现协同效率提升与运营成本优化 |
| 风险合规及核验 | 强化全流程风控与合规保障,涉及反欺诈、身份验证、合规审查及审计等关键环节 |
| 交易与支付结算 | 保障资金流转安全高效,包含交易撮合、清算结算及支付安全防护等场景 |
| 客户营销服务 | 以客户为中心,依托技术实现精准触达、需求挖掘与服务优化,包含智能客服、投诉处理等典型场景 |
| 信贷与融资 | 覆盖信贷全生命周期,着力优化授信审批、贷中贷后管理等流程 |
| 企业社会责任 | 聚焦ESC理念践行,覆盖绿色金融、责任投资及投资者教育等领域 |
| 网络和信息安全 | 以合规与数据安全为核心,聚焦安全合规与审计、数据安全防护、网络攻击防御等应用场景 |
| 资产管理与投顾 | 为投资者提供资产配置、投顾辅助及理财规划服务,涵盖智能投顾投资组合管理等场景 |
| 投保与理赔 | 优化保险核心业务环节,实现智能投保、理赔审核及定损评估的效能提升 |
| 生态伙伴赋能 | 通过技术输出赋能产业链伙伴,构建协同金融生态 |
大模型 + 政务
大模型 + 医疗
大模型 + 新闻
大模型的社会和伦理影响
偏见和公平性
LLM在训练时使用了大量可能包含偏见的数据。模型可能会从这些偏见中学习,再现乃至放大这些偏见。由于训练LLM的数据集很少公开,除非亲自尝试,否则很难明确它们可能包含哪些偏见。
透明度和问责制
由于LLM具有令人难以置信的能力,在与之交互时,我们并不总是能清楚分辨是在与人类还是模型对话。因此,当没有人类参与时,在人机交互中使用LLM可能会产生意想不到的后果。例如,在医疗领域使用的基于LLM的应用可能会被归类为医疗设备,因为它们可能会影响患者的健康。
有害内容
LLM生成的内容不一定是真实的,且它们可能“自信地”输出错误的文本。此外,它们还可能被用于生成假新闻、文章和其他具有误导性的信源。
知识产权
LLM输出内容的知识产权应该归属于你,还是模型创造者?当输出与训练数据中的某个短语相似时,知识产权是否属于该短语的作者?由于大多数情况下我们无法访问训练数据,我们很难确定模型何时使用了受版权保护的材料。
监管
由于LLM的巨大影响力,各国政府开始对商业应用进行监管。例如欧盟《人工智能法案》,该法案对包括LLM在内的基础模型的开发和部署进行监管。
大模型编程入门
- 获取API Key:阿里云百炼控制台-获取API Key
- 配置API Key到环境变量:阿里云百炼控制台-配置API Key到环境变量
- 安装openai:pip install openai,如果运行失败,请将pip改为pip3。可以切换阿里云镜像源加速下载。
- 创建python文件,写入如下代码:
import os
from openai import OpenAI
client = OpenAI(
# 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx"
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
# 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
model="qwen-plus",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你是谁?"},
]
)
print(completion.model_dump_json())