01大语言模型的基础认知

0 阅读10分钟

人工智能发展阶段

”人工智能”(AI)这个术语通常用于描述致力于执行接近人类智能任务(如语音识别、语言翻译和视觉感知)的计算机系统。

AI 发展的两个阶段:感知智能时代和认知智能时代。

感知智能时代

感知智能是指通过视觉、听觉、触觉等传感器获取环境信息,并与之交互的能力。其核心在于环境感知与交互,依赖传感器(如激光雷达、摄像头)和算法处理。

感知智能在人工智能领域,是实现机器与外界交互的基础,涉及多传感器融合技术。以自动驾驶为例,其通过激光雷达、摄像头等感知设备采集环境数据,结合AI算法实现实时决策。

截至2021年,机器在语音识别、图像识别等方面已接近人类水平,但仍属于弱人工智能范畴。

认知智能时代

认知智能是人工智能的高级形态,指机器通过理解、推理等类人能力构建决策系统。该技术聚焦概念抽象、自主推理等人类高阶思维能力的机器模拟,目前机器在概念、意识、观念等认知表现上仍存在系统性差距。至2023年,其技术特征已形成知识图谱与深度学习的融合。

2025年,有观点指出AI的未来将从“感知智能”迈向“认知智能”,理解人类意图与情感是其关键瓶颈。2026年,汉王科技宣布构建了覆盖感知智能、认知智能、具身智能的全栈AI技术体系;毕马威报告指出未来竞争高地将集中在人机协同的“认知智能”;周鸿祎指出AI已经从模仿表象走到了理解规律,是一次认知的大跃迁。

什么是大模型?

大模型(LLM)是指由人工神经网络构建的一类具有大量参数的人工智能模型。其通常先通过自监督学习或半监督学习在海量数据上进行预训练,然后通过指令微调和人类对齐等方法进一步优化其性能和能力。

大模型具有参数量大、训练数据大、计算资源大等特点,拥有解决通用任务、遵循人类指令、进行复杂推理等能力。

目前,大模型已在多个领域得到广泛应用,包括搜索引擎、智能体、相关垂直产业及基础科学等领域,推动了各行业的智能化发展。

在回顾语言人工智能的近期历史时,我们观察到主要是生成式的仅解码器(Transformer)模型被称为LLM。很多人认为LLM的关键特点就是“大”,但在实践中,这样的描述显然有局限性。

如果我们创建一个与GPT-3能力相当但参数量减少到原来的1/10的模型,这样的模型是否就不属于“LLM”的范畴了?

同样,如果我们发布一个与GPT-4同等规模的模型,它能够进行准确的文本分类,但没有生成能力,那么它还能被称为“LLM”吗?即使它的主要功能不是语言生成,但它仍然可以表示文本。

这类定义的问题在于我们排除了一些能力很强的模型。无论我们给某个模型起什么名字,都不会改变它的行为方式。

“LLM”这个术语的定义随着新模型的发布而不断演变,“大”的定义是相对的,今天被认为“大”的模型,明天可能就显得很小了。目前同一事物有很多不同的称呼,“LLM”也包括那些不生成文本且可以在消费级硬件上运行的模型。

常见的大模型

大模型的主要类别包括:大语言模型、视觉大模型、多模态大模型以及基础科学大模型等。

模型名称开源发布公司主要特点关键技术
DeepSeek深度求索专注于视觉与语言多模态结合,支持图像生成与推理多模态学习、Transformer架构
通义千问(Qwen)阿里巴巴开源大模型,支持中文理解与生成,具备强大的推理能力GPT-3架构优化
智谱清言(GLM)质谱科技聚焦中文NLP,强大的跨行业能力自监督学习、Transformer架构
豆包(Doubao)字节跳动生成式AI产品,强调多轮对话和情感理解,生成符合上下文的文本GPT-3架构、知识增强
混元(Tencent Hunyuan)腾讯提供多模态AI能力,支持文本、图像、视频等多种数据类型的处理多模态融合、深度学习
Kimi月之暗面专注于自然语言处理,提供高效的文本生成和理解能力自监督学习、Transformer架构
GPTOpenAI强大的自然语言处理能力,支持多种语言任务Transformer架构、大规模预训练
GlaudeAnthropic专注于生成安全和可靠的文本,支持成文本生成Constitutional AI、Transformer架构
LLamaMeta开源大模型,支持多种语言任务,注重效率和可扩展性Transformer架构、自监督学习
GeminiGoogle多模态模型,支持文本、图像和视频处理多模态学习、Transformer架构

通义千问大模型版本区分:

  • 通义千问2.5:这是通义千问第2.5代通用模型。
  • 版本编号(如0314、2025-03-05):这些数字通常代表模型的发布或修订日期。
  • 72B:指大模型的内部参数量,比如还有DeepSeek满血版DeepSeek-671B,1个B为10亿。
  • 1M:这个标签通常指的是模型处理文本时的最大token数(或“上下文窗口"大小)。32k意味着模型能够在一个实例中处理最多32000个token。这对于处理长文本特别有用。
  • Turbo:这可能指的是模型的一个优化版本,旨在提高速度和效率,可能在保持生成质量的同时减少了资源消耗。
  • Preview:这通常意味着该模型是供早期访问、测试或预览的版本。它可能不是最终的商业版本,但提供了对即将发布功能的早期查看。
  • 带V字:这意味着模型被设计或优化以处理视觉数据,比如图像或视频。

大模型赋能行业分析

垂类大模型(Vertical Large Language Model)是针对特定行业或领域进行深度优化的人工智能模型,通过融合行业知识、业务规则及场景数据实现精准应用,具有专业性、合规性及场景适配性特征。2024年成为其规模化应用元年,全国已有197个大模型通过备案,其中行业大模型占比70% 。

该模型以“平台+应用+服务”为落地路径,涵盖数据工厂、算力工厂、模型工厂及智能体工厂等核心模块,支撑医疗、金融、政务、工业等垂直领域的智能问答、文档解析、工艺优化等场景,采用LoRA微调技术实现业务精准适配。

大模型 + 金融

核心类别核心定位
技术研发与运营作为基础支撑类别,聚焦AI基础设施建设与运维,涵盖模型训练优化、系统运维、通用AI和大数据平台搭建等场景
运营管理数字化推动内部流程数字化改造,以实现协同效率提升与运营成本优化
风险合规及核验强化全流程风控与合规保障,涉及反欺诈、身份验证、合规审查及审计等关键环节
交易与支付结算保障资金流转安全高效,包含交易撮合、清算结算及支付安全防护等场景
客户营销服务以客户为中心,依托技术实现精准触达、需求挖掘与服务优化,包含智能客服、投诉处理等典型场景
信贷与融资覆盖信贷全生命周期,着力优化授信审批、贷中贷后管理等流程
企业社会责任聚焦ESC理念践行,覆盖绿色金融、责任投资及投资者教育等领域
网络和信息安全以合规与数据安全为核心,聚焦安全合规与审计、数据安全防护、网络攻击防御等应用场景
资产管理与投顾为投资者提供资产配置、投顾辅助及理财规划服务,涵盖智能投顾投资组合管理等场景
投保与理赔优化保险核心业务环节,实现智能投保、理赔审核及定损评估的效能提升
生态伙伴赋能通过技术输出赋能产业链伙伴,构建协同金融生态

大模型 + 政务

image.png

大模型 + 医疗

image.png

大模型 + 新闻

image.png

大模型的社会和伦理影响

偏见和公平性

LLM在训练时使用了大量可能包含偏见的数据。模型可能会从这些偏见中学习,再现乃至放大这些偏见。由于训练LLM的数据集很少公开,除非亲自尝试,否则很难明确它们可能包含哪些偏见。

透明度和问责制

由于LLM具有令人难以置信的能力,在与之交互时,我们并不总是能清楚分辨是在与人类还是模型对话。因此,当没有人类参与时,在人机交互中使用LLM可能会产生意想不到的后果。例如,在医疗领域使用的基于LLM的应用可能会被归类为医疗设备,因为它们可能会影响患者的健康。

有害内容

LLM生成的内容不一定是真实的,且它们可能“自信地”输出错误的文本。此外,它们还可能被用于生成假新闻、文章和其他具有误导性的信源。

知识产权

LLM输出内容的知识产权应该归属于你,还是模型创造者?当输出与训练数据中的某个短语相似时,知识产权是否属于该短语的作者?由于大多数情况下我们无法访问训练数据,我们很难确定模型何时使用了受版权保护的材料。

监管

由于LLM的巨大影响力,各国政府开始对商业应用进行监管。例如欧盟《人工智能法案》,该法案对包括LLM在内的基础模型的开发和部署进行监管。

大模型编程入门

  1. 获取API Key:阿里云百炼控制台-获取API Key
  2. 配置API Key到环境变量:阿里云百炼控制台-配置API Key到环境变量
  3. 安装openai:pip install openai,如果运行失败,请将pip改为pip3。可以切换阿里云镜像源加速下载。
  4. 创建python文件,写入如下代码:
import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx"
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    # 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
    model="qwen-plus",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是谁?"},
    ]
)
print(completion.model_dump_json())

接口文档