01大语言模型的基础认知介绍了人工智能发展阶段、大模型的定义、常用大模型、大模型的应用、大模型的伦理影响、第一个大模型程

人工智能发展阶段

”人工智能”(AI)这个术语通常用于描述致力于执行接近人类智能任务（如语音识别、语言翻译和视觉感知）的计算机系统。

AI 发展的两个阶段：感知智能时代和认知智能时代。

感知智能时代

感知智能是指通过视觉、听觉、触觉等传感器获取环境信息，并与之交互的能力。其核心在于环境感知与交互，依赖传感器（如激光雷达、摄像头）和算法处理。

感知智能在人工智能领域，是实现机器与外界交互的基础，涉及多传感器融合技术。以自动驾驶为例，其通过激光雷达、摄像头等感知设备采集环境数据，结合AI算法实现实时决策。

截至2021年，机器在语音识别、图像识别等方面已接近人类水平，但仍属于弱人工智能范畴。

认知智能时代

认知智能是人工智能的高级形态，指机器通过理解、推理等类人能力构建决策系统。该技术聚焦概念抽象、自主推理等人类高阶思维能力的机器模拟，目前机器在概念、意识、观念等认知表现上仍存在系统性差距。至2023年，其技术特征已形成知识图谱与深度学习的融合。

2025年，有观点指出AI的未来将从“感知智能”迈向“认知智能”，理解人类意图与情感是其关键瓶颈。2026年，汉王科技宣布构建了覆盖感知智能、认知智能、具身智能的全栈AI技术体系；毕马威报告指出未来竞争高地将集中在人机协同的“认知智能”；周鸿祎指出AI已经从模仿表象走到了理解规律，是一次认知的大跃迁。

什么是大模型？

大模型(LLM)是指由人工神经网络构建的一类具有大量参数的人工智能模型。其通常先通过自监督学习或半监督学习在海量数据上进行预训练，然后通过指令微调和人类对齐等方法进一步优化其性能和能力。

大模型具有参数量大、训练数据大、计算资源大等特点，拥有解决通用任务、遵循人类指令、进行复杂推理等能力。

目前，大模型已在多个领域得到广泛应用，包括搜索引擎、智能体、相关垂直产业及基础科学等领域，推动了各行业的智能化发展。

在回顾语言人工智能的近期历史时，我们观察到主要是生成式的仅解码器(Transformer)模型被称为LLM。很多人认为LLM的关键特点就是“大”，但在实践中，这样的描述显然有局限性。

如果我们创建一个与GPT-3能力相当但参数量减少到原来的1/10的模型，这样的模型是否就不属于“LLM”的范畴了？

同样，如果我们发布一个与GPT-4同等规模的模型，它能够进行准确的文本分类，但没有生成能力，那么它还能被称为“LLM”吗？即使它的主要功能不是语言生成，但它仍然可以表示文本。

这类定义的问题在于我们排除了一些能力很强的模型。无论我们给某个模型起什么名字，都不会改变它的行为方式。

“LLM”这个术语的定义随着新模型的发布而不断演变，“大”的定义是相对的，今天被认为“大”的模型，明天可能就显得很小了。目前同一事物有很多不同的称呼，“LLM”也包括那些不生成文本且可以在消费级硬件上运行的模型。

常见的大模型

大模型的主要类别包括：大语言模型、视觉大模型、多模态大模型以及基础科学大模型等。

模型名称	开源	发布公司	主要特点	关键技术
DeepSeek	是	深度求索	专注于视觉与语言多模态结合，支持图像生成与推理	多模态学习、Transformer架构
通义千问(Qwen)	是	阿里巴巴	开源大模型，支持中文理解与生成，具备强大的推理能力	GPT-3架构优化
智谱清言(GLM)	是	质谱科技	聚焦中文NLP，强大的跨行业能力	自监督学习、Transformer架构
豆包(Doubao)	否	字节跳动	生成式AI产品，强调多轮对话和情感理解，生成符合上下文的文本	GPT-3架构、知识增强
混元(Tencent Hunyuan)	是	腾讯	提供多模态AI能力，支持文本、图像、视频等多种数据类型的处理	多模态融合、深度学习
Kimi	是	月之暗面	专注于自然语言处理，提供高效的文本生成和理解能力	自监督学习、Transformer架构
GPT	否	OpenAI	强大的自然语言处理能力，支持多种语言任务	Transformer架构、大规模预训练
Glaude	否	Anthropic	专注于生成安全和可靠的文本，支持成文本生成	Constitutional AI、Transformer架构
LLama	是	Meta	开源大模型，支持多种语言任务，注重效率和可扩展性	Transformer架构、自监督学习
Gemini	否	Google	多模态模型，支持文本、图像和视频处理	多模态学习、Transformer架构

通义千问大模型版本区分：

通义千问2.5：这是通义千问第2.5代通用模型。
版本编号(如0314、2025-03-05)：这些数字通常代表模型的发布或修订日期。
72B：指大模型的内部参数量，比如还有DeepSeek满血版DeepSeek-671B，1个B为10亿。
1M：这个标签通常指的是模型处理文本时的最大token数(或“上下文窗口"大小)。32k意味着模型能够在一个实例中处理最多32000个token。这对于处理长文本特别有用。
Turbo：这可能指的是模型的一个优化版本，旨在提高速度和效率，可能在保持生成质量的同时减少了资源消耗。
Preview：这通常意味着该模型是供早期访问、测试或预览的版本。它可能不是最终的商业版本，但提供了对即将发布功能的早期查看。
带V字：这意味着模型被设计或优化以处理视觉数据，比如图像或视频。

大模型赋能行业分析

垂类大模型（Vertical Large Language Model）是针对特定行业或领域进行深度优化的人工智能模型，通过融合行业知识、业务规则及场景数据实现精准应用，具有专业性、合规性及场景适配性特征。2024年成为其规模化应用元年，全国已有197个大模型通过备案，其中行业大模型占比70% 。

该模型以“平台+应用+服务”为落地路径，涵盖数据工厂、算力工厂、模型工厂及智能体工厂等核心模块，支撑医疗、金融、政务、工业等垂直领域的智能问答、文档解析、工艺优化等场景，采用LoRA微调技术实现业务精准适配。

大模型 + 金融

核心类别	核心定位
技术研发与运营	作为基础支撑类别，聚焦AI基础设施建设与运维，涵盖模型训练优化、系统运维、通用AI和大数据平台搭建等场景
运营管理数字化	推动内部流程数字化改造，以实现协同效率提升与运营成本优化
风险合规及核验	强化全流程风控与合规保障，涉及反欺诈、身份验证、合规审查及审计等关键环节
交易与支付结算	保障资金流转安全高效，包含交易撮合、清算结算及支付安全防护等场景
客户营销服务	以客户为中心，依托技术实现精准触达、需求挖掘与服务优化，包含智能客服、投诉处理等典型场景
信贷与融资	覆盖信贷全生命周期，着力优化授信审批、贷中贷后管理等流程
企业社会责任	聚焦ESC理念践行，覆盖绿色金融、责任投资及投资者教育等领域
网络和信息安全	以合规与数据安全为核心，聚焦安全合规与审计、数据安全防护、网络攻击防御等应用场景
资产管理与投顾	为投资者提供资产配置、投顾辅助及理财规划服务，涵盖智能投顾投资组合管理等场景
投保与理赔	优化保险核心业务环节，实现智能投保、理赔审核及定损评估的效能提升
生态伙伴赋能	通过技术输出赋能产业链伙伴，构建协同金融生态

大模型 + 政务

大模型 + 医疗

大模型 + 新闻

大模型的社会和伦理影响

偏见和公平性

LLM在训练时使用了大量可能包含偏见的数据。模型可能会从这些偏见中学习，再现乃至放大这些偏见。由于训练LLM的数据集很少公开，除非亲自尝试，否则很难明确它们可能包含哪些偏见。

透明度和问责制

由于LLM具有令人难以置信的能力，在与之交互时，我们并不总是能清楚分辨是在与人类还是模型对话。因此，当没有人类参与时，在人机交互中使用LLM可能会产生意想不到的后果。例如，在医疗领域使用的基于LLM的应用可能会被归类为医疗设备，因为它们可能会影响患者的健康。

有害内容

LLM生成的内容不一定是真实的，且它们可能“自信地”输出错误的文本。此外，它们还可能被用于生成假新闻、文章和其他具有误导性的信源。

知识产权

LLM输出内容的知识产权应该归属于你，还是模型创造者？当输出与训练数据中的某个短语相似时，知识产权是否属于该短语的作者？由于大多数情况下我们无法访问训练数据，我们很难确定模型何时使用了受版权保护的材料。

监管

由于LLM的巨大影响力，各国政府开始对商业应用进行监管。例如欧盟《人工智能法案》，该法案对包括LLM在内的基础模型的开发和部署进行监管。

大模型编程入门

获取API Key：阿里云百炼控制台-获取API Key
配置API Key到环境变量：阿里云百炼控制台-配置API Key到环境变量
安装openai：pip install openai，如果运行失败，请将pip改为pip3。可以切换阿里云镜像源加速下载。
创建python文件，写入如下代码：

import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx"
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    # 模型列表：https://help.aliyun.com/zh/model-studio/getting-started/models
    model="qwen-plus",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是谁？"},
    ]
)
print(completion.model_dump_json())

接口文档