万字深度｜银行业大模型落地技术全景：从 RAG 到 Agent，从 MCP 到联邦学习一、2026：金融 AI 的分水岭

2026 年 5 月，Anthropic 一口气发布 10 个面向华尔街的金融 AI Agent 模板，Goldman Sachs 宣布已在 1.2 万人的工程团队中部署数百个自主编程智能体 Devin，国内超 30 家银行完成 DeepSeek 私有化部署……银行业的大模型应用，已经从"要不要用"变成了"怎么用好"的工程问题。

这篇文章不讲概念堆砌，而是拆解银行大模型落地的 技术架构全貌——平台怎么搭、RAG 管道怎么建、Agent 怎么编排、MCP 怎么接数据、联邦学习怎么保隐私——配合国内外头部银行的真实案例和量化效果数据。

一、2026：金融 AI 的分水岭

先看几组数据建立体感：

投资规模：2024 年中国金融 AI 投资 196.94 亿元，预计 2027 年达 415.48 亿元，三年翻倍（IDC / 中国信通院）
成本削减：麦肯锡《全球银行业年度报告 2025》测算，AI 全面应用可在某些成本类别上削减 70%，银行整体净降幅 15%~20%
采购暴增：2025 年金融大模型采购额同比增长 527%（21 世纪经济报道）
技术预算：JPMorgan 2026 年技术支出预算 200 亿美元，CEO Dimon 将 AI 定位为核心竞争武器

两个标志性事件让 2026 年成为分水岭：

事件一：DeepSeek 撕开成本门槛。 2025 年初 DeepSeek 开源模型以极低成本实现了逼近闭源的性能，2026 年 4 月 DeepSeek-V4 发布当天，浦发银行携手华为即完成本地化部署。"大模型 + 私有化"从大行专属变成了全行业共识，连城商行都跑通了。

事件二：Anthropic 正式入局华尔街。 2026 年 5 月 5 日，Anthropic 发布 10 个金融 AI Agent 模板（覆盖投行、资管、保险），同时宣布与 Blackstone、Goldman Sachs 组建 AI 服务公司，与 Moody's 达成数据合作。金融服务已成为 Anthropic 第二大企业收入来源，前 50 大客户中约 40% 为金融机构。

这两件事代表了银行 AI 落地的两条技术路线的合流：开源私有化 和 闭源 API 深度集成。下面我们从架构开始，一层一层拆。

二、企业级大模型平台架构：六层技术栈

领先银行已不再搞"一个场景一套代码"的烟囱式开发，而是构建统一的企业级 AI 平台。从下到上分六层：

┌─────────────────────────────────────────────────────────┐
│                    应用场景层 (Application)                │
│   智能客服 │ 授信报告生成 │ 智能编程 │ ChatDealing │ 消保审核  │
├─────────────────────────────────────────────────────────┤
│                   智能体协同层 (Agent)                     │
│   多 Agent 编排 │ 会话跟踪 │ 任务规划 │ 人机交互 │ TCC 事务   │
├─────────────────────────────────────────────────────────┤
│                   大模型服务层 (Model)                     │
│   基础模型 │ 领域微调模型 │ 蒸馏轻量模型 │ 多模型路由调度     │
├─────────────────────────────────────────────────────────┤
│                   平台工具层 (Framework)                   │
│   Prompt 工程 │ RAG 管道 │ 数据标注 │ 评测基准 │ DevOps      │
├─────────────────────────────────────────────────────────┤
│                    统一数据层 (Data)                       │
│   行内核心数据 │ 征信/工商/税务 │ 互联网舆情 │ 向量/图数据库   │
├─────────────────────────────────────────────────────────┤
│                   算力智算底座 (Compute)                   │
│   异构 GPU/NPU 集群 │ 高性能存储 │ RDMA 网络 │ 弹性调度     │
└─────────────────────────────────────────────────────────┘

每层做什么，怎么做

算力底座层：核心是"算、网、存、云"协同。异构芯片（国产 NPU + 通用 GPU）通过 RDMA 无损网络互联，支撑 PB 级模型的分布式训练。关键能力是弹性调度——训练和推理任务可以分钟级切换算力。

统一数据层：三类数据源的整合——行内交易账务和规章制度、外部政务数据（工商/司法/税务 API）、互联网舆情。存储标配是关系型数据库 + 向量数据库（Milvus / Redis）+ 图数据库（Neo4j / NebulaGraph），分别服务精确查询、语义检索和关联推理。

平台工具层：支撑大模型从训练到部署的全生命周期。Prompt 工程引擎、RAG 检索增强组件、金融文本清洗标注工具、一体化 DevOps 流水线。

大模型服务层：采用"基础通用 + 领域微调"的多模型体系。用 DeepSeek-R1、Qwen3 等高推理能力模型做逻辑核心，配合知识蒸馏（Knowledge Distillation）生产低参数量的风控专用轻量模型。苏商银行的实践表明，蒸馏后的小模型在欺诈风险标签识别上准确率提升了 35%。

智能体协同层：多 Agent 编排、会话上下文跟踪、TCC 分布式事务保障。这层是 2025-2026 年变化最大的一层，后面单独拆解。

应用场景层：向上输出三类原生应用——AI for Data（智能数据分析）、AI for Business（信贷/交易流程）、AI for IT（辅助编程）。

实战参考："大中轻量协同"策略

民生银行 CIO 张斌分享过一个务实思路：不盲目追求巨量参数，而是大小模型组合使用。企业内部办公（邮件、日程）推广"小模型、适量参数"的个人助理，低成本高响应实现全员普及；核心风控和决策场景才上大模型做深度推理。管理层率先用"数字分身/虚拟秘书"带头，撬动全行数智化习惯重塑。

三、智算底座工程实战——以工商银行"工银智涌"为例

工商银行的"工银智涌"千亿级大模型体系是国有大行技术落地的标杆，其底层工程化有三个值得关注的技术点：

3.1 大 EP 分布式推理

工行在业内首创大 EP（Expert Parallelism，专家并行）分布式推理技术，专门针对 MoE（Mixture of Experts）架构模型优化。核心思路是把不同专家的计算分布到不同节点上，减少跨节点数据冗余和通信延迟。

效果：MoE 模型推理吞吐量提升 1.6 倍。

这个优化对银行场景特别有价值——MoE 架构的模型（如 DeepSeek-V4）参数量大但每次推理只激活部分专家，天然适合银行"高并发、低延迟"的在线业务需求。大 EP 技术进一步释放了这一架构优势。

3.2 Serverless NPU 弹性伸缩

打破传统 GPU/NPU 资源静态绑定。系统根据实时并发请求量进行毫秒级算力按需拉起和伸缩，训推算力分钟级快速切换。

3.3 "昼推夜训"算力共享

这是一个利用银行业务潮汐特征的巧妙设计：

   白天（业务高峰）                    夜间（业务低谷）
┌─────────────────┐              ┌─────────────────┐
│  推理任务 (90%)   │              │  训练任务 (80%)   │
│  ───────────────  │     自动     │  ───────────────  │
│  "工小慧"座席助手  │  ──切换──▸  │  模型微调/预训练   │
│  "工小审"评审助手  │              │  增量知识更新      │
│  ───────────────  │              │  ───────────────  │
│  训练任务 (10%)   │              │  推理任务 (20%)   │
└─────────────────┘              └─────────────────┘

白天算力集中给前台高并发推理（智能客服、信贷评审），夜间自动调度给模型训练和微调。最大化释放闲置算力价值，有效控制智算成本。

四、高级 RAG：让大模型在金融场景不"胡说八道"

银行对"幻觉"零容忍。你不能让一个大模型在信贷审批报告里编造一个不存在的财务数据。高级 RAG（Retrieval-Augmented Generation）是目前性价比最高的"接地气"方案。

4.1 RAG 管道全流程

用户提问                    查询预处理                 多路并行召回
  │                          │                         │
  ▼                          ▼                    ┌────┼────┐
"这家公司近三年      ▸  实体抽取 + 查询改写  ▸   │    │    │
 的偿债能力如何？"       消除歧义                  ▼    ▼    ▼
                                              Dense  BM25  GraphRAG
                                              向量   关键字  图谱
                                              检索   检索    检索
                                                │    │     │
                                                └────┼─────┘
                                                     ▼
                                              交叉重排 Reranker
                                              （过滤噪声、精排 Top-N）
                                                     │
                                                     ▼
                                              注入 Prompt 模板
                                              模型基于确定性事实生成

4.2 三路检索为什么缺一不可

向量检索（Dense Retrieval）：用 Embedding 模型把 Query 转成高维向量，算余弦相似度召回语义相关的文档片段。擅长捕捉"意思相近但用词不同"的内容。

$\text{Similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$

BM25 检索（Sparse Retrieval）：经典词频统计算法，对精确命中的金融专有名词、机构代码、法规编号做关键字匹配。向量检索在这类精确匹配上反而容易漏。

GraphRAG 检索（图谱检索）：这是近两年变化最大的一路。传统 RAG 只能检索单一文档片段，无法处理需要多跳关联推理的复杂问题。比如"A 公司的实际控制人还控制了哪些公司？这些公司之间有没有关联交易？"——这种问题需要在知识图谱上做多跳遍历。

GraphRAG 的技术要点：

知识抽取：从非结构化文本中抽取企业、事件、时间、人物、产品等金融核心实体，建立三元组（企业A -[控股]-> 企业B），持久化到 Neo4j / NebulaGraph
社区检测：用 Leiden 算法对图谱做社区划分，分层预生成实体群组的摘要
图遍历检索：定位核心实体后，用 BFS（广度优先搜索）挖掘多跳关联，用 Cypher 查询语言提取结构化证据

// 示例：查找某企业的关联担保链
MATCH (company:Enterprise {name: "目标企业"})-[:GUARANTEE*1..3]->(related)
RETURN related.name, related.credit_rating, related.guarantee_amount
ORDER BY related.guarantee_amount DESC

4.3 重排（Rerank）：最容易被忽略的关键环节

三路召回的结果质量参差不齐，直接拼接给大模型会引入大量噪声。交叉编码重排模型（Cross-Encoder Reranker）对所有候选片段和原始问题计算精细相关度评分，过滤噪声，只保留 Top-N 最相关的事实片段。

4.4 工程实践中的坑

知识库语料治理：检索前必须对文档分类分层。不同密级的文档要在片段级建立权限隔离——不能让普通柜员的问答触达内部风险评估报告
切片策略：金融文档（如信贷制度、合规手册）结构特殊，不能简单按固定长度切片。需要按章节、条款的语义边界切分，保持上下文完整性
时效性管理：金融数据有强时效性。向量库中的监管政策、利率数据需要建立更新机制和版本标记，避免模型引用过期信息

五、Agent 架构：从"对话框"进化到"数字员工"

2025-2026 年，金融 AI 最大的范式变化是：大模型从"问答工具"变成了"工作流引擎"。Agent 不再是一个简单的提示词集合，而是演化为三位一体的结构化系统。

5.1 三位一体 Agent 架构

┌─────────────────────────────────────────┐
│             主 Agent (Orchestrator)       │
│                                          │
│  ┌───────────┐  ┌───────────────────┐   │
│  │  Skills    │  │   Connectors      │   │
│  │ (技能层)   │  │  (连接器层)        │   │
│  │           │  │                    │   │
│  │ · 信贷合规 │  │ · 核心交易系统API  │   │
│  │ · 财务分析 │  │ · 征信数据接口     │   │
│  │ · 反洗钱   │  │ · 工商/税务API    │   │
│  │ · 估值建模 │  │ · 舆情数据源      │   │
│  └───────────┘  └───────────────────┘   │
│                                          │
│  ┌──────────────────────────────────┐   │
│  │       Subagents (子智能体层)       │   │
│  │                                   │   │
│  │  ┌────────┐ ┌────────┐ ┌──────┐  │   │
│  │  │数据检索 │ │财报解析 │ │报告  │  │   │
│  │  │Agent   │ │Agent   │ │生成  │  │   │
│  │  │        │ │        │ │Agent │  │   │
│  │  └────────┘ └────────┘ └──────┘  │   │
│  └──────────────────────────────────┘   │
└─────────────────────────────────────────┘

Skills 层：承载金融业务场景的专业知识和合规规则。比如"信贷合规"技能包含了银行内部的授信审批制度、监管红线、行业限额等结构化知识
Connectors 层：实时接入行内核心系统和外部 API 的授权通路。每个 Connector 都有明确的权限边界和调用频率限制
Subagents 层：面对复杂跨系统任务时，主 Agent 自主召唤多个专用子 Agent 分别执行，最后汇总结果

5.2 金融高频工作流实战

下表是银行场景中 Agent 实际跑通的几类典型工作流：

工作流	场景	Agent 协作流程
路演材料搭建	投行/对公营销	检索同业可比数据 → Excel 建估值模型 → Word 起草信用备忘录 → PPT 生成 → 邮件起草
客户会前简报	客户经理拜访准备	实时检索客户舆情 + 信用变化 + 供应链关联方 → 自动生成结构化简报
读财报更新估值	投研/信贷审批	解析新发财报 → 提取核心指标 → 回填 Excel 模型 → 跨表验证 → 压力测试
授信逻辑核查	授信终审/投后管理	交叉核验不同报告的估值逻辑和假设条件 → 定位矛盾 → 生成预警
总账对账	财务/合规审计	批量比对不同系统明细账目 → 标注异常资金往来 → 不一致分录定位
财报披露一致性审计	合规/法务	比对招股书、定期财报、临时公告 → 多文本一致性检测 → 错漏核对

5.3 多 Agent 系统的工程保障

大规模多 Agent 系统不是把几个 Agent 拼在一起就行，需要解决两个关键工程问题：

流式通信与链路跟踪：Agent 之间传递信息要支持流式传输。每轮交互注入全局 TraceID，实现跨 Agent 多轮调用链路的透明追踪。出了问题能快速定位是哪个 Agent 在哪一步出的错。

事务一致性：引入 TCC（Try-Confirm-Cancel）柔性分布式事务框架。Agent 涉及核心系统写操作时（比如在 OA 中提交审批流程），不能因为模型超时或网络抖动产生脏数据。

5.4 红线：Agent 不能做什么

这一点在金融场景中至关重要。无论 Agent 多智能，以下操作必须由人类完成最终确认：

不直接执行资金划转
不独立批准客户入驻
不直接进行最终过账
不作为绝对投资建议输出

所有 Agent 生成的内容必须经"人在回路"（Human in the Loop）审批。这不是技术限制，是合规红线。

六、MCP 协议：打通金融数据孤岛的"USB-C"

6.1 为什么 MCP 对银行很重要

AI Agent 的智能化上限取决于它能安全访问的数据深度。传统方式下，银行想接入一个外部金融数据库，技术团队得针对供应商独特的查询语法和数据结构写一套定制代码——每多接一个数据源就多一套维护成本。

MCP（Model Context Protocol）解决的就是这个问题：标准化 Agent 与外部工具/数据源的通信协议。类似于 USB-C 之于硬件设备——一个标准接口，即插即用。

6.2 金融领域的 MCP 生态已经成型

2026 年上半年，MCP 在金融领域的落地速度超出预期：

数据供应商侧：

Moody's（穆迪）通过 MCP 接入覆盖全球 6 亿家企业、20 亿条所有权关系链的信用合规数据库。Agent 可以在同一对话中直接调用穆迪的工具，秒级完成企业信用穿透
FactSet、PitchBook、LSEG、Morningstar、S&P Capital IQ 等金融数据巨头均已通过 MCP 标准接口接入大模型生态
Databricks MCP Marketplace 已接入 LSEG、FactSet、Nasdaq 等金融数据源

银行侧：

Nymbus（2026 年 4 月）推出首个面向核心银行的 MCP Server，提供 19 个前台操作工具，覆盖账户查询、交易处理等核心银行操作
Revolut 向 1300 万英国用户推出基于 Agent 架构的 AI 助手 AIR

6.3 MCP 改变了什么

  传统方式                              MCP 方式
┌─────────┐                        ┌─────────┐
│  Agent   │                        │  Agent   │
└────┬─────┘                        └────┬─────┘
     │                                   │
     │  定制代码 A                        │  统一 MCP 协议
     ├──────────▸ 穆迪 API               ├──────────▸ 穆迪 MCP Server
     │                                   │
     │  定制代码 B                        ├──────────▸ FactSet MCP Server
     ├──────────▸ FactSet API            │
     │                                   ├──────────▸ 行内核心系统 MCP Server
     │  定制代码 C                        │
     ├──────────▸ 行内系统               ├──────────▸ 新数据源（即插即用）
     │
     │  每个数据源都是独立集成
     │  维护成本线性增长

原本分散在数十个终端、API、登录权限中的专业金融数据，汇聚成了统一的工具链。预计 2026 年将有 44% 的金融团队采用 Agentic AI。

七、安全底座：私有化部署与联邦学习

银行对数据泄露零容忍。技术方案再好，安全过不了关就是废纸。当前行业的安全底座是"三位一体"：高级 RAG（上面讲过了）+ 物理私有化部署 + 联邦学习与隐私计算。

7.1 私有化部署：数据不出域

大型金融机构在核心应用上坚守"物理隔离、私有化部署"红线。几个典型做法：

中国银联：与华为合作，依托国家 AI 应用中试基地，将 DeepSeek 系列模型私有化部署在本地，接入云闪付、欺诈风控等核心业务流
中信银行：全场景部署 DeepSeek 等 20 余种开源模型，落地超 120 个场景
摩根大通：严禁员工访问 ChatGPT 等外部大模型，自研 LLM Suite 平台，所有数据不出行内网络

7.2 联邦学习 + 隐私计算：数据可用不可见

跨机构联合风控是银行的刚需——比如联合多家银行和政务数据判断一个企业的信用风险。但《个人信息保护法》要求数据不出域。怎么办？联邦学习。

核心思路：各参与方（银行 A、纳税平台 B、工商数据库 C）在本地用自己的数据训练模型，只交换加密后的模型参数，不交换原始数据。

技术流程：

                    ┌──────────────────┐
                    │   中央聚合服务器    │
                    │  (或区块链共识节点)  │
                    │                   │
                    │  FedAvg 加权平均   │
                    │  (密文上直接计算)   │
                    └───────┬──────────┘
                       ▲    │    ▲
              加密梯度↑  │全局  │↑加密梯度
                       │  权重↓ │
              ┌────────┘    │    └────────┐
              │             │             │
        ┌─────┴─────┐ ┌────┴──────┐ ┌────┴──────┐
        │  银行 A    │ │ 纳税平台 B │ │ 工商数据 C │
        │           │ │           │ │           │
        │ 本地训练   │ │ 本地训练   │ │ 本地训练   │
        │ +同态加密  │ │ +同态加密  │ │ +同态加密  │
        │ +差分隐私  │ │ +差分隐私  │ │ +差分隐私  │
        └───────────┘ └───────────┘ └───────────┘

两层加密保障：

Paillier 同态加密（2048 位密钥）：对局部梯度参数加密后上传。利用同态特性，中央服务器可以直接在密文上做加法和数乘——不解密就能完成参数聚合

$c_i = g^m \cdot r^n \pmod{n^2}$

差分隐私（Differential Privacy）：向梯度中注入拉普拉斯噪声，防止攻击者通过模型反演逆向推出原始隐私数据（比如个人资产和流水）

整个过程中，中央服务器无法感知原始梯度明文。各方的数据始终留在本地，只有加密后的参数更新在网络上流动。

八、国内落地全景：从四大行到城商行

截至 2026 年上半年，国内银行大模型落地已形成梯队化格局：

国有大行及重点银行

银行	系统/场景	技术路线	核心成效
工商银行	智贷通（信贷智能体矩阵）、工小审（评审助手）、ChatDealing（对话交易）	"工银智涌"千亿级大模型 + DeepSeek 私有化，落地场景 200+	信贷审批通话时长压降 ~10%；ChatDealing 重塑金融市场前台询价交易流程
招商银行	智能信贷服务、AI 小招（企业助手）、AI 小助	全栈大模型底座 + 企业知识图谱 + RPA/OCR	覆盖 3000 亿资产规模；AI 小招累计服务 6.13 万企业客户、45.85 万人次；AI 小助日均对话超百万次
邮储银行	小邮助手、伴随式数字员工	"邮智"大模型 + DeepSeek-V3/R1	法律审查提速 50%+；链式推理完成产业链分析、股权穿透、财务勾稽
浦发银行	抹香鲸（数智管理平台）、浦新贷	企业级 AI 平台 + 华为合作 DeepSeek-V4 当天部署	"浦新贷"放款 48 小时；科技金融贷款占比提升至 44%；服务企业近 9000 家
民生银行	慧销/慧芯/慧眼/锦囊（四大智能助理矩阵）	企业级 AI Agent 平台 + 250+ 场景	2025 年新增 261 个 AI 场景（同比 3 倍）；AI 生成代码占比 20.68%；IT 服务 AI 替代率 28.9%
兴业银行	全渠道 AI 智能体平台、消保审核	智能体托管平台（200+ Agent 运行）	2025H1 拦截涉诈资金 5.04 亿元
中信银行	全场景 AI 应用	20+ 种开源模型全场景部署	落地 120+ 场景
平安银行	消保智能体集群	大模型 + 合规引擎	30+ 消保智能体在线运行

地方银行

银行	场景	成效
苏商银行	信贷风控模型优化	DeepSeek 蒸馏小模型，欺诈识别准确率提升 35%
湖南银行	湘银房抵贷（全流程 AI）	评估/面签/抵押/提款全线上化，累计投放 61.1 亿元

关键观察

DeepSeek 效应显著：超 30 家银行完成 DeepSeek 部署，从四大行到城商行全覆盖。DeepSeek 的开源 + 低成本特性让中小银行也能跑通"大模型 + 私有化"路线。

Agent 数量爆发：兴业银行跑着 200+ Agent，民生银行 250+ 场景化应用。银行业正从"试点一两个场景"进入"批量上线"阶段。

代码生成渗透率攀升：民生银行 AI 生成代码占比已达 20.68%，这个数字在一年前几乎为零。

九、全球视野：华尔街的 AI 军备竞赛

9.1 摩根大通（JPMorgan Chase）：LLM Suite

行内严禁访问 ChatGPT，每年 200 亿美元技术预算自研 LLM Suite。

架构：Model-agnostic（模型无关），可在 OpenAI / Anthropic 等不同供应商间动态路由。通过安全 API 接入行内文件库、电话录音、知识图谱。用"数据上下文"而非单一模型升级来消除幻觉
规模：推出 8 个月覆盖全球 20 万员工，日活率 45%~60%
成效：对公信贷场景中，贷款合同审查与条款核验时间缩短 40%

9.2 摩根士丹利（Morgan Stanley）：AskResearchGPT

OpenAI 在财富管理领域的独家合作伙伴。

AskResearchGPT：用 GPT-4 深度学习每年 7 万篇专业研报。支持一键将检索回答导出为格式化邮件草稿，自动附带原始研报引用链接
AI @ MS Debrief：虚拟助手直接"列席" Zoom 会议，自动听写、提取行动项、同步 CRM，每次会议节省 30 分钟手工记账

9.3 高盛（Goldman Sachs）：自主编程 Agent 先锋

高盛在 AI 落地上最激进：

Devin 部署：首家全面部署 AI 自主工程师 Devin 的金融巨头。在 1.2 万人编程团队中部署数百个实例，在人工审计下自主处理遗留代码迁移、重构和 bug 调试。内部评估显示净生产力提升 3~4 倍（对比传统 Copilot）
与 Anthropic 合作：开发 AI Agent 用于交易记账和客户入职（KYC）流程
Goldman 总裁近期表示银行是"面临自动化的人力装配线"——这种直白的表态在华尔街非常罕见

9.4 汇丰银行（HSBC）：Mistral 自托管

与欧洲开源模型 Mistral AI 达成战略合作，将 Mistral 商业模型私有化自托管在汇丰内部基础设施上，数据绝不出域
已向全球 85% 员工配发大模型助手
立项对 50 个端到端核心业务流（含欺诈检测、信贷审批、反洗钱）进行 AI 重构
引入大模型辅助编码，工程师补丁修补和安全漏洞修复速度提升 5 倍

9.5 花旗银行（Citi）：复合 AI 架构 + KYA 治理

花旗的思路最具前瞻性：

复合 AI 架构（Compound AI）：单纯依靠大模型的概率性输出无法承载银行级合规。花旗将大模型的推理能力与行内确定性算法系统（SQL / Cypher 查询）强耦合，从架构层保证输出的确定性。

KYA（Know Your Agent）治理框架：这是花旗在行业内率先推行的创新。类比 KYC（了解你的客户），KYA 要求对每个自主运行的 Agent 进行：

微秒级 Trace 日志审计链
性能和数据漂移（Data Drift）持续监测
高风险节点强制"人在回路"审核

这个框架本质上回答了一个问题：当你的 Agent 能自主决策时，你怎么确保它不会"犯法"？

9.6 Anthropic 的金融布局（2026 年 5 月最新）

Anthropic 近期动作密集：

发布 10 个金融 AI Agent 模板，覆盖投行路演材料搭建、客户会前简报、财报分析、估值核查等高频工作流
与 Blackstone、Goldman Sachs 组建 AI 服务公司
与 Moody's 达成数据合作，通过 MCP 协议接入穆迪信用数据库
金融服务已成为 Anthropic 第二大企业收入来源

这意味着大模型厂商不再只卖模型，而是深入金融工作流，直接提供可落地的 Agent 模板和数据管道。

十、成熟度怎么评估：五个阶段

银行大模型应用不是一蹴而就的。安永中国提出的五阶成熟度模型比较清晰地描绘了演进路径：

阶段	特征	人机关系
L1 试点探索	Agent 只执行固定规则，无自主推理	机械化辅助工具
L2 场景应用	大模型引入特定场景，初级意图理解	优化局部节点效率
L3 流程重建	多 Agent 协同，穿透部分跨部门壁垒	人机协作，人做终审
L4 业务集成	大模型内生于核心流程，规模化产出商业价值	Agent 作为"数字员工"独立承担闭环工作流
L5 超级智能原生	所有环节由 AGI 主导（远期愿景）	AGI 自主感知市场、创造需求

当前国内大行普遍处于 L2~L3 过渡阶段，国际头部银行（JPMorgan、Goldman Sachs）在部分业务线已达 L3~L4。

从 L2 到 L3 的跨越是当前最关键的一步——需要解决多 Agent 编排、跨系统数据打通、人机协同边界划定等一系列工程问题。

十一、冷思考：四个没解决的问题

最后聊几个行业还没跑通的硬骨头：

1. 幻觉率依然是达摩克利斯之剑。 DeepSeek-R1 的幻觉率约 14%（中国信通院数据）。在金融场景中，1% 的幻觉率都可能意味着合规事故。RAG 能缓解但无法根治。

2. 算力调度复杂度指数级增长。 当一家银行同时跑 200+ Agent、20+ 种模型、横跨训练和推理时，算力调度本身就变成了一个需要 AI 来优化的问题。

3. 高质量数据飞轮尚未形成。 银行有海量数据，但能用于大模型训练和 RAG 的高质量标注数据依然稀缺。数据治理是个脏活累活，没有捷径。

4. 复合型人才极度稀缺。 既懂金融业务又懂大模型工程的人才缺口巨大。这不是短期培训能解决的，需要组织层面的长期投入。

行业共识是：AI 治理的成熟度决定了应用的高度。"无监管、不可控，则不可用"——这句话放在金融场景尤其适用。大模型竞争的下半场，不是比谁参数多，而是比谁的治理体系更完整、安全防护更严密、ROI 模型更清晰。

参考资料

万字深度｜银行业大模型落地技术全景：从 RAG 到 Agent，从 MCP 到联邦学习