DeepSeek V4 vs 通义千问 Qwen-Plus：金融垂类场景的性能测评报告背景通用跑分榜单（MMLU、Hu

背景

通用跑分榜单（MMLU、HumanEval、GSM8K）已经测烂了，但具体到"金融垂类"——尤其 A 股基本面分析这种需要行业知识 + 中文会计准则的场景——国产大模型的横评数据非常少。

这篇文章我用一套标准化 benchmark 测 DeepSeek V4 和通义千问 Qwen-Plus 在 A 股分析上的差异，结论后面说。

📌 本文为个人 5 支股票小样本的测评笔记，结果受样本、时间窗口、Prompt 版本影响明显，不具备统计意义；所有数据仅用于技术对比研究，不构成任何产品推荐或投资建议。

Benchmark 设计

测试集：5 支不同风格的 A 股

风格	标的	核心考察点
白酒龙头	贵州茅台 600519	行业专业语言
动力电池	宁德时代 300750	海外业务理解
新能源车	比亚迪 002594	消息面敏感度
半导体	中芯国际 688981	科创板会计准则
光伏	隆基绿能 601012	周期股情景分析

统一的输入模板

每个模型都接收完全一致的结构化输入：

ROLE = A 股资深买方研究员
INPUT = {
  最新财务数据,    # 近 3 年 + Q1
  最近 30 天新闻摘要,
  行业同业对比,
}
TASK = 输出 9 小节研报
  1. 公司概况
  2. 财务走势
  3. 财报解读
  4. 行业地位
  5. 公告梳理
  6. 估值分析
  7. 看多 3 条
  8. 看空 3 条
  9. 跟踪指标

评分维度

维度	满分	评估方式
基本面理解	10	是否抓住行业核心指标
财报解读	10	会计准则、科目联动是否专业
风险识别	10	是否主动指出风险
推理可信度	10	推理链是否清晰，不瞎编
输出结构	10	格式整齐、可读性

人工盲评：隐去模型名字，3 个评审独立打分，取平均。

总分：DeepSeek 小胜

维度	DeepSeek V4	Qwen-Plus
基本面理解	8.5	8.0
财报解读	7.0	8.5
风险识别	8.0	7.5
推理可信度	9.0	7.5
输出结构	8.5	8.0
总分（满 50）	41	39.5

逐支股票看差异

Case 1：贵州茅台（DeepSeek 胜）

DeepSeek 抓到了白酒行业独有的"预收款/合同负债"指标，对 2025Q1 预收款同比 -18% 给出了"渠道库存压力"的精准判断。

千问则偏宏观——讨论"消费降级背景下的定价权"，没抓到这个关键指标。

启示：行业专业语言场景 DeepSeek 表现更"地道"。

Case 2：宁德时代（打平）

两者都看多，但侧重不同：

DeepSeek 从"锂价周期 + 储能需求"双维度建立逻辑
千问给出了 LG 新能源、比亚迪的市占率对比表格

DeepSeek 偏逻辑链，千问偏数据密度。

Case 3：比亚迪（千问胜）

比亚迪最近 30 天有 5 条重要新闻（智驾发布、海外扩张等）。

DeepSeek 无联网能力，无法感知训练截止日之后的事件
千问通过联网搜索抓到了其中大部分新闻，并做了归类

启示：消息面敏感的股票，千问带搜索的优势非常明显。

Case 4：中芯国际（千问胜）

科创板公司有特殊会计处理（研发费用资本化）。

DeepSeek 直接套主板逻辑，错误地认为"研发投入侵蚀利润"
千问正确指出"研发投入占比 15%+"对当期损益的影响，并解释了资本化处理

启示：中国特色会计准则场景，千问（阿里云国内语料）明显更懂。

Case 5：隆基绿能（DeepSeek 胜）

周期股需要做"乐观/中性/悲观"三档情景假设。

DeepSeek 主动给了三档情景，每档有估值区间
千问偏保守单一视角

启示：情景分析能力 DeepSeek 更结构化。

五维画像

DeepSeek V4 的强项

推理链清晰：会主动 "A → B → C → 所以..." 组织论据
行业语言专业：白酒、光伏、半导体的术语使用准确
情景分析强：擅长给多档假设

Qwen-Plus 的强项

消息面及时：联网搜索能抓最近几天新闻
会计准则熟：科创板/创业板特殊处理更懂
表格化输出：信息密度高

工程侧的启示

作为用大模型做金融产品的开发者，这个 benchmark 给了我三个实操建议：

1. 不要单一模型

至少支持 DeepSeek + Qwen 双模型可切换。白酒分析用 DeepSeek，科创板分析用 Qwen，周期股用 DeepSeek。同一个产品，不同场景用不同模型。

2. 把"搜索"和"推理"解耦

Qwen-Plus 的搜索能力强但推理稍弱，DeepSeek 相反。最佳架构是：用 Qwen 抓数据做初步整理，用 DeepSeek 做深度推理。

3. 核心决策节点做双模型并行

在关键决策点（比如"最终投资建议"），让 DeepSeek 和 Qwen 都跑一遍，结果不一致时提示用户"分歧存在"——这是破除单一模型偏见的最佳实践。

复现方式

本文的 benchmark 流程（5 支股票 × 2 模型 × 5 维打分）全部可以用公开数据 + 统一 Prompt 复现，核心步骤在「DeepSeek vs 通义千问完整横评」里有详细记录，包含每支股票两份原文报告截图与评分细则，可对照交叉验证。

懒得自己搭数据管道的话，也可以直接在 nbstockai.com 切换两个模型跑同一个股票代码，肉眼对比输出差异——这是最直观的复现路径。

结语

大模型没有绝对的好坏，只有适合的场景。

金融垂类的特殊性在于：既需要专业推理（DeepSeek 强），又需要实时信息（Qwen 强）。真正严肃的应用，不是赌押哪个模型更牛，而是设计一个让两个模型互补的架构。

💬 你在金融/法律/医疗等垂直领域用过哪个模型？评分如何？

📝 测评基于公开信息 + 统一 Prompt 的小样本结果，受样本与时间窗口影响，不构成产品推荐或投资建议。