DeepSeek V4 vs 通义千问 Qwen-Plus:金融垂类场景的性能测评报告

0 阅读5分钟

背景

通用跑分榜单(MMLU、HumanEval、GSM8K)已经测烂了,但具体到"金融垂类"——尤其 A 股基本面分析这种需要行业知识 + 中文会计准则的场景——国产大模型的横评数据非常少。

这篇文章我用一套标准化 benchmark 测 DeepSeek V4 和 通义千问 Qwen-Plus 在 A 股分析上的差异,结论后面说。

📌 本文为个人 5 支股票小样本的测评笔记,结果受样本、时间窗口、Prompt 版本影响明显,不具备统计意义;所有数据仅用于技术对比研究,不构成任何产品推荐或投资建议。


Benchmark 设计

测试集:5 支不同风格的 A 股

风格标的核心考察点
白酒龙头贵州茅台 600519行业专业语言
动力电池宁德时代 300750海外业务理解
新能源车比亚迪 002594消息面敏感度
半导体中芯国际 688981科创板会计准则
光伏隆基绿能 601012周期股情景分析

统一的输入模板

每个模型都接收完全一致的结构化输入:

ROLE = A 股资深买方研究员
INPUT = {
  最新财务数据,    # 近 3 年 + Q1
  最近 30 天新闻摘要,
  行业同业对比,
}
TASK = 输出 9 小节研报
  1. 公司概况
  2. 财务走势
  3. 财报解读
  4. 行业地位
  5. 公告梳理
  6. 估值分析
  7. 看多 3 条
  8. 看空 3 条
  9. 跟踪指标

评分维度

维度满分评估方式
基本面理解10是否抓住行业核心指标
财报解读10会计准则、科目联动是否专业
风险识别10是否主动指出风险
推理可信度10推理链是否清晰,不瞎编
输出结构10格式整齐、可读性

人工盲评:隐去模型名字,3 个评审独立打分,取平均。


总分:DeepSeek 小胜

维度DeepSeek V4Qwen-Plus
基本面理解8.58.0
财报解读7.08.5
风险识别8.07.5
推理可信度9.07.5
输出结构8.58.0
总分(满 50)4139.5

逐支股票看差异

Case 1:贵州茅台(DeepSeek 胜)

DeepSeek 抓到了白酒行业独有的"预收款/合同负债"指标,对 2025Q1 预收款同比 -18% 给出了"渠道库存压力"的精准判断

千问则偏宏观——讨论"消费降级背景下的定价权",没抓到这个关键指标。

启示:行业专业语言场景 DeepSeek 表现更"地道"。

Case 2:宁德时代(打平)

两者都看多,但侧重不同:

  • DeepSeek 从"锂价周期 + 储能需求"双维度建立逻辑
  • 千问给出了 LG 新能源、比亚迪的市占率对比表格

DeepSeek 偏逻辑链,千问偏数据密度

Case 3:比亚迪(千问胜)

比亚迪最近 30 天有 5 条重要新闻(智驾发布、海外扩张等)。

  • DeepSeek 无联网能力,无法感知训练截止日之后的事件
  • 千问通过联网搜索抓到了其中大部分新闻,并做了归类

启示:消息面敏感的股票,千问带搜索的优势非常明显。

Case 4:中芯国际(千问胜)

科创板公司有特殊会计处理(研发费用资本化)。

  • DeepSeek 直接套主板逻辑,错误地认为"研发投入侵蚀利润"
  • 千问正确指出"研发投入占比 15%+"对当期损益的影响,并解释了资本化处理

启示:中国特色会计准则场景,千问(阿里云国内语料)明显更懂。

Case 5:隆基绿能(DeepSeek 胜)

周期股需要做"乐观/中性/悲观"三档情景假设。

  • DeepSeek 主动给了三档情景,每档有估值区间
  • 千问偏保守单一视角

启示:情景分析能力 DeepSeek 更结构化。


五维画像

DeepSeek V4 的强项

  1. 推理链清晰:会主动 "A → B → C → 所以..." 组织论据
  2. 行业语言专业:白酒、光伏、半导体的术语使用准确
  3. 情景分析强:擅长给多档假设

Qwen-Plus 的强项

  1. 消息面及时:联网搜索能抓最近几天新闻
  2. 会计准则熟:科创板/创业板特殊处理更懂
  3. 表格化输出:信息密度高

工程侧的启示

作为用大模型做金融产品的开发者,这个 benchmark 给了我三个实操建议:

1. 不要单一模型

至少支持 DeepSeek + Qwen 双模型可切换。白酒分析用 DeepSeek,科创板分析用 Qwen,周期股用 DeepSeek。同一个产品,不同场景用不同模型。

2. 把"搜索"和"推理"解耦

Qwen-Plus 的搜索能力强但推理稍弱,DeepSeek 相反。最佳架构是:用 Qwen 抓数据做初步整理,用 DeepSeek 做深度推理

3. 核心决策节点做双模型并行

在关键决策点(比如"最终投资建议"),让 DeepSeek 和 Qwen 都跑一遍,结果不一致时提示用户"分歧存在"——这是破除单一模型偏见的最佳实践。


复现方式

本文的 benchmark 流程(5 支股票 × 2 模型 × 5 维打分)全部可以用公开数据 + 统一 Prompt 复现,核心步骤在「DeepSeek vs 通义千问 完整横评」里有详细记录,包含每支股票两份原文报告截图与评分细则,可对照交叉验证。

懒得自己搭数据管道的话,也可以直接在 nbstockai.com 切换两个模型跑同一个股票代码,肉眼对比输出差异——这是最直观的复现路径。


结语

大模型没有绝对的好坏,只有适合的场景

金融垂类的特殊性在于:既需要专业推理(DeepSeek 强),又需要实时信息(Qwen 强)。真正严肃的应用,不是赌押哪个模型更牛,而是设计一个让两个模型互补的架构


💬 你在金融/法律/医疗等垂直领域用过哪个模型?评分如何?

📝 测评基于公开信息 + 统一 Prompt 的小样本结果,受样本与时间窗口影响,不构成产品推荐或投资建议。