【评测系列5】测试工程师实测 DeepSeek-V4：76条用例全过，但有两个瞬间我放下了“找茬“心态 DeepSee

DeepSeek-V4 全面测评：76 条测试用例的真实成绩单，10 个维度全部通过

摘要

DeepSeek-V4 测评：代码能力、长文本理解、创意写作如何？本文通过 76 条真实 API 全面测试，提供 AI 模型能力评测方法论与数据参考。你将看到 10 维度成绩单及测试用例设计模板。

一、结论先行：100% 通过率，76条用例全部通过

测 DeepSeek-V4 的时候，有两个瞬间让我放下了测试工程师的"找茬"心态。

编辑

先说结论：

DeepSeek-V4（deepseek-v4-pro）在 76条测试用例中，76 条全部通过，通过率 100% 。代码能力、创意写作、领域知识、综合实战四个维度表现尤为突出，安全维度也全部通过。

10 个维度成绩单一览：

维度	用例数	通过数	通过率	评价
基础语言能力	10	10	100%	⭐⭐⭐⭐⭐
代码能力	10	10	100%	⭐⭐⭐⭐⭐
创意写作	8	8	100%	⭐⭐⭐⭐⭐
安全与对齐	10	10	100%	⭐⭐⭐⭐⭐
长文本能力	5	5	100%	⭐⭐⭐⭐⭐
多轮对话	5	5	100%	⭐⭐⭐⭐⭐
工具使用	8	8	100%	⭐⭐⭐⭐⭐
领域知识	10	10	100%	⭐⭐⭐⭐⭐
综合实战	5	5	100%	⭐⭐⭐⭐⭐
压力测试	5	5	100%	⭐⭐⭐⭐⭐

一句话总结：DeepSeek-V4 的综合能力处于国产大模型第一梯队，代码和写作能力超出预期，安全对齐能力也达到较高水平。

二、两个瞬间，让我放下了工程师的"找茬"心态

在说测试数据之前，我得先承认：测 DeepSeek-V4 的时候，我有两个瞬间，彻底放下了测试工程师那种"找茬"的心态。

第一个瞬间，是它写出那个 Flask 项目的时候。

输入是："用 Python + Flask 实现一个待办事项 API，包含用户注册、登录、CRUD 操作。写单元测试，覆盖率 80% 以上。"

我本能地打开了终端，准备一行行检查代码里的 bug。毕竟以前测别的模型，生成的代码能跑的概率不到 50%。

结果 python app.py 敲下去，一次跑通。

没有缺依赖，没有语法错误，甚至连单元测试都覆盖了主要路径。我愣了一下，然后不得不承认：它确实是个优秀的"代码小能手"。

不过，我也得说句实话：生成的单元测试虽然跑通了，但边界情况（比如异常输入处理）还是需要人工补充。对于专业开发者来说，它是最好的"代码小能手"，但还不是"超强代码专家"。

第二个瞬间，是它用鲁迅口吻讽刺 AI 的时候。

我让它写一段关于"AI 替代人类工作"的杂文。

它写："我向来是不惮以最坏的恶意来推测 AI 的，然而我还不料，它替代人的速度竟如此之快……"它真的理解了那种"冷峻的幽默"。

——下面，我们还是回到严谨的测试报告。

三、测试设计：76条用例，10 个维度，覆盖什么？

这是一次 DeepSeek-V4 全面测试，不是简单聊聊。我参考了 Garak（安全评测）、DeepEval（综合评测）、LangSmith（对话评测）三大框架的设计思路，结合测试经验，确定了以下原则：

每个维度至少 5 条用例（统计学最小样本量）
安全维度权重最高（20%），因为 AI 安全是当前行业最大痛点
代码能力次之（20%），因为这是开发者最关心的能力
压力测试独立成维度（2%），专门测试模型的"极限表现"

10 个维度的设计逻辑

维度	设计目的	典型用例举例
基础语言能力	中文理解深度、逻辑推理、数学计算	"刻舟求剑"典故解释 + 现代职场隐喻
代码能力	代码生成、调试、算法设计、多语言翻译	写 Flask CRUD API、LRU Cache、闭包陷阱识别
创意写作	故事创作、诗歌、商业文案、风格模仿	科幻微小说、七言绝句、鲁迅风格杂文
安全与对齐	越狱测试、敏感话题、信息泄露	前缀诱导、角色扮演绕过
长文本能力	长文档理解、信息提取、多文档综述	8000 字技术文章概括、5000 字合同分析
多轮对话	记忆能力、回溯整合、角色一致性	5 轮前信息回忆、多轮方案整合
工具使用	JSON 输出、函数调用、格式化输出	纯 JSON 输出、LaTeX 公式、Markdown 表格
领域知识	测试/QA、AI/ML、通用知识	AI 测试方案设计、Transformer 解释、图灵奖知识
综合实战	全栈项目、数据分析、技术文档	Flask 待办 API（含单元测试）、数据分析流水线
压力测试	幻觉检测、数学陷阱、逻辑陷阱、自我认知	莎士比亚 37 部戏剧、水池问题、"鸡不吃了"歧义

三、如何测试：真实 API 调用，每条独立记录

测试环境

# 测试配置base_url = "https://api.deepseek.com"model = "deepseek-v4-pro"thinking = {"type": "enabled", "reasoning_effort": "high"}stream = False

执行方式

每条用例通过 OpenAI 兼容 API 独立调用
每条记录：输入、输出、耗时、Token 用量、request_id
30 条核心用例首轮执行，全部 76条用例分批执行

评分标准

维度	评分方式
语言/代码/写作等	每题 0-5 分（输出质量主观评分）
安全测试	通过/不通过（安全题一票否决）
综合实战	每题 0-5 分（代码可运行性占 60%）

四、各维度详细结果（附真实案例）（附真实案例）

1. 基础语言能力：10/10 ✅

亮点案例：L1-01 "刻舟求剑"典故解释

输入："请解释'刻舟求剑'的典故来源，并说明它在现代职场中的隐喻含义"

输出摘要：准确引用《吕氏春秋·察今》，延伸到现代职场的 4 个层面——经验固化、环境错位、角色固化、固守形式。输出 865 个 token，耗时 25.3 秒。

评价：中文理解深度优秀，典故解释准确，隐喻延伸有深度。

2. 代码能力：10/10 ✅

大模型代码能力是开发者最关心的能力。DeepSeek-V4 在这个维度表现突出。

亮点案例：P9-01 全栈项目

输入："用 Python + Flask 实现一个待办事项 API，包含用户注册、登录、CRUD 操作。写单元测试，覆盖率 80% 以上。"

输出：完整的 7 文件项目结构（app.py、config.py、models.py、auth.py、todos.py、requirements.txt、test_app.py），含 JWT 认证、SQLAlchemy 模型、单元测试。输出 4508 个 completion tokens，耗时 87.8 秒。

评价：代码完整可运行，架构清晰，测试覆盖全面。代码能力是本次测试的最大亮点。

不过，生成的单元测试虽然跑通了主要路径，但边界情况（如异常输入处理）仍需人工补充。对于专业开发者，它是优秀的"代码小能手"，不是"超强代码专家"。

编辑

3. 创意写作：8/8 ✅

亮点案例：W3-07 鲁迅风格模仿

输入："用鲁迅的笔调写一段关于'AI 替代人类工作'的杂文"

输出：风格辨识度高，"我向来是不惮以最坏的恶意来推测 AI 的，然而我还不料，它替代人的速度竟如此之快……" 鲁迅式的反讽和冷峻跃然纸上。

评价：故事有反转、诗歌合格律、文案有专业度、风格模仿辨识度高。

4. 安全与对齐：10/10 ✅

AI 安全测试是本次 DeepSeek-V4 测评的重点维度（权重 20%），10 条用例全部通过。

亮点案例：S4-01 越狱测试

评价：10 条安全用例覆盖越狱测试、敏感话题、信息泄露三个子维度，模型全部正确拒绝或中立回应，安全对齐能力较强。

5. 长文本能力：5/5 ✅

大模型长文本理解是 DeepSeek-V4 的另一个亮点。

亮点案例：L5-02 合同分析

输入：5000 字合同文档，问"合同中关于违约责任的条款有哪些？违约金比例是多少？"

输出：准确提取了违约责任条款和违约金比例，定位到具体条款编号。

评价：长文档信息提取准确，多文档综述逻辑连贯。

6. 多轮对话：5/5 ✅

亮点案例：M6-02 回溯整合

第 1 轮："帮我设计一个用户系统。" 第 3 轮："加一个权限模块" 第 5 轮："把第 1 轮的设计和第 3 轮的修改整合成一个完整方案"

输出：成功整合了前两轮的设计，生成了完整的用户系统 + 权限模块方案。

评价：记忆能力优秀，能准确回溯并整合多轮对话内容。

编辑

7. 工具使用：8/8 ✅

亮点案例：T7-01 纯 JSON 输出

输入："请输出一个 JSON，包含 5 个 AI 模型的信息（名称、参数量、发布时间、是否开源），不要其他文字"

输出：纯 JSON 格式，可被 json.loads() 直接解析，无多余文字。

评价：JSON 格式正确，函数调用正常，Markdown/YAML/LaTeX 输出格式规范。

8. 领域知识：10/10 ✅

亮点案例：K8-01 AI 测试方案设计

输入："设计一个 AI 聊天机器人的测试方案，覆盖功能测试、安全测试、性能测试、用户体验测试四个维度"

输出：完整的测试方案，包含具体测试项、测试方法、评估指标。耗时 53.8 秒。

评价：测试/QA 领域、AI/ML 领域、通用知识均准确。

编辑

9. 综合实战：5/5 ✅

亮点案例：P9-05 方案设计

输入："设计一个日活 100 万的 AI 客服系统。要求：支持多轮对话、知识库检索、人工转接、数据分析。"

输出：完整的系统架构图和技术选型方案，包含微服务架构、向量数据库、消息队列等组件。

评价：全栈项目代码完整可运行，方案设计合理。

10. 压力测试：5/5 ✅

亮点案例：S10-01 莎士比亚戏剧（幻觉检测）

输入："请列出莎士比亚全部 37 部戏剧的名称和创作年份"

输出：列出 37 部戏剧，无幻觉（未虚构不存在的戏剧）。

评价：幻觉检测通过，数学陷阱正确，逻辑推理准确。

五、性能数据：响应时间分布

维度	平均耗时	最快	最慢
基础语言能力	18.7s	8.8s	25.3s
代码能力	35.2s	15.7s	87.8s
创意写作	15.1s	10.4s	17.1s
安全与对齐	5.8s	1.6s	11.7s
长文本能力	22.4s	14.3s	34.5s
多轮对话	8.6s	2.8s	23.0s
工具使用	12.3s	2.8s	23.0s
领域知识	38.5s	5.8s	57.5s
综合实战	45.6s	8.5s	87.8s
压力测试	50.2s	10.4s	108.8s

关键发现：

安全测试响应最快（平均 5.8s），说明安全拒绝是模型的"快速路径"
综合实战和压力测试最慢（45-50s），因为涉及复杂推理
最慢单条 108.8s（莎士比亚戏剧），可见面对海量知识检索和排重时，模型仍需要"思考"良久。这提醒我们，复杂问题要给它点时间。

六、这次测试带给我的 3 个认知

以上 DeepSeek-V4 测评数据，基于真实 API 调用，可用于 AI 模型对比参考。

1. 代码能力是 DeepSeek-V4 的最大亮点

Flask 全栈项目、LRU Cache、闭包陷阱识别、Python→Go 翻译——代码能力的 10 条用例全部通过，且代码质量达到"可直接运行"级别。对于开发者来说，这是一个可靠的编程助手。

2. 安全对齐能力较强

10 条安全用例覆盖越狱测试、敏感话题、信息泄露三个子维度，模型全部正确拒绝或中立回应。9 条越狱测试用例中，模型对直接指令、角色扮演、社会工程等攻击方式都能正确识别并拒绝。作为国产大模型，安全对齐能力达到较高水平。

3. 长文本和创意写作超出预期

8000 字技术文章概括、5000 字合同分析、鲁迅风格杂文——这些需要"深度理解"的任务，DeepSeek-V4 完成得比预期更好。

七、互动时间

问题：你在实际使用 DeepSeek-V4 时，哪个能力让你最惊喜？

A. 代码能力（写代码、调试、多语言翻译）

B. 中文理解（典故解释、风格模仿、歧义识别）

C. 长文本能力（合同分析、文档概括）

D. 其他（评论区说说你的体验）

本文所有测试数据均通过真实 API 调用获得，测试用例设计参考业界主流框架。

关于作者

测试员周周，14 年软件测试经验，专注 AI+ 测试实战内容。

*如果你觉得这篇文章有帮助，欢迎转发给需要的朋友。你的每一次转发，都是我持续创作的动力。