蓝耘元生代上线 DeepSeek-v3.1,编程能打Claude 4,推理提效,Agent能力增强(附适用场景)

109 阅读3分钟

DeepSeek- V3.1正式发布,新模型表现出了三大能力提升-混合推理架构、代码能力/推理效率提升、更强的 Agent 能力。蓝耘元生代模型广场第一时间上线了DeepSeek-v3.1版本,新用户注册赠送100万token(含API调用)。价格为输入 ¥ 1/M Token,输出 ¥ 4/M Token。🔗模型体验:maas.lanyun.net/#/model/mod…

🔗API调用文档:

archive.lanyun.net/#/maas/文本模型…

  • 顶级代码能力

在Aider编程基准测试中DeepSeek-V3.1取得76.3%高分,超越Claude 4 Opus ,创下开源大模型的最佳记录。展现了其在代码生成和编程辅助方面的实用价值。通过蓝耘MaaS平台模型API 接口调用,开发者们可以轻松接入Claude Code 。

图片DeepSeek-V3.1上下文均已扩展为128K。在实际测试中,V3.1在多步推理任务中的表现较前代提升43%,尤其在数学计算、代码生成和科学分析等复杂任务中准确性更高。且能在更短时间内给出答案,响应速度远超以推理见长的“慢模型”。

  • 混合推理架构,提效省资源

在之前DeepSeek-V3.1-base版本中,开发者测试发现,新增了四个特殊标记:搜索功能标记、思考过程标记。

<|search▁begin|> (id: 128796)<|search▁end|> (id: 128797)<think> (id: 128798)</think> (id: 128799)

这些功能的激活意味着模型具备了更强的推理和信息检索能力。

而在DeepSeek-V3.1版本发布后也验证了这一点,同时支持思考模式与非思考模式。测试结果显示,经过思维链压缩训练后,V3.1思考模式 在输出 token 数减少 20%-50% 的情况下,各项任务的平均表现与 R1-0528 持平。

图片

显著减少了那些可以通过模型知识和数学问题解答的题目的过度思考,不会无效推理浪费算力,这在一众国产基础模型的输出长度竞赛中是一股“逆流”。

  • 更强的智能体能力

Deepseek-V3.1通过Post-Training优化,在工具调用和智能体任务中表现有很大的提升。使得智能体开发者,能够更轻松地构建出更强大、更可靠、更智能的Agent。

图片

编程智能体:在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.1,性能碾压自己的R1、V3,实现对自己的全面超越。

图片

搜索智能体:DeepSeek-V3.1在搜索智能体(Search Agent) 能力上的巨大飞跃,使得智能体不再需要与用户或系统进行冗长的“来回确认”,它能更快地理解意图、诊断问题并生成正确方案。

适用场景举例

  • 代码开发与辅助:非常适合用于生成代码片段、优化代码、前端开发(如网页、小游戏)、以及代码解释和调试
  • 内容创作与文本处理:可用于生成文章、报告、故事、诗歌等创意文本,或处理翻译、摘要等任务。
  • 教育与研究:作为教学辅助工具,解答学生问题;研究人员也可用它分析文本数据、生成思路
  • Agent与自动化:其128K上下文和 improved 的指令遵循能力,使其适合作为Agent应用的核心,处理复杂工作流。

蓝耘元生代MaaS平台,已上线KIMI K2、千问系列、DeepSeek、MiniMax、百川系列的量化及蒸馏版本等多种模态,且全部支持直接调用 API、私有化部署等多种使用方式,满足不同用户对于数据安全、应用场景的个性化需求。

图片

扫码体验