DeepSeek V3 x ApiSmart

192 阅读3分钟

根据美国业界的说法:如果一个模型能够在生成良好代码方面表现更出色,那么通常它也能对非代码生成类型的其他用户查询产生更好的答案。

michael-starkie-MnrYmqIL1FE-unsplash.jpg

在AI编程领域,市面上已有多款大模型和工具供我们选择。常见的有OpenAI系列模型、Claude 3.5 Sonnet,还有一些性价比高的模型,比如DeepSeek V3。

DeepSeek V3

DeepSeek-V3 正式发布

DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。

论文链接:

github.com/deepseek-ai…

DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

DeepSeek官方在推文中提到,DeepSeek V3在算法类代码场景中拥有卓越表现,工程类代码表现也十分接近主流大模型。它在Codeforces评分上略高于一些同类竞品,但在SWE Bench评分上则低于Claude 3.5 Sonnet。

这也说明DeepSeek V3非常适合写算法题、做编程挑战,不过如果你的项目着重于前端或工程化开发,Claude 3.5 Sonnet或OpenAI o1依然是重要的编程工具。

从一些实操体验来看,DeepSeek V3的API 价格相当有竞争力。就算进行了多轮大Token量的对话,费用依旧比较可控,对于个人开发者或者小团队而言是一种省钱又好用的选择。

image.png

开发成本只有 557 万美元的 DeepSeek-V3,有哪些亮点?

和前代 DeepSeek-V2 一样,新发布的超大模型仍然基于多头潜在注意力(MLA)和 DeepSeekMoE 架构。这种设计确保模型在训练和推理时保持高效,通过专用和共享的“专家”(模型中的独立小型神经网络)机制,每次处理一个词元时激活 6710 亿参数中的 370 亿个。

image.png

DeepSeek-V3 架构图

除了延续基础架构保证强大性能外,DeepSeek-V3 还引入了两项创新:

  1. 无辅助损失的负载均衡策略:通过动态监控并调整专家的工作负载,让它们均衡运行,同时不影响整体模型性能。
  2. 多词元预测(MTP):支持模型同时预测多个未来词元。

这一创新不仅提高了训练效率,还让模型的生成速度提升了三倍,从 20 TPS 大幅提高至 60 TPS,每秒能生成 60 个 token。

7d88c08f3047f4fe4379d0c91e91874b.gif

ApiSmart

ApiSmart 是ApiHug 插件内置 AI 支持功能; ApiSmart 作为一个入门AI智能编码,和本地AI 学习调试工具, 做到 练学习操 一体;

一边练习,一边增加你对AI 体验, 一边提升你的工作效率, 一箭三雕。

  1. 精准携上下文, 代码片段位置
  2. 识别语言, 当然IDEA内非常简单
  3. 精炼的prompt, 当然你也可以覆盖他

056_ai_ask.gif

# ApiHug - API design Copilot

ApiHug 的 ApiSmart 利用 Langchain4j 与大型语言模型(LLM)供应商进行通信;因此基本上任何 Langchain4j 支持的供应商都可以被 ApiSmart 支持;

apihug.com/zhCN-docs/c…

AI-Gateway.png

实操

创建Deepseek API密钥

接下来我们来到Deepseek这边,创建供Continue使用的API密钥。

访问Deepseek开放平台对应页面( platform.deepseek.com/api_keys ),点击**「创建API key」**:

图片

按引导完成新的密钥创建,记得复制之后**「妥善保存」**该密钥:

图片

修改ApiHug配置

ApiHug>Settings>AI>Vendor

image.png

下面就可以进行愉快的调用了

  1. 编辑右击→ 菜单  ApiSmart/Ask|Test

  2. 右边 toolwindow 直接发问

玩转AI编程就是这么简单!!

lorin-both-rn_A62lhGh8-unsplash.jpg