根据美国业界的说法:如果一个模型能够在生成良好代码方面表现更出色,那么通常它也能对非代码生成类型的其他用户查询产生更好的答案。
在AI编程领域,市面上已有多款大模型和工具供我们选择。常见的有OpenAI系列模型、Claude 3.5 Sonnet,还有一些性价比高的模型,比如DeepSeek V3。
DeepSeek V3
DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。
论文链接:
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
DeepSeek官方在推文中提到,DeepSeek V3在算法类代码场景中拥有卓越表现,工程类代码表现也十分接近主流大模型。它在Codeforces评分上略高于一些同类竞品,但在SWE Bench评分上则低于Claude 3.5 Sonnet。
这也说明DeepSeek V3非常适合写算法题、做编程挑战,不过如果你的项目着重于前端或工程化开发,Claude 3.5 Sonnet或OpenAI o1依然是重要的编程工具。
从一些实操体验来看,DeepSeek V3的API 价格相当有竞争力。就算进行了多轮大Token量的对话,费用依旧比较可控,对于个人开发者或者小团队而言是一种省钱又好用的选择。
开发成本只有 557 万美元的 DeepSeek-V3,有哪些亮点?
和前代 DeepSeek-V2 一样,新发布的超大模型仍然基于多头潜在注意力(MLA)和 DeepSeekMoE 架构。这种设计确保模型在训练和推理时保持高效,通过专用和共享的“专家”(模型中的独立小型神经网络)机制,每次处理一个词元时激活 6710 亿参数中的 370 亿个。
DeepSeek-V3 架构图
除了延续基础架构保证强大性能外,DeepSeek-V3 还引入了两项创新:
- 无辅助损失的负载均衡策略:通过动态监控并调整专家的工作负载,让它们均衡运行,同时不影响整体模型性能。
- 多词元预测(MTP):支持模型同时预测多个未来词元。
这一创新不仅提高了训练效率,还让模型的生成速度提升了三倍,从 20 TPS 大幅提高至 60 TPS,每秒能生成 60 个 token。
ApiSmart
ApiSmart 是ApiHug 插件内置 AI 支持功能; ApiSmart 作为一个入门AI智能编码,和本地AI 学习调试工具, 做到 练学习操 一体;
一边练习,一边增加你对AI 体验, 一边提升你的工作效率, 一箭三雕。
- 精准携上下文, 代码片段位置
- 识别语言, 当然IDEA内非常简单
- 精炼的prompt, 当然你也可以覆盖他
ApiHug 的 ApiSmart 利用 Langchain4j 与大型语言模型(LLM)供应商进行通信;因此基本上任何 Langchain4j 支持的供应商都可以被 ApiSmart 支持;
实操
创建Deepseek API密钥
接下来我们来到Deepseek
这边,创建供Continue
使用的API密钥。
访问Deepseek
开放平台对应页面( platform.deepseek.com/api_keys ),点击**「创建API key」**:
按引导完成新的密钥创建,记得复制之后**「妥善保存」**该密钥:
修改ApiHug配置
ApiHug>Settings>AI>Vendor
下面就可以进行愉快的调用了
-
编辑右击→ 菜单 ApiSmart/Ask|Test
-
右边 toolwindow 直接发问
玩转AI编程就是这么简单!!