DeepSeek-V3-0324 发布,一些简单的信息汇总

21 阅读1分钟
  • 参数规模从初代V3的6710亿增至6850亿,激活参数保持370亿
  • 模型开源版本已上线Hugging Face,并采用更宽松的MIT许可证,允许模型蒸馏、商用及二次开发
  • 编程能力:
    • 在kcores-llm-arena测试中代码能力得分328.3分,超过Claude 3.7 Sonnet普通版(322.3分),接近think版本(334.8分)。生成代码的审美与功能性接近Claude 3.7
  • 上下文长度:
    • 128K。
    • 采用了动态拓展上下文,默认16k,检测到长文本再切换到128K
  • 价格:
    • 输入0.5元/输出8元,
    • 输入是3.7的1/6,输出是3.7的1/2