北京大学第五弹:《DeepSeek私有化部署和一体机》

283 阅读3分钟

大家好,我是吾鳴。

之前吾鳴分享过北京大学出版的四份报告,它们分别是:

《DeepSeek与AIGC应用》

《DeepSeek提示词工程和落地场景》

《DeepSeek-R1及类强推理模型开发解读》

《DeepSeek原理与落地应用》

今天吾鳴要给大家分享由北京大学出版的第五份报告——《DeepSeek私有化部署和一体机》,这份报告主要讲述了个人如何部署DeepSeek、企业如何部署DeepSeek以及DeepSeek一体机,报告一共121页PPT,文末有完整版下载地址。

内容摘要

1. 人工智能与DeepSeek

  • 大模型是啥:比如能处理文字、图片、语音的“全能选手”,像DeepSeek这种大模型能聊天、写代码、解数学题,甚至生成春节习俗对比文章(中文优化比GPT-4还强)。
  • DeepSeek的版本
    • V2/V3:主打“生成能力”,比如写文章、翻译,V3速度更快(每秒60个token)。
    • R1:专注“推理能力”,数学题正确率97.3%,对标OpenAI的o1模型,但更便宜且开源。
  • 蒸馏模型:类似“学霸笔记”,把大模型的知识压缩到小模型里。比如1.5B模型能塞进树莓派,但正经业务别用,容易翻车;7B适合聊天,32B适合专业问答。

2. 个人部署DeepSeek

  • 硬件要求
    • 7B模型:普通游戏本(RTX 3070 + 32G内存)就能跑,硬盘需要10G空间。
    • 32B模型:得用高端台式机(RTX 4090 + 128G内存),硬盘30G+。
  • 工具推荐
    • Ollama:一键安装,命令行就能启动模型。比如输入ollama run deepseek-r1:7b,模型秒变聊天机器人。
    • Chatbox:类似微信的界面,支持Markdown和代码高亮,还能联网搜索(比如问“今天北京天气”)。
  • 翻车预警:如果下载模型卡住,可能是网络问题;用CPU跑70B模型?等3分钟才憋出一句话,不如换个小的。

3. 企业部署DeepSeek

  • 高性能方案:用vLLM框架,吞吐量比普通方法高24倍。比如8张4090显卡的服务器,能同时处理200个用户的请求(每人问“帮我写个Python爬虫”)。
  • 低成本方案:比如llama.cpp纯CPU推理,但速度慢到怀疑人生(每秒4个token);或者KTransformers让CPU和GPU分工,适合小团队尝鲜。
  • 血泪教训:企业级70B模型部署需要至少8张H100显卡,成本300万+,但北大青鸟用8张4090显卡+定制方案,硬是省到了199万(虽然速度稍慢)。

4. DeepSeek一体机

  • 买它干啥:学校、企业不用自己折腾硬件,插电就能用。比如北大青鸟的AI实验室,一台32B一体机能带480个学生搞科研(价格16.8万)。
  • 配置选择
    • 基础版(7B) :8.8万,适合教学生写小作文。
    • 旗舰版(671B) :199万,能搞国家级气候预测,但得配两台服务器(怕烧坏)。
  • 避坑指南:别信“满血版”宣传,很多厂商偷偷用低精度模型(比如INT8),效果打6折,一定要实测!

报告精彩

报告无套路下载地址:pan.quark.cn/s/7380eff83…