别再硬推本地大模型了

0 阅读11分钟

全文速览:

本文作者 Andrew Zuo 的核心观点是:

“本地大语言模型(Local LLM)没意义,性能太差、成本太高、体验太慢,远不如用云端模型实用。”

他从多个角度反复强调这个核心论点,包括:

  1. 硬件门槛高:本地 LLM 要求极高显存(如 100GB+),消费级设备难以满足,或者价格昂贵如 Mac Studio、DGX Spark。
  2. 运行速度慢:即使用高端设备,token/s 表现远远落后于云端服务(比如 Mac Studio 18 token/s,而 Gemini Flash 高达 198 token/s)。
  3. 云服务更便宜:对比数千美元的设备,T3 Chat 等云服务每月只要 8 美元,几十年都花不了那么多钱。
  4. 隐私和 NSFW 并非必须依靠本地:付费云模型不会用对话训练,越狱 NSFW 内容也没多难。
  5. 本地模型体验差:本地可跑的模型参数太小(如 3B)功能有限,越大模型又跑不动,鸡肋。
  6. 企业级云算力发展更快:消费级硬件进步了,但企业级进步更快,拉开更大差距。

总结就是一句话:

“别浪费钱搞本地 LLM,慢得要命,还不如花几块钱用更快更强的云端大模型。”

反方提倡的观点:

✅本地大模型真正要解决的核心问题是这些:

1. 保护企业商业机密,杜绝数据外泄

  • 在使用公有云模型(如 DeepSeek、豆包,Kimi,ChatGPT、Claude、Gemin)时,员工在日常操作中往往无感知地将企业数据上传至服务提供方的 AI 系统。这种看似无害的交互,在日积月累中将逐步暴露企业的核心信息与商业机密,形成系统性泄漏风险。
  • 每一位员工通过 API 查询的文本/代码/资料都有可能悄无声息进入模型训练数据,即使平台承诺“不会用于训练”,依旧不可验证。
  • 本地部署可实现“数据不出内网”,对法律、财务、研发、安全、贸易等高度敏感部门来说,是必须选项。

2. 降低大规模使用成本,稳定服务体验

  • 商业模型使用按 token 收费,对大量员工的重复性任务(客服、销售、编码建议、文档翻译)来说,费用迅速累积
  • 本地 LLM 一次部署,多人使用,长期下来比订阅 API 更节省,并且不受限于每日限额、速率限制等商业策略。
  • 在“公司内广泛普及 AI 作为办公助手”的目标下,只有本地模型才是真正可控、可扩、可量化成本的方式。

3. 边缘计算场景下,必须靠本地推理

  • 例如:安防摄像头、工业传感器、自动驾驶、机器人等场景中,大模型必须贴近传感器部署。
  • 云服务存在延迟高、网络中断、数据无法实时上传等天然问题,推理必须本地完成才能保障实时性和稳定性。
  • 本地 LLM 可以与嵌入式硬件或工业边缘服务器协同,组成一套完整的 AI 终端系统。

4. 个人隐私绝对可控,远超公有云服务

  • 在合规性要求极高的国家(如欧盟GDPR、中国网信办条例)中,**“隐私不出设备”**是硬性标准。
  • 只有本地运行的 LLM 才能做到:用户数据完全保留在本机,无需上传、无需登录、无需注册,不会被任何第三方看到
  • 对于个人用户来说,尤其是医疗、心理、性别相关问题,本地 LLM 提供安全的心理空间

📌 总结反驳作者观点:

Andrew Zuo 的文章完全站在“极客 +消费者”视角,忽视了本地 LLM 在 企业级、隐私级、工业级、战略级 的多重现实应用价值。他只是看到了“速度慢”和“买不起”的问题,却没看到 本地部署是为了信任、安全、成本和控制权——这些恰恰是大模型产业迅速落地的关键。

原文开始:

作者:Andrew Zuo

图片来自 Unsplash 上的 Jona

📣 本文译介由
🔧 技术实战派|AI软硬件一体解决者
🧠 从芯片设计、电路开发、GPU部署 → Linux系统、推理引擎 → AI模型训练与应用
🚀 专注用10年工程经验 + 商业认知,赋能AI产品从概念到落地
📩 学AI?做AI项目?搞AI训练推理设备?欢迎关注/私信交流

正文:

最近有个趋势:为本地大模型设计的机器。要运行本地 LLM,你需要两样东西:一张快的 GPU,还有大量高速内存(最好超过 100GB)。GPU 我们早就有了,但内存我们缺了很久。是的,你可以在主板上插很多内存条,没错是能跑,但 GPU 用不上它,那就会让 LLM 慢到不能用。我们需要的不是普通内存,是显存。

第一台适合跑本地 LLM 的机器,大概是第一代苹果 M1 Pro 和 Max 芯片的 MacBook Pro(Pro Max Pro)。这些机器的显存多得离谱,因为它们用了统一内存架构,CPU 和 GPU 共用同一套内存。我记得那时候 Pro Max Pro 最多能配到 90GB 以上的内存,确实不少。虽然那会我还不懂为啥要这么多显存,因为那时候 ChatGPT 还没出来。

但后来 ChatGPT 出来了,然后一大波“开放权重”的 LLM 跟着涌现出来,你可以在本地运行它们。LLM 需要把几十亿的参数全装进内存,这就意味着内存要爆棚。其实大家对本地 LLM 也没太当回事,直到今年 CES 大会上。

英伟达在那儿宣布了 Project Digits,我之前写过一篇文章聊它。简单说,Project Digits 是一台 3000 美元的小型 Linux 盒子,大小像 Mac Mini,有 128GB 统一内存,跑的是英伟达最新的 Blackwell 架构。我当时觉得这东西能掀起行业风暴。结果——我太天真了。

甚至在我们还不知道 Project Digits 全部参数时,英伟达就被苹果截胡了。苹果发布了 M4 Max / M3 Ultra 的 Mac Studio,内存最高能配到 512GB,甚至比 Project Digits 还多(虽然你可能能把多台 Project Digits 串联起来)。我上篇文章里也提到,它价格也差不多。

这意味着,理论上你可以在这机器上跑 DeepSeek 的 6710 亿参数模型。我在上一篇文章里提过这事一嘴。但最近 Mac Studio 开始发货,很多人真上手去跑 DeepSeek R1 的 671B 模型。我一开始挺惊讶,结果发现这么多人真干这事,也许我也不该太惊讶吧——毕竟以前没谁在消费级 GPU 上跑过 671B 模型。

这就来到现在。英伟达最近办了 GTC 大会,全称 GPU 技术大会(但我 Google 时搜到的是“Good Till Cancelled”,现在脑子里只剩这个意思了)。这次英伟达公布了更多关于 Project Digits 的细节。首先,它不叫 Project Digits 了,叫 DGX Spark。其实 DGX 系列早就有了,不知道他们为啥现在才起好名字。

其次,英伟达允许其他厂商做类似 DGX Spark 的设备。华硕、惠普、戴尔都表示要做。所以看起来英伟达指望本地 LLM 设备能大卖。我不这么觉得。因为——本地 LLM 太慢了。

英伟达还公布了 DGX Spark 的内存带宽。对于 LLM 来说,内存带宽极其关键,有时候比 GPU 还重要。DGX Spark 的带宽是 273 GB/s。

DGX Spark 刚发布时,大家猜它内存到底多快。我当时还希望是 500GB/s 到 1TB/s。结果连我最悲观的猜测都达不到,只有一半。Reddit 上还有人随口说它是 273 GB/s,我当时都没当回事,觉得太慢了,英伟达不会对我们这么狠吧?结果——我应该信那人。

太失望了。M4 Max 的 Mac Studio 带宽能到 546 GB/s,正好是 DGX Spark 的两倍。所以看起来 Mac Studio 和 DGX Spark 用的是同类内存,但 Mac Studio 用了两根,DGX Spark 只有一根。而 M3 Ultra Mac Studio 应该是三根内存条,带宽是 DGX Spark 的三倍。

📌 其实我们在企业部署本地 LLM 的工程实践中,早就意识到内存带宽瓶颈才是推理性能的核心问题。如果你也在考虑如何挑选合适的本地推理硬件,或想知道怎么构建私有化推理系统,欢迎来聊一聊。
🔧 我们长期实践从 Linux 驱动、推理引擎到 GPU架构优化,欢迎同行探讨。

那这对 LLM 意味着啥?我们知道 Mac Studio 跑大模型时,能跑到每秒 18 个 token,网上很多人都在晒。而我在上一篇也提到,有人发推说 DGX Spark 跑 Llama 3.3 只有每秒 8 个 token。

我当时不信,觉得太低了。但要是按它内存带宽比 Mac Studio 慢一半或三分之一来算,好像也说得通。

真的太让人泄气了。我刚发了一篇博客《Gemini 2.0 Flash 是最强 AI 聊天机器人,谁来反驳?》。结果现在 Gemini 2.5 Pro 和 Flash 都出来了。也许我该早点发,但我那篇核心观点还站得住:

AI Studio 可以看到每条查询花了多久。我上一次问它,生成了 486 个 token,只用了 3.8 秒。那就是……每秒 127.89 个 token。虽然这还不算最快。有次它 6.9 秒生成 1100 token(159 token/s),8 秒生成 1586 token(198 token/s),5.4 秒生成 756 token(140 token/s)。

那叫一个快,爆炸快。我有时候切回 ChatGPT 检查些东西,但每次都忍不住想:“怎么这么慢啊?”

100 到 200 token 每秒。说实话我现在已经被宠坏了,根本回不去那种慢得像蜗牛一样的 LLM,比如 DGX Spark 和 Mac Studio。

我真想不通本地 LLM 有啥用,尤其你还得花几千刀买台机器。

那你跑 GPT-4o、Claude 3.7 或 Gemini 2.0 Flash 要多少钱?不要钱。你要是用 API 才可能稍微贵点,但也不多。有个服务叫 T3 Chat,只要每月 $8,你就能用上所有主流模型。所以你可以花钱买个 DGX Spark,也可以用 T3 Chat 用 31 年。你自己选。

虽然我都怀疑 DGX Spark 跑得好不好。我写过一篇文章叫《本地 LLM 根本跑不动》,讲的就是这问题。Gemini Nano 和 Apple Intelligence 都只有 30 亿参数,根本干不了啥事。别指望它们指令跟得好,只能做点基本摘要。

DGX Spark 可能稍微好点,但问题本质还是一样。为啥你要用 DGX Spark?你可以跑个更大的模型啊,比如上兆参数的?或者 Mac Studio 上跑 DeepSeek R1 671B。但那价格你都够买一辈子的 T3 Chat 了。

当然还是有些人想跑本地 LLM。最大原因是隐私。但你看这些主流模型的隐私政策,写得挺清楚:付费用户的聊天内容不会被用来训练。

还有就是 NSFW 问题。是的,有时候模型拒绝回答这类问题。但你“越狱”太容易了,轻轻松松。我都不觉得那叫越狱,只要你跟模型说这是学术研究,它就答。

另外你下载个模型在本地跑,也不代表你就能问它各种羞羞问题。那得用“无审查版”的模型,比如 Llama 3.2 uncensored。但无审查版模型比较少,性能可能还不如官方版本。

我真的搞不懂为啥大家非要在本地用 LLM。我更搞不懂英伟达居然打算为此推一个全新系列电脑,动辄上千美元。

英伟达显然觉得这事有机会。也许有吧,给那些喜欢折腾的极客。但我怀疑这个市场跟买游戏显卡的人比,实在太小了。

消费级硬件跑 LLM 进步确实很大。但企业级也更猛了。Gemini 2.0 Flash 每秒 100–200 token。而最快的消费级硬件,能跑个好模型每秒能到 20 token 就算不错了。是的,小模型跑得快点,但体验不行。我真不觉得本地 LLM 有啥意义。

🧭 不同应用场景有不同需求。如果你是开发者、技术负责人,想落地本地化AI系统、部署可控可管的推理服务,欢迎一起深入聊聊这条路线怎么走通

🔧 技术实战派|AI软硬件一体解决者
🧠 从芯片设计、电路开发、GPU部署 → Linux系统、推理引擎 → AI模型训练与应用
📩 搞AI设备、搭AI系统、落AI应用,欢迎评论区交流或私信我聊具体需求。