开源的力量:完全去美国化的AI开发栈可能吗?

12 阅读4分钟

昨晚搞到凌晨三点,终于用国产芯片跑通了第一个模型。准确率比英伟达低了两个点,训练时间多了快一倍,但至少——它能跑了。

关上电脑的时候我在想:如果明天GitHub真的被封了,中国还有多少AI项目能正常迭代?

我们的技术栈有多“美国”?

每天早上打开电脑,就是一场“美国技术博览会”:

GitHub是微软的,PyTorch是Meta的,CUDA是英伟达的,TensorBoard是谷歌的,连我们用来讨论“国产替代”的Slack都是美国公司的。

去年我们团队统计过,一个AI项目从开发到上线,要碰28种主要工具,其中23个是美国公司主导的。最讽刺的是,连代码里写的注释都是英文。

我的“去美化”踩坑实录

第一坑:文档的坑

国产框架的文档,像是用谷歌翻译了一遍又一遍。关键参数的解释永远语焉不详,示例代码跑起来十有八九报错。你问技术支持,他们经常回你一句:“这个功能还在完善中。”

第二坑:社区的坑

在Stack Overflow上搜PyTorch问题,有几十万个回答。搜国产框架,最新问题可能是一年前提的,下面零回复。你遇到的每个坑,都得自己一点点刨出来。

第三坑:生态的坑

用PyTorch时,想加个可视化工具,pip install一下就好。用国产框架时,发现连个像样的性能分析工具都没有。所有东西都要自己从头造,造轮子造到怀疑人生。

硬件:离开英伟达的日子

拿到第一张国产AI芯片时,参数很漂亮——接近A100的性能,价格便宜三成。

实际用起来才发现,参数只是纸上谈兵:

训练同样的模型,速度只有英伟达的六成。这还不是最要命的,最要命的是调试——错误信息经常是一串看不懂的代码,你得像侦探一样反推哪里出了问题。

有次训练莫名其妙崩了,技术支持看了三天日志,最后说:“可能是我们的驱动有个小bug,下个版本修复。”

“下个版本什么时候?”

“还不确定。”

开源的真相

很多人说,开源软件怕什么,代码都公开的。

但开源不等于你能掌控。PyTorch的代码有上百万行,国内能完全吃透的不超过百人。就算你能fork一份,生态怎么办?那些好用的工具会跟着你迁移吗?学术圈的论文会用你的版本吗?

现实是:Meta在PyTorch上每年投入几百人,我们哪家公司养得起这样的团队?

我们在做的“备胎计划”

虽然难,但不能不准备。我们团队现在分三步走:

第一步:双活

关键模型同时维护两套代码,一套给英伟达,一套给国产芯片。每次更新都要测两边,工作量翻倍,但至少能跑。

第二步:解耦

把业务逻辑和框架代码彻底分开。就像把房子建在轮子上,哪天地基不行了,还能拖着走。

第三步:扎根

深度参与一两个开源项目,不再只是用,还要能改、能贡献。从使用者变成共建者。

如果你现在就要行动

别等政策来了再动手,那时候就晚了:

个人开发者

今天就把GitHub仓库同步到Gitee,就当买份保险。学学国产框架,哪怕只是跑通一个Demo。

技术主管

指定团队里的两个人专门研究替代方案,每个月汇报进展。关键系统开始做框架解耦。

公司决策者

认真评估一次“断供风险”,算算如果真的发生,公司能撑多久。该投的钱早点投,该建的能力早点建。

最后说几句实话

搞国产替代这半年,是我职业生涯最累的半年。进展慢,坑又多,经常想放弃。

但每次想放弃的时候,我就想起二十年前的中国软件行业——连个像样的操作系统都没有。现在至少我们有的选,虽然这个选择还很糟糕。

这条路注定难走,会慢,会走弯路,会被人嘲笑。但有些路,不走就永远被人卡着脖子。

昨晚模型跑通的那一刻,虽然结果不完美,但我知道——我们至少还在跑道上。


问个实际的问题:

你们团队现在对技术国产化到什么程度了?

A. 老板觉得想太多,继续用国外的

B. 领导说要搞,但没见实际行动

C. 已经开始试点,选了一两个项目试水

D. 核心系统已经切换,有完整方案

直接回字母,想听听大家的真实情况。