昨晚搞到凌晨三点,终于用国产芯片跑通了第一个模型。准确率比英伟达低了两个点,训练时间多了快一倍,但至少——它能跑了。
关上电脑的时候我在想:如果明天GitHub真的被封了,中国还有多少AI项目能正常迭代?
我们的技术栈有多“美国”?
每天早上打开电脑,就是一场“美国技术博览会”:
GitHub是微软的,PyTorch是Meta的,CUDA是英伟达的,TensorBoard是谷歌的,连我们用来讨论“国产替代”的Slack都是美国公司的。
去年我们团队统计过,一个AI项目从开发到上线,要碰28种主要工具,其中23个是美国公司主导的。最讽刺的是,连代码里写的注释都是英文。
我的“去美化”踩坑实录
第一坑:文档的坑
国产框架的文档,像是用谷歌翻译了一遍又一遍。关键参数的解释永远语焉不详,示例代码跑起来十有八九报错。你问技术支持,他们经常回你一句:“这个功能还在完善中。”
第二坑:社区的坑
在Stack Overflow上搜PyTorch问题,有几十万个回答。搜国产框架,最新问题可能是一年前提的,下面零回复。你遇到的每个坑,都得自己一点点刨出来。
第三坑:生态的坑
用PyTorch时,想加个可视化工具,pip install一下就好。用国产框架时,发现连个像样的性能分析工具都没有。所有东西都要自己从头造,造轮子造到怀疑人生。
硬件:离开英伟达的日子
拿到第一张国产AI芯片时,参数很漂亮——接近A100的性能,价格便宜三成。
实际用起来才发现,参数只是纸上谈兵:
训练同样的模型,速度只有英伟达的六成。这还不是最要命的,最要命的是调试——错误信息经常是一串看不懂的代码,你得像侦探一样反推哪里出了问题。
有次训练莫名其妙崩了,技术支持看了三天日志,最后说:“可能是我们的驱动有个小bug,下个版本修复。”
“下个版本什么时候?”
“还不确定。”
开源的真相
很多人说,开源软件怕什么,代码都公开的。
但开源不等于你能掌控。PyTorch的代码有上百万行,国内能完全吃透的不超过百人。就算你能fork一份,生态怎么办?那些好用的工具会跟着你迁移吗?学术圈的论文会用你的版本吗?
现实是:Meta在PyTorch上每年投入几百人,我们哪家公司养得起这样的团队?
我们在做的“备胎计划”
虽然难,但不能不准备。我们团队现在分三步走:
第一步:双活
关键模型同时维护两套代码,一套给英伟达,一套给国产芯片。每次更新都要测两边,工作量翻倍,但至少能跑。
第二步:解耦
把业务逻辑和框架代码彻底分开。就像把房子建在轮子上,哪天地基不行了,还能拖着走。
第三步:扎根
深度参与一两个开源项目,不再只是用,还要能改、能贡献。从使用者变成共建者。
如果你现在就要行动
别等政策来了再动手,那时候就晚了:
个人开发者
今天就把GitHub仓库同步到Gitee,就当买份保险。学学国产框架,哪怕只是跑通一个Demo。
技术主管
指定团队里的两个人专门研究替代方案,每个月汇报进展。关键系统开始做框架解耦。
公司决策者
认真评估一次“断供风险”,算算如果真的发生,公司能撑多久。该投的钱早点投,该建的能力早点建。
最后说几句实话
搞国产替代这半年,是我职业生涯最累的半年。进展慢,坑又多,经常想放弃。
但每次想放弃的时候,我就想起二十年前的中国软件行业——连个像样的操作系统都没有。现在至少我们有的选,虽然这个选择还很糟糕。
这条路注定难走,会慢,会走弯路,会被人嘲笑。但有些路,不走就永远被人卡着脖子。
昨晚模型跑通的那一刻,虽然结果不完美,但我知道——我们至少还在跑道上。
问个实际的问题:
你们团队现在对技术国产化到什么程度了?
A. 老板觉得想太多,继续用国外的
B. 领导说要搞,但没见实际行动
C. 已经开始试点,选了一两个项目试水
D. 核心系统已经切换,有完整方案
直接回字母,想听听大家的真实情况。