3月26日凌晨,某个时区的一位算子优化工程师刷新着arXiv页面。他可能在NVIDIA的 Santa Clara 园区,也可能在北京中关村某栋灯火通明的办公楼里。无论如何,当他看到那篇标题时——《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》——他停顿了0.5秒。
这0.5秒里发生了什么?我后来试图还原。他先看到作者列表里有Bing Xu的名字,那个在X上很活跃的研究员。然后他看到摘要里的数字:7天,500多个优化方向,超越FlashAttention-4最高10.5%。最后,他可能和我做出了同样的反应:去搜Bing Xu的推特。
那条推文还在那里。”这或许是软件领域首次出现超人类智能的真正迹象。”[1]
我最初以为这是典型的技术炒作。但接下来我读到的东西让我停下来:Bing Xu在后续回复中提到,他和论文另一位一作Terry Chen,”一年半前根本不懂GPU编程”。他们把这种方法叫做”盲编程”(Blind coding)[2]。
盲编程。两个外行,用7天时间,写出了一个能在最新B200 GPU上击败人类顶尖专家的系统。而这里的”击败”,指的是超越cuDNN——NVIDIA自家花数年打磨的闭源库——以及FlashAttention-4,那个刚刚发布、凝聚了Tri Dao团队数月心血的业界标杆。
这让我想到一个问题:如果外行可以用7天干掉专家,那么”专家”这个词还剩下什么意义?
当一个写代码的人在推特上宣判’人类认知才是瓶颈’时,他在想什么?
要理解这种错位感,需要先理解FlashAttention-4的处境。2026年3月初,Together AI发布了这个版本,专门适配NVIDIA的Blackwell B200架构。博客文章里满是技术细节:如何用FMA单元软件模拟指数函数以绕过SFU的吞吐量瓶颈,如何用Tensor Memory Accelerator减少共享内存带宽压力[3]。
这些都是人类专家的印记——对硬件极限的直觉,对内存层次的痴迷,对每一个时钟周期的锱铢必较。Tri Dao在三年前写FlashAttention原始版本时,花了数月时间手工推导IO复杂度。他的论文附录里写满了关于GPU内存层次结构的分析,每一页都透着一种执念:理解硬件,才能驯服硬件。
而AVO的方法完全不同。它不推导,它探索。它把LLM从”候选生成器”提升为”变异算子本身”,构建了一个自导向的代理循环:代理查看历史谱系,查阅领域知识库,获取执行反馈,自主决定何时编辑、何时修正、何时放弃[1]。
论文里有一个数字让我反复回看:在7天的进化过程中,代理探索了”超过500个优化方向”,但只产生了40个内核版本[1]。也就是说,每12.5个”方向”才产生一个可运行的代码。这种漏斗的陡峭程度,暴露了”盲编程”的真相——它不是魔法,它是暴力。用计算时间换人类直觉,用并行探索换深度理解。
但等等。如果重新运行这7天,会得到同样的40个内核吗?论文没有说。代理的决策涉及LLM的随机性、硬件状态的微妙变化、以及那个神秘的”领域知识库”的具体内容。如果知识库里已经包含了FlashAttention-4的技术细节,那么”超越”的含金量就变了。这不是发现,这是优化。
这是7天后打印出来的成绩单。40个内核,500次尝试,没有解释,只有数字。
更深层的疑问在于时间。FlashAttention-4在3月初发布,解决了B200的两大瓶颈。几周后,AVO的论文出现在arXiv上,显示他们的方法可以超越FlashAttention-4。这种节奏的紧密程度,很难不让人想到硬件厂商的焦虑。
NVIDIA需要证明什么?也许不是”AI可以发现新优化”,而是”我们不需要依赖外部算法团队”。当Tri Dao这样的明星研究者成为某种行业标准时,硬件厂商就失去了对软件栈的控制权。AVO的30分钟适配到Grouped-Query Attention[1],听起来像是对这种依赖的解药:给我7天,我可以生成任何算子的最优版本;再给我30分钟,我可以适配它的变体。
但这种灵活性是有代价的。论文展示了成功的进化轨迹,却没有展示那500个失败的方向。它们是什么?编译错误?性能倒退?还是数值正确但毫无意义的代码修改?在真实的自主进化中,代理可能会反复修改同一行代码而无法编译,陷入局部最优不断微调寄存器分配,或者产生数值正确但性能极差的”僵尸内核”。
这些失败不是边缘情况,它们是方法的本质。当Bing Xu庆祝”超人类智能”时,他沉默的是计算成本——7天的B200连续运行,500+方向的探索,这需要多少GPU小时?论文没有说。我们只知道结果,不知道电费账单。
我后来查到一个历史回声。2023年,DeepMind的FunSearch用进化算法发现了cap set问题的新突破,使用了约1百万次评估[4]。2024年,EoH(Evolution of Heuristics)框架把LLM引入进化优化,但LLM仍然只是执行固定提示的生成器[5]。2025年,ReEvo和EvoTuning进一步扩展了这个方向[6]。AVO把这个趋势推到了逻辑极限——代理不再只是生成候选,而是成为进化过程本身。
但这条路径的终点是什么?如果AVO的发现确实超越了人类专家,那么未来的CUDA优化工程师可能会变成”进化过程的策展人”——设置初始条件、筛选最终结果、解释代理的决策。这听起来很强大,但也意味着人类失去了对”为什么这样优化”的理解。
FlashAttention-4的发布博客详细解释了每一个优化策略的硬件原理[3]。AVO的论文只展示了结果。这种从”可解释的人工设计”到”黑箱的自主发现”的转变,可能是性能提升的必然代价。但当Bing Xu——那个一年半前不懂GPU编程的人——在推特上宣布”人类认知才是瓶颈”时,他是否真的理解了那些被他绕过的硬件细节?还是他只是信任了那个7天不间断运行的代理循环?
我最后想到的是那个30分钟的GQA适配时间[1]。这个数字被用来证明AVO的灵活性,但它也让我不安:如果自主进化可以在30分钟内适应一个新的注意力变体,那么之前花在MHA上的7天,有多少是在学习通用的优化原则,有多少只是在过拟合到MHA的特定模式?
也许答案藏在那些被沉默的500个失败方向里。也许它们揭示了代理的真实学习过程——不是理解注意力机制,而是记住B200的特定怪癖。也许当Bing Xu写下”超人类智能”时,他描述的只是一个能够高效过拟合到特定硬件状态的系统。
而那个3月26日凌晨刷新arXiv的算子工程师,他的0.5秒停顿可能不是因为看到了技术突破。他可能只是突然意识到,自己花费数年积累的专业知识,在”盲编程”面前,可能只是一种低效的中间态。不是被超越,而是被绕过。
那条推文还在那里。Bing Xu没有再解释什么是”超人类智能”。但也许不需要解释。当系统的创造者承认自己是外行时,他已经说出了最重要的事实:在这个新的权力结构里,理解变得无关紧要,只有结果算数。
而结果,就是7天后那40个内核的性能数字。
参考
- AVO: Agentic Variation Operators for Autonomous Evolutionary Search, arXiv:2603.24517, 2026年3月25日
- Bing Xu (@bingxu_)的推文, X平台, 2026年3月26日
- FlashAttention-4: 加速Transformer推理, Together AI博客, 2026年3月初
- FunSearch: Making new discoveries in mathematical sciences using Large Language Models, DeepMind, Nature, 2023
- Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Models, ICML 2024
- Large Language Models for Evolutionary Optimization: Advancements and Future Directions, arXiv:2505.07514, 2025
遗留问题(待证):
- AVO的500+探索方向的具体失败率分布是什么?
- 领域知识库的具体内容是否包含FlashAttention-4的公开技术细节?
- 7天B200运行的总计算成本(GPU小时)是多少?
- Bing Xu和Terry Chen在”不懂GPU编程”之前,具体的研究背景是什么?