B200上的超人类智能：AVO自进化算法的胜利与质疑，人类认知是局限吗AVO: Agentic Variation Op

3月26日凌晨，某个时区的一位算子优化工程师刷新着arXiv页面。他可能在NVIDIA的 Santa Clara 园区，也可能在北京中关村某栋灯火通明的办公楼里。无论如何，当他看到那篇标题时——《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》——他停顿了0.5秒。

这0.5秒里发生了什么？我后来试图还原。他先看到作者列表里有Bing Xu的名字，那个在X上很活跃的研究员。然后他看到摘要里的数字：7天，500多个优化方向，超越FlashAttention-4最高10.5%。最后，他可能和我做出了同样的反应：去搜Bing Xu的推特。

那条推文还在那里。”这或许是软件领域首次出现超人类智能的真正迹象。”[1]

我最初以为这是典型的技术炒作。但接下来我读到的东西让我停下来：Bing Xu在后续回复中提到，他和论文另一位一作Terry Chen，”一年半前根本不懂GPU编程”。他们把这种方法叫做”盲编程”（Blind coding）[2]。

盲编程。两个外行，用7天时间，写出了一个能在最新B200 GPU上击败人类顶尖专家的系统。而这里的”击败”，指的是超越cuDNN——NVIDIA自家花数年打磨的闭源库——以及FlashAttention-4，那个刚刚发布、凝聚了Tri Dao团队数月心血的业界标杆。

这让我想到一个问题：如果外行可以用7天干掉专家，那么”专家”这个词还剩下什么意义？

当一个写代码的人在推特上宣判’人类认知才是瓶颈’时，他在想什么？

要理解这种错位感，需要先理解FlashAttention-4的处境。2026年3月初，Together AI发布了这个版本，专门适配NVIDIA的Blackwell B200架构。博客文章里满是技术细节：如何用FMA单元软件模拟指数函数以绕过SFU的吞吐量瓶颈，如何用Tensor Memory Accelerator减少共享内存带宽压力[3]。

这些都是人类专家的印记——对硬件极限的直觉，对内存层次的痴迷，对每一个时钟周期的锱铢必较。Tri Dao在三年前写FlashAttention原始版本时，花了数月时间手工推导IO复杂度。他的论文附录里写满了关于GPU内存层次结构的分析，每一页都透着一种执念：理解硬件，才能驯服硬件。

而AVO的方法完全不同。它不推导，它探索。它把LLM从”候选生成器”提升为”变异算子本身”，构建了一个自导向的代理循环：代理查看历史谱系，查阅领域知识库，获取执行反馈，自主决定何时编辑、何时修正、何时放弃[1]。

论文里有一个数字让我反复回看：在7天的进化过程中，代理探索了”超过500个优化方向”，但只产生了40个内核版本[1]。也就是说，每12.5个”方向”才产生一个可运行的代码。这种漏斗的陡峭程度，暴露了”盲编程”的真相——它不是魔法，它是暴力。用计算时间换人类直觉，用并行探索换深度理解。

但等等。如果重新运行这7天，会得到同样的40个内核吗？论文没有说。代理的决策涉及LLM的随机性、硬件状态的微妙变化、以及那个神秘的”领域知识库”的具体内容。如果知识库里已经包含了FlashAttention-4的技术细节，那么”超越”的含金量就变了。这不是发现，这是优化。

这是7天后打印出来的成绩单。40个内核，500次尝试，没有解释，只有数字。

更深层的疑问在于时间。FlashAttention-4在3月初发布，解决了B200的两大瓶颈。几周后，AVO的论文出现在arXiv上，显示他们的方法可以超越FlashAttention-4。这种节奏的紧密程度，很难不让人想到硬件厂商的焦虑。

NVIDIA需要证明什么？也许不是”AI可以发现新优化”，而是”我们不需要依赖外部算法团队”。当Tri Dao这样的明星研究者成为某种行业标准时，硬件厂商就失去了对软件栈的控制权。AVO的30分钟适配到Grouped-Query Attention[1]，听起来像是对这种依赖的解药：给我7天，我可以生成任何算子的最优版本；再给我30分钟，我可以适配它的变体。

但这种灵活性是有代价的。论文展示了成功的进化轨迹，却没有展示那500个失败的方向。它们是什么？编译错误？性能倒退？还是数值正确但毫无意义的代码修改？在真实的自主进化中，代理可能会反复修改同一行代码而无法编译，陷入局部最优不断微调寄存器分配，或者产生数值正确但性能极差的”僵尸内核”。

这些失败不是边缘情况，它们是方法的本质。当Bing Xu庆祝”超人类智能”时，他沉默的是计算成本——7天的B200连续运行，500+方向的探索，这需要多少GPU小时？论文没有说。我们只知道结果，不知道电费账单。

我后来查到一个历史回声。2023年，DeepMind的FunSearch用进化算法发现了cap set问题的新突破，使用了约1百万次评估[4]。2024年，EoH（Evolution of Heuristics）框架把LLM引入进化优化，但LLM仍然只是执行固定提示的生成器[5]。2025年，ReEvo和EvoTuning进一步扩展了这个方向[6]。AVO把这个趋势推到了逻辑极限——代理不再只是生成候选，而是成为进化过程本身。

但这条路径的终点是什么？如果AVO的发现确实超越了人类专家，那么未来的CUDA优化工程师可能会变成”进化过程的策展人”——设置初始条件、筛选最终结果、解释代理的决策。这听起来很强大，但也意味着人类失去了对”为什么这样优化”的理解。

FlashAttention-4的发布博客详细解释了每一个优化策略的硬件原理[3]。AVO的论文只展示了结果。这种从”可解释的人工设计”到”黑箱的自主发现”的转变，可能是性能提升的必然代价。但当Bing Xu——那个一年半前不懂GPU编程的人——在推特上宣布”人类认知才是瓶颈”时，他是否真的理解了那些被他绕过的硬件细节？还是他只是信任了那个7天不间断运行的代理循环？

我最后想到的是那个30分钟的GQA适配时间[1]。这个数字被用来证明AVO的灵活性，但它也让我不安：如果自主进化可以在30分钟内适应一个新的注意力变体，那么之前花在MHA上的7天，有多少是在学习通用的优化原则，有多少只是在过拟合到MHA的特定模式？

也许答案藏在那些被沉默的500个失败方向里。也许它们揭示了代理的真实学习过程——不是理解注意力机制，而是记住B200的特定怪癖。也许当Bing Xu写下”超人类智能”时，他描述的只是一个能够高效过拟合到特定硬件状态的系统。

而那个3月26日凌晨刷新arXiv的算子工程师，他的0.5秒停顿可能不是因为看到了技术突破。他可能只是突然意识到，自己花费数年积累的专业知识，在”盲编程”面前，可能只是一种低效的中间态。不是被超越，而是被绕过。

那条推文还在那里。Bing Xu没有再解释什么是”超人类智能”。但也许不需要解释。当系统的创造者承认自己是外行时，他已经说出了最重要的事实：在这个新的权力结构里，理解变得无关紧要，只有结果算数。

而结果，就是7天后那40个内核的性能数字。

参考

AVO: Agentic Variation Operators for Autonomous Evolutionary Search, arXiv:2603.24517, 2026年3月25日
Bing Xu (@bingxu_)的推文, X平台, 2026年3月26日
FlashAttention-4: 加速Transformer推理, Together AI博客, 2026年3月初
FunSearch: Making new discoveries in mathematical sciences using Large Language Models, DeepMind, Nature, 2023
Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Models, ICML 2024
Large Language Models for Evolutionary Optimization: Advancements and Future Directions, arXiv:2505.07514, 2025

遗留问题（待证）：

AVO的500+探索方向的具体失败率分布是什么？
领域知识库的具体内容是否包含FlashAttention-4的公开技术细节？
7天B200运行的总计算成本（GPU小时）是多少？
Bing Xu和Terry Chen在”不懂GPU编程”之前，具体的研究背景是什么？