昨天 Mistral 开源了 Leanstral —— 第一个专门为 Lean 4 打造的代码 Agent。HN 上 500+ points,热度不低。但这件事真正值得关注的,不是又多了一个 coding agent,而是它指向了一个关键问题:AI 写的代码,怎么证明是对的?
Vibe Coding 的信任瓶颈
现在的 AI coding agent 已经很能写代码了。Cursor、Claude Code、Copilot —— 日常开发效率提升是实打实的。但当你把这些工具推向高风险场景(金融系统、航天软件、密码学实现),就会撞上一堵墙:人工 review 的速度跟不上 AI 生成的速度。
这不是模型能力的问题,是验证能力的问题。AI 生成代码的速度是指数级的,但人类 review 代码的速度是线性的。这个剪刀差会越来越大。
Leanstral 的思路
Mistral 的解法很直接:既然人工 review 不够快,那就让机器来证明。
Lean 4 是一个定理证明器,也是一门编程语言。你写的代码如果能通过 Lean 的类型检查器,就意味着它在数学上被证明是正确的 —— 不是"大概率正确",是逻辑上不可能错。
Leanstral 做的事情:
- 用 AI 生成 Lean 4 代码和证明
- 用 Lean 的类型系统机械地验证
- 验证失败就反馈给 Agent 重试
这形成了一个闭环:AI 负责创造,形式系统负责把关。Human out of the loop —— 至少在验证环节。
为什么是现在
形式化验证不是新概念,搞了几十年了。之前一直没火,因为写形式化证明太痛苦 —— 你需要同时精通编程和数学。
LLM 改变了这个等式。模型可以承担"写证明"这个最枯燥的部分,而 Lean 的类型检查器保证最终结果的可靠性。AI 降低了形式化验证的门槛,同时没有牺牲严谨性。这是一个质变。
冷静想一下
几个现实问题:
- 覆盖面有限:Lean 4 的生态还很小。绝大多数生产代码是 Python/TypeScript/Go,短期内不可能用 Lean 重写
- 规约本身可能有错:形式化证明只能证明"代码符合规约",但规约写错了,证明也帮不了你
- 实用性存疑:对 99% 的 CRUD 应用来说,形式化验证是大炮打蚊子
但对于那 1% 的高风险场景 —— 智能合约、密码学库、编译器核心 —— 这可能是 AI coding 真正走向生产级的关键路径。
一个更大的趋势
Leanstral 代表的不只是 Mistral 的一个项目。它反映了行业的一个方向:AI 生成 + 形式验证的组合,正在成为可信 AI 编程的新范式。
代码生成的竞争已经进入红海。下一个差异化战场不是"谁写得更快",而是"谁写得更可靠"。当所有模型都能写出能跑的代码时,能证明代码正确性的那个,才有真正的护城河。
如果你对 AI 编程的最新进展感兴趣,想在不同模型之间对比编码能力,推荐试试 OfoxAI(ofox.ai)—— 一个账号接入 Claude、GPT、Gemini 等主流模型,省去多平台切换的麻烦。
素材来源: Mistral AI Blog