将任意代码仓库变成可运行的 AI Harness

0 阅读2分钟

最近在做一个新的开源项目:repo2harness

GitHub: github.com/dekunt/repo…

一句话介绍:

输入一个代码仓库,自动生成一套可运行、可验证、可继续扩展的 harness。

为什么会做这个项目?

这段时间,越来越多人开始用 Codex、Claude Code、OpenHands 这类 AI coding agent 写代码。

但真实使用里,一个很常见的问题是:

很多仓库虽然能跑,但并没有为 AI 提供一个稳定、可复现、可验证的工作台。

问题通常不是模型不够强,而是仓库本身缺少这些东西:

•没有稳定的 setup•没有明确的 baseline task•没有可复用的 check•没有干净的验证流程•没有可重复执行的 harness

于是我做了 repo2harness

它的目标很直接:

把一个现有代码仓库整理成可以被 AI、CI、回归验证和评测流程稳定使用的基础执行层。

当前支持的输入方式包括:

  • 本地目录
  • 当前目录
  • Git URL

它现在能做什么?

  1. 分析一个本地仓库或 Git 仓库
  2. 识别技术栈和默认命令
  3. 生成最小 harness 文件
  4. 在干净工作区里验证 harness 是否成立
  5. 接入 baseline / codex / claude-code runner

最常用的一条命令就是:

repo2harness init . --verify

它会自动生成:

  • repo2harness.config.mjs
  • tasks/baseline.task.mjs
  • checks/default.check.mjs
  • reports/*.json

也就是说,它不是只帮你“分析一下仓库”,而是直接帮你把 repo 变成一个:

  • 可跑
  • 可测
  • 可复现
  • 可接 AI agent
  • 可做 eval / regression / CI 的工作台

目前已经支持:

  • Node.js package
  • Node.js monorepo
  • Python
  • Go
  • Rust
  • Makefile 项目

我最近也在继续往下做:

  • source portability
  • monorepo target workspace
  • pinned ref
  • codex / claude-code runner
  • 后续的 regression / CI / benchmark 能力

最后

如果你也在关注这些方向:

  • AI coding
  • Harness Engineering
  • eval infrastructure
  • coding benchmark
  • repo-to-agent / repo-to-eval

欢迎关注:

github.com/dekunt/repo…

如果你觉得这篇文章有意思,帮我转发给也在折腾 AI coding 的朋友。