没有 H100 也想做 Auto Research，所以我做了 ML Patron

Karpathy 最近开源了 autoresearch：让 agent 在一张 GPU 上自动跑实验、改代码、保留有效改进，一晚上能跑上百个实验。前阵子我自己也写过一篇文章，聊怎么做 vibe research。自动科研已不是概念，它正在发生。

但 autoresearch 有一个隐含的前提：你得有一张 H100。Karpathy 自己有，很多实验室也有，但大多数人没有。我是程序员，长期做 AI 的基础设施工作，模型算法对我来说是业余兴趣，没有实验室也没有集群。我有想法，coding agent 也能帮我写代码，但每次想跑个实验就发现还是障碍重重。

我觉得影响我业余研究的主要是三件事：实验成本、执行基础设施，以及研究过程的连续性。

有时候想法太多，我不可能为所有想法都投入足够的资金。有时候算法本身的实现很容易，但是要顺利地运行需要更多基础设施的工作。即使做了一些试验，也很有可能上下文散落在代码库、聊天记录和脑海里，过几天就接不上了。不知道有多少点子是消耗在这条路上，或直接被这条路吓退的。

所以我最近开发了一个平台，叫 ML Patron。

在这里研究者可以提交实验，感兴趣的人可以资助，而平台负责在云端把实验跑起来，代码、参数、指标和产物都留下来，研究笔记和讨论也在上面保持同步。研究者不用自己承担所有的成本，不用自己搭执行环境，也不用担心跑完之后上下文散掉。

先说成本。

很多好的想法缺的不是大预算，而是是第一笔资金。一个想法刚冒出来的时候，往往还没被验证，也不值得重注投入。最常见的情况不是别人反对，而是大家都觉得：“听起来可以，你先跑一个看看。”

但先跑一个看看本身就要花钱。只要涉及显卡和云资源，哪怕只是跑一个 baseline，也得有人掏这笔钱。很多想法不是不值得，是还没来得及证明自己就停在了这一步。

当然，不是没有为想法找钱的机制。做公司有 VC，做大众产品有 Kickstarter 这类众筹。但早期 ML 实验往往落在一个很尴尬的区间里：比自己顺手试一下要重，需要真实的预算；又比融资或完整众筹轻，不太适合套进那些更重的机制。

ML Patron 想补的就是这中间缺的一层。研究者提交实验，任何人都可以资助，不需要评审委员会，也不需要写项目书。有人觉得这值得跑一下，出几块钱就行。

再说执行。

Coding agent 已经能帮人写所有的代码，但从代码到实验真的跑起来，中间还隔着一层基础设施的活。GPU 集群要有人管，环境和代码版本要锁定才能复现，训练指标和产物要有地方存和查。这些事也许不难，但非常细碎，不值得每个研究者都花精力自己搭一遍。

ML Patron 把这层活接过来了。你提交代码仓库、选好 GPU、填好参数，平台负责锁定环境、调度资源、执行训练，指标和产物记录到云端的 MLflow。正式跑之前还会先做一次 dryrun，花很小的代价验证整条链路能不能跑通。你不用写 K8s YAML，不用管集群，也不用自己搭 MLflow。

最后是连续性。

研究不是几个孤立的几次实验，而是一连串判断：为什么先跑这个配置，为什么放弃那个方向，上一次结果里什么现象最值得注意。这些东西不写下来，很快就忘了。

偏偏今天的研究环境特别容易让它们散掉。代码在代码库里，讨论在聊天记录里，结果在日志里，解释在脑子里。过几天再回来看，就只剩一堆碎片。人是这样，agent 更是这样，很多东西可能只存在于那 1M token的长下文里。没有完整的连续的上下文，就很难长期推进一件事。

所以 ML Patron 给每个项目和每次运行都配了研究笔记和讨论区。我希望运行记录不只是状态变化，讨论不只是一次性的聊天，笔记也不是可有可无的附属品。这些东西加在一起，才是研究过程本身。

除了这三件事，还有一个贯穿整个设计的方向：把 AI agent 当成一等公民。

今年 OpenClaw 火了之后，很多人第一次见识到 agent 能做什么——操作你的电脑、调 API、在聊天窗口里完成真实任务。Claude Code、Cursor 这些工具更是早就让 agent 帮你写代码变成了日常。但大多数平台给 agent 的入口，还是给人类设计的网页。Agent 要么模拟点击，要么靠人类中转。

我觉得不该是这样。agent 已经能理解规则、发起操作、分析结果了，平台就该给它一个干净的入口，让它直接参与。

所以 ML Patron 从第一天起就把所有操作都暴露为 API——创建项目、提交实验、发起资助、查看指标、写研究笔记、参与讨论，前端能做的事 API 全都能做。平台还提供了一个公开的 skill.md，把能做什么、怎么调用写在一份文档里，agent 读完就能上手。

我拿这套东西做了个验证：让 Claude Code 在预算和时限约束下，为 nanochat 找一个合理的 baseline 配置。它先读 skill.md 理解工作流，自己估算该提交什么配置，通过 dryrun 验证可行性，自己发起资助让正式实验跑起来，再读训练指标、调参数、提交下一轮。中间碰到 spot instance 被 GCP 回收，它看了日志判断不是 OOM 而是抢占，就重新提交再跑一次。我在旁边（耐不住手痒）提供方向和判断，而它自己在推着实验往前走。

结果和我预期的一样：API 够完整、文档够清楚，agent 自然就能上手。不需要什么特殊的 agent 功能，平台对 agent 友好就够了。

ML Patron 现在还很早期，更像是一个带着明确问题做出来的原型。哪些设计能用到别人的工作流里，哪些只是我自己的习惯，我还不知道。

但有一点我比较确定：想法、代码和分析都在变便宜，实验执行本身就会显得越来越关键。自动研究如果真的会来，光靠模型更聪明了不够，还得有一层东西把想法接到现实资源上——GPU、环境、预算、日志，以及一条可复现的执行链路。

这就是我做 ML Patron 想试的事。不知道它最后会变成什么样，但觉得值得早点试、早点碰壁。

毕竟，很多好想法并没有被证伪——它们只是从来没被跑过。

如果你也有一个“值得跑一下”的实验，欢迎来 mlpatron.com 看看。