青菜年糕汤

一箪一瓢,一期一会。以文会友,以友辅仁。

2026年3月29日

没有 H100 也想做 Auto Research,所以我做了 ML Patron

作者:林涛(青菜年糕汤)

Karpathy 最近开源了 autoresearch:让 agent 在一张 GPU 上自动跑实验、改代码、保留有效改进,一晚上能跑上百个实验。前阵子我自己也写过一篇文章,聊怎么做 vibe research。自动科研已不是概念,它正在发生。

但 autoresearch 有一个隐含的前提:你得有一张 H100。Karpathy 自己有,很多实验室也有,但大多数人没有。我是程序员,长期做 AI 的基础设施工作,模型算法对我来说是业余兴趣,没有实验室也没有集群。我有想法,coding agent 也能帮我写代码,但每次想跑个实验就发现还是障碍重重。

我觉得影响我业余研究的主要是三件事:实验成本、执行基础设施,以及研究过程的连续性

有时候想法太多,我不可能为所有想法都投入足够的资金。有时候算法本身的实现很容易,但是要顺利地运行需要更多基础设施的工作。即使做了一些试验,也很有可能上下文散落在代码库、聊天记录和脑海里,过几天就接不上了。不知道有多少点子是消耗在这条路上,或直接被这条路吓退的。

所以我最近开发了一个平台,叫 ML Patron

在这里研究者可以提交实验,感兴趣的人可以资助,而平台负责在云端把实验跑起来,代码、参数、指标和产物都留下来,研究笔记和讨论也在上面保持同步。研究者不用自己承担所有的成本,不用自己搭执行环境,也不用担心跑完之后上下文散掉。

先说成本。

很多好的想法缺的不是大预算,而是是第一笔资金。一个想法刚冒出来的时候,往往还没被验证,也不值得重注投入。最常见的情况不是别人反对,而是大家都觉得:“听起来可以,你先跑一个看看。”

但先跑一个看看本身就要花钱。只要涉及显卡和云资源,哪怕只是跑一个 baseline,也得有人掏这笔钱。很多想法不是不值得,是还没来得及证明自己就停在了这一步。

当然,不是没有为想法找钱的机制。做公司有 VC,做大众产品有 Kickstarter 这类众筹。但早期 ML 实验往往落在一个很尴尬的区间里:比自己顺手试一下要重,需要真实的预算;又比融资或完整众筹轻,不太适合套进那些更重的机制。

ML Patron 想补的就是这中间缺的一层。研究者提交实验,任何人都可以资助,不需要评审委员会,也不需要写项目书。有人觉得这值得跑一下,出几块钱就行。

再说执行。

Coding agent 已经能帮人写所有的代码,但从代码到实验真的跑起来,中间还隔着一层基础设施的活。GPU 集群要有人管,环境和代码版本要锁定才能复现,训练指标和产物要有地方存和查。这些事也许不难,但非常细碎,不值得每个研究者都花精力自己搭一遍。

ML Patron 把这层活接过来了。你提交代码仓库、选好 GPU、填好参数,平台负责锁定环境、调度资源、执行训练,指标和产物记录到云端的 MLflow。正式跑之前还会先做一次 dryrun,花很小的代价验证整条链路能不能跑通。你不用写 K8s YAML,不用管集群,也不用自己搭 MLflow。

最后是连续性。

研究不是几个孤立的几次实验,而是一连串判断:为什么先跑这个配置,为什么放弃那个方向,上一次结果里什么现象最值得注意。这些东西不写下来,很快就忘了。

偏偏今天的研究环境特别容易让它们散掉。代码在代码库里,讨论在聊天记录里,结果在日志里,解释在脑子里。过几天再回来看,就只剩一堆碎片。人是这样,agent 更是这样,很多东西可能只存在于那 1M token的长下文里。没有完整的连续的上下文,就很难长期推进一件事。

所以 ML Patron 给每个项目和每次运行都配了研究笔记和讨论区。我希望运行记录不只是状态变化,讨论不只是一次性的聊天,笔记也不是可有可无的附属品。这些东西加在一起,才是研究过程本身。

除了这三件事,还有一个贯穿整个设计的方向:把 AI agent 当成一等公民

今年 OpenClaw 火了之后,很多人第一次见识到 agent 能做什么——操作你的电脑、调 API、在聊天窗口里完成真实任务。Claude Code、Cursor 这些工具更是早就让 agent 帮你写代码变成了日常。但大多数平台给 agent 的入口,还是给人类设计的网页。Agent 要么模拟点击,要么靠人类中转。

我觉得不该是这样。agent 已经能理解规则、发起操作、分析结果了,平台就该给它一个干净的入口,让它直接参与。

所以 ML Patron 从第一天起就把所有操作都暴露为 API——创建项目、提交实验、发起资助、查看指标、写研究笔记、参与讨论,前端能做的事 API 全都能做。平台还提供了一个公开的 skill.md,把能做什么、怎么调用写在一份文档里,agent 读完就能上手。

我拿这套东西做了个验证:让 Claude Code 在预算和时限约束下,为 nanochat 找一个合理的 baseline 配置。它先读 skill.md 理解工作流,自己估算该提交什么配置,通过 dryrun 验证可行性,自己发起资助让正式实验跑起来,再读训练指标、调参数、提交下一轮。中间碰到 spot instance 被 GCP 回收,它看了日志判断不是 OOM 而是抢占,就重新提交再跑一次。我在旁边(耐不住手痒)提供方向和判断,而它自己在推着实验往前走。

结果和我预期的一样:API 够完整、文档够清楚,agent 自然就能上手。不需要什么特殊的 agent 功能,平台对 agent 友好就够了。

ML Patron 现在还很早期,更像是一个带着明确问题做出来的原型。哪些设计能用到别人的工作流里,哪些只是我自己的习惯,我还不知道。

但有一点我比较确定:想法、代码和分析都在变便宜,实验执行本身就会显得越来越关键。自动研究如果真的会来,光靠模型更聪明了不够,还得有一层东西把想法接到现实资源上——GPU、环境、预算、日志,以及一条可复现的执行链路。

这就是我做 ML Patron 想试的事。不知道它最后会变成什么样,但觉得值得早点试、早点碰壁。

毕竟,很多好想法并没有被证伪——它们只是从来没被跑过。

如果你也有一个“值得跑一下”的实验,欢迎来 mlpatron.com 看看。