在分享这段经历之前,先交代一下我的背景。我是一名程序员,长期从事人工智能的基础设施(Infra)工作。虽然做的是大模型领域,但并不直接负责模型的算法。上一次为了优化算法而跑训练,估计还是近十年前上学的时候了。
但现在情况变了。有了推理模型和编程智能体的帮助,我发现自己完全有余力在业余时间跨界去做一些机器学习算法的研究。ChatGPT 的推理模式能帮我快速理解复杂的论文并进行头脑风暴,而 Claude Code 这样的编程智能体能帮我迅速实现实验并分析数据。
这感觉就像我同时拥有了一位能讨论想法的导师和一个能埋头干活的博士生,而我处于中间,负责输出品味并为实验掏钱。
类比于“氛围编程”(Vibe Coding),我觉得这个可以称之为“氛围研究”(Vibe Research)。后来查了查,原来早已有人提出过这样的说法。
我的经历是从今年一月的一天开始的。那天 DeepSeek 发布了一篇论文,提出了一种新型稀疏模型设计,叫做 Engram。那天晚上我刚好比较闲,在与 ChatGPT 的不断问答中,比较深入地理解了它。
正如 DeepSeek 一贯的风格,这篇工作在算法之余,有着对 Infra 视角很深的思考,展现出极强的工程素养,很对我的胃口。顺着听一个想法觉得很有道理不难,但要意识到这背后可能是一百个同样听起来有道理的想法,各自付出了十足的努力,最终大浪淘沙只留下这一个真正有用的方法,就不难肃然起敬。
但在理解的过程中,我头脑中不可避免地开始迸发出一些疑问:“它为什么不这么做?”“如果那么做岂不是更好?”。一些想法随着更深入的理解而解决了,但还有一些我依然觉得有可以做的空间。
我就产生了自己来“氛围研究”一下的念头。以我对当时编程智能体能力的理解,我判断这样的研究已经是可行的,且在我的能力和精力范围内。虽然无法完全确定,但这正好可以让我挑战一下,获得一些分布外(Out of distribution)的第一手经验。
刚好那个周末是个长周末,我有时间试试,看看能鼓捣出些什么。
我当时头脑风暴了十几个对于 Engram 的优化想法,有的是第一时间的直觉,有的是 AI 从我关注的角度衍生出去的。
有个我最初直觉的点子,我现在还是念念不忘,觉得成功的概率应该很大,但因为实验成本和周期,我并没有选。因为我无法复刻超大规模的模型训练,所以我必须在模型规模和设计上做取舍。
最后我选定了一个听上去比较可能、好实现,而且感觉可以在较小规模上就能看到结果的想法。
我通过 ChatGPT 和 Claude Code 把这个想法细化成了具体的实验,包括选定基准模型的配置、参数量、数据,以及在哪里运行等等。
实验是一个不断迭代的过程:写好细化的实验方案,让编程智能体实现它,在云上租机器跑起来。等结果出来,我就和 AI 讨论:这个 loss 曲线说明了什么?之前的假设还对吗?下一步该怎么证明或证伪?要怎么调整实验设计?还需要加哪些日志?然后再写成下一步实验的方案。周而复始。
(在这个过程中,我也涨了一些工程上的见识,这里从略,详见脚注[1]。)
因为这种迭代是无止境的,为了避免消耗时间太久,我给自己定了两天的限度。
经过两天迭代,最终我并没有发现我提出的优化方法有显著效果。我怀疑主要原因还是实验规模太小了。
但是在调试和分析过程中,我提出了一些分析角度和概念,发现了一些有意思的现象,而这些东西不只是对我做的这个优化有用,对于更普遍的 Engram 类架构都适用。
我觉得,这个优化方法在当前配置下没有显著效果,本身就是一个值得报告的结论——无论是对于继续沿这个方向深挖,还是避开这个坑,都有参考价值。加上这些分析概念和观察对其他优化方向也可能有所启发,把它整理成论文还是很有意义的。
于是我花了整整一天写成了论文,当然也是借助 Claude 和 ChatGPT 动手完成的。这个年头,无论是代码、论文,还是设计文档,我都只允许自己以 prompt 的形式参与管理。
一天写完一篇论文听起来很快,但考虑到实验本身也就只花了两天,写论文反而花得有点长、有点奢侈。不过作为作者的强迫症让我想着,既然写了,还是得写清楚、写漂亮。比如在几个图表的可视化上下了不少心思,力求让读者理解起来最顺畅。
最后,我把这篇论文挂到了 arXiv 上,题为“A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory: A Controlled Study of Training Dynamics”,有兴趣的可以去看看。
这只是个很小的尝试,我也没打算投到哪里。本以为这件事就此结束,顶多改天写篇博客聊聊。
但后来发生了一件很意外的事。
二月的某天,我刷到了机器之心的一篇文章,报道了一个叫 FARS 的全自动 AI 研究系统。文章提到这个系统在持续运行中生成了上百篇论文,并举了一篇作为例子:
“它的文献调研很给力,盯上了 DeepSeek 新提出的 Engram 稀疏架构,并抓到了一个很研究味的问题——hot-to-cold advantage flip,即 Engram 中的门控在训练过程中难以准确根据 n-gram embedding 的实际效用进行调整,存在高频和低频偏置。”
而这个“hot-to-cold advantage flip”,正是我的论文里提出的概念。难道是英雄所见略同?
我找到了 FARS 的原文(FA0121),果不其然——这是基于我那篇论文展开的进一步研究。
没想到,我用氛围研究写的论文的第一次引用,也是第一次的后续研究,居然不来自人类,而是来自一个自动研究员。这个时代真是太有意思了。
我(很罕见地)亲自肉眼读了 FARS 的原文,想感受一下它究竟能做到什么程度。
它基于我发现的问题,提出了另一个改进算法。但和我的改进一样,结论也是"失败"的——在小规模实验下效果不显著。
不过也有让我很惊喜的地方:它在我没有开源代码的情况下,仅凭论文中描述的实验设置,就成功复现了我发现的问题。一方面说明我的文章把所有信息都写清楚了,足以被复现;另一方面也说明,现在的智能体在有明确设计的情况下,执行能力已经相当强。
但至少就 FARS 的这篇论文来看,它不太倾向于开创性地提出新概念、新范式,更倾向于在前人(也就是我)已有的框架下进行思考。这也许不是自动研究系统能力的问题,而是 FARS 这次试验的取向——做比较确定的小优化,成功率自然比开创性地提出新概念要高,也更容易衡量。
这才只是FARS的第一次亮相。我相信随着更多关注和投入,这样的自动研究系统会越来越丝滑。
而就在我写这篇文章的今天,Andrej Karpathy 发布了一个叫 autoresearch 项目,让自动研究这个话题再次站上了风口浪尖。
我觉得,自动研究相关的智能体和脚手架可能会江山代有才人出,在未来一段时间经历激烈竞争。但从本质上看,现在的 AI 已经展现出了极强的科研能力,尤其是在处理具体、闭环的实验任务时。它能帮人类跑通整个流程,让我们从更高维度去迭代想法。因此,在我眼里,这个问题历经离被实现不远了。
当自动研究员有了足够的智能和主动性,能孜孜不倦地持续研究,下一步的瓶颈会在哪里?
有人说这些自动研究系统的模型成本可能还很高,很多领域雇几个博士生反而更划算——但随着技术进步,这应该很快就不成问题。
我觉得最主要的瓶颈会是做实验的物理成本。就拿我们现在讨论的例子来说,研究的是机器学习问题,那就需要大量的显卡算力成本(注意说的不是自动研究者本身的算力成本)。类推到其他领域,可能是实验所需的原始数据、试剂、设备、牌照、受试者补贴等等。
对于实验成本占比低的领域,比如历史、文学,乃至数学和理论物理,随着模型的进步,研究和研究成果应该会迎来一次大爆发,进入勃勃生机、万物竞发的境界。
但对于实验成本占比高的领域,比如药学、材料、医学、实验物理,科技大爆发的到来可能没有我们想象的那么快。如何跨越这道鸿沟,是个值得认真思考和探索的问题。我最近在做的一个项目,正是以此为出发点的——等过阵子发布了,再跟大家详细汇报。
在这个过程中,我也涨了一些工程上的见识。毕竟自毕业后的近十年里,我没在工作环境之外跑过机器学习实验: 比如我不得不稍稍调研了现在的算力市场,了解并选择了价格相对便宜的 Lambda Labs 作为算力的来源。 再比如,我在这次研究过程中,对实验的管理其实非常混乱。代码版本、数据路径、模型权重和日志散落在各处。我当时没预料到这个问题,全靠手工、脑力以及语言模型强大的语境理解能力,它硬是从混乱的信息里帮我理出了头绪。复盘总结时我查了查,了解到可以用 MLFlow 这种系统性的工具。其实上班时也看算法同事用 W&B 之类的,但我自己做的时候没想到实验的复杂性会这么快到需要管理的程度。 不知道常做实验的读者对此有什么评价? ↩︎