<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-CN">
  <link href="https://qcngt.com/feed.xml" rel="self" type="application/atom+xml"/>
  <link href="https://qcngt.com/" rel="alternate" type="text/html" hreflang="zh-CN"/>
  <updated>2026-04-01T21:43:22.482Z</updated>
  <id>https://qcngt.com/feed.xml</id>
  <title type="html">青菜年糕汤</title>
  <subtitle>一箪一瓢，一期一会。以文会友，以友辅仁。</subtitle>
  <author>
    <name>林涛（青菜年糕汤）</name>
  </author>
  <entry>
    <title type="html">让 AI 读网页这件小事 — Claude Code 源码解析</title>
    <link href="https://qcngt.com/2026/03/31/claude.html" rel="alternate" type="text/html" title="让 AI 读网页这件小事 — Claude Code 源码解析"/>
    <published>2026-03-31T00:00:00.000Z</published>
    <updated>2026-03-31T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/03/31/claude</id>
    <content type="html" xml:base="https://qcngt.com/2026/03/31/claude.html"><![CDATA[
<blockquote>
<p>2026 年 3 月 31 日 Claude Code 的源码被泄露，给了我们一个难得的机会去看一个生产级 AI 编程工具的内部实现。本系列逐个拆解其中的核心模块，这是第一篇。</p>
</blockquote>
<p>Claude Code 的能力来自它的工具系统——65 个以上的工具各司其职，从读文件、跑命令到派生子 Agent，撑起了整个流畅的编码体验。今天我们拆开其中一个看看：WebFetchTool，让 AI 读一个网页。</p>
<p>一个 curl 就能干的事，它写了 1,131 行、5 个文件。权限控制、重定向拦截、HTML 转换、版权约束、二级模型摘要——每一层拆开来看，都藏着不少有意思的设计决策。</p>
<h2>90 个域名的白名单</h2>
<p>默认情况下 WebFetchTool 访问任何域名都需要用户手动批准。但它维护了一份约 90 个域名的预批准白名单，访问这些站点时可以直接放行。</p>
<p>这份名单覆盖面很广：编程语言官方文档（<a href="http://docs.python.org">docs.python.org</a>、<a href="http://doc.rust-lang.org">doc.rust-lang.org</a>、go.dev），主流框架（react.dev、<a href="http://nextjs.org">nextjs.org</a>、<a href="http://fastapi.tiangolo.com">fastapi.tiangolo.com</a>、<a href="http://laravel.com">laravel.com</a>），云服务（<a href="http://docs.aws.amazon.com">docs.aws.amazon.com</a>、<a href="http://cloud.google.com">cloud.google.com</a>、<a href="http://kubernetes.io">kubernetes.io</a>），还有 Anthropic 自家的文档站点。基本上开发者日常查文档会用到的站点都在里面。</p>
<h2>服务端黑名单预检</h2>
<p>即使用户批准了某个域名，WebFetchTool 在发起请求之前还会向 Anthropic 的 API 做一次域名检查。这是一个服务端维护的动态黑名单，可以实时拦截恶意域名。</p>
<p>缓存策略有个细节：检查通过的结果缓存 5 分钟，但失败的结果不缓存。如果某个域名因为网络抖动而检查失败，下次请求时应该重试而非直接拒绝。</p>
<h2>重定向不能自动跟</h2>
<p>大多数 HTTP 客户端默认自动跟随重定向。但对 AI 工具来说这是一个攻击面：攻击者可以利用受信任域名上的开放重定向漏洞，把请求导向恶意站点。用户批准了 <a href="http://trusted.com">trusted.com</a>，实际请求打到了 <a href="http://evil.com">evil.com</a>。</p>
<p>WebFetchTool 关闭了自动重定向。同域跳转（包括加减 www.）自动跟随，最多 10 跳。跨域跳转不跟随，而是让模型用新 URL 重新调用 WebFetch，重新走一遍权限检查。</p>
<h2>不直接返回网页内容</h2>
<p>相比安全防护，我对一个 AI 工具怎么提升能力和性能更感兴趣。这个部分就跟能力和性能直接相关：网页内容不是直接返回给主模型的。</p>
<p>WebFetchTool 在抓取和返回之间加了一层 Haiku（Anthropic 的小快模型）做摘要。用小模型做前置过滤本身是 RAG 系统里常见的思路，但它在工具层面的具体做法有些值得注意的地方。</p>
<p>首先是参数设计。用户调用 WebFetch 时要提供两个参数：URL 和 prompt。这个 prompt 不是给主模型的，而是给 Haiku 的，描述“你想从这个页面提取什么”。也就是说提取方向在工具调用时就确定了，Haiku 做的是定向摘要而非通用压缩。主模型在决定调用 WebFetch 的时候就要想清楚自己需要什么信息，这比拿到整个页面再慢慢找要高效得多。</p>
<p>然后是选择性跳过。并非所有请求都会过 Haiku。如果内容本身是 Markdown 格式，且小于 100K 字符，就直接返回原文。这个判断很务实——技术文档站点原生提供的 Markdown 已经是结构化内容了，再过一遍摘要反而可能丢信息，还白白多一次模型调用的延迟和开销。</p>
<h2>工具描述也是设计</h2>
<p>WebFetchTool 只能做匿名 GET 请求，碰到 Google Docs、Confluence、Jira 这类需要登录的页面一定会失败。怎么处理这个局限？不是在代码里写 fallback，而是在工具描述里直接告诉主模型：“WebFetch 访问认证页面一定会失败，请改用对应的 MCP 工具。”模型在决定调用哪个工具之前就能避开这条死路。能力边界不藏在运行时的错误处理里，而是前置到工具的自我描述中，让模型自己做分发决策。</p>
<p>这句警告还有一个细节。按理说它可以更优雅地动态显示——有 MCP 认证工具可用时才提示，没有时省掉。但源码里没有这么做。注释解释了原因：工具描述是 system prompt 的一部分，如果在两次 API 调用之间发生变化，会导致 Anthropic API 的 prompt cache 失效。每次切换意味着连续两次缓存未命中。为了保住缓存命中率，宁可永远带着这句话，哪怕有时候多余。</p>
<h2>摘要中的版权约束</h2>
<p>开篇提到的那份 90 个域名的白名单，其实不只用于访问权限的判定，还用于版权约束的分级。</p>
<p>对白名单内的域名，Haiku 可以自由引用原文、包含完整代码示例。但对白名单外的域名，Haiku 收到的指令包含严格约束：单次引用不超过 125 个字符，必须用引号标注原文，禁止复制歌词。</p>
<p>在一个主要服务于编程场景的 Agent 里看到”禁止复制歌词”，不禁让人好奇 Anthropic 的法务部门经历过什么。</p>
<p>我本以为这份白名单跟我无关——常年用 bypass permissions 模式，不管在不在白名单都会跳过权限确认直接访问。但版权约束不在权限层，而在内容处理层，bypass permissions 穿透不了它。白名单在这里仍然生效。</p>
<h2>HTML 转换和缓存</h2>
<p>抓回来的 HTML 用 Turndown 库转成 Markdown。Turndown 占 1.4MB 堆内存，所以做成了懒加载单例：第一次抓网页时才 import，之后复用同一个实例。毕竟不是每次对话都需要读网页，没必要启动就加载。</p>
<p>转换后的内容会被缓存。同一个 URL 在 15 分钟内再次请求就直接返回缓存结果，缓存总量上限 50MB。</p>
<p>还有一个内存管理的小细节：HTTP 响应体最大 10MB，而 Turndown 把 HTML 转成 DOM 树时，内存占用可能膨胀到原始大小的 3-5 倍。源码在拿到响应体之后、交给 Turndown 之前，会立即把 axios 持有的 ArrayBuffer 引用置为 null，让 GC 尽早回收这块内存，避免两份数据同时驻留导致峰值翻倍。</p>
<p>以上就是对 WebFetchTool 这 1,131 行代码的解析。Claude Code 的源码里还有很多值得聊的东西，下次再继续。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
2026 年 3 月 31 日 Claude Code 的源码被泄露，给了我们一个难得的机会去看一个生产级 AI 编程工具的内部实现。本系列逐个拆解其中的核心模块，这是第一篇。

Claude Code 的能力来自它的工具系统——65 个以上的工具各司其职，从读文件、跑命令到派生子 Agent，撑起了整个流畅的编码体验。今天我们拆开其中一个看看：WebFetchTool，让 AI 读一个网页。
一
]]></summary>
  </entry>
  <entry>
    <title type="html">没有 H100 也想做 Auto Research，所以我做了 ML Patron</title>
    <link href="https://qcngt.com/2026/03/29/mlpatron.html" rel="alternate" type="text/html" title="没有 H100 也想做 Auto Research，所以我做了 ML Patron"/>
    <published>2026-03-29T00:00:00.000Z</published>
    <updated>2026-03-29T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/03/29/mlpatron</id>
    <content type="html" xml:base="https://qcngt.com/2026/03/29/mlpatron.html"><![CDATA[
<p>Karpathy 最近开源了 <a href="https://github.com/karpathy/autoresearch">autoresearch</a>：让 agent 在一张 GPU 上自动跑实验、改代码、保留有效改进，一晚上能跑上百个实验。前阵子我自己也写过<a href="/2026/03/08/vibe-research.html">一篇文章</a>，聊怎么做 vibe research。自动科研已不是概念，它正在发生。</p>
<p>但 autoresearch 有一个隐含的前提：你得有一张 H100。Karpathy 自己有，很多实验室也有，但大多数人没有。我是程序员，长期做 AI 的基础设施工作，模型算法对我来说是业余兴趣，没有实验室也没有集群。我有想法，coding agent 也能帮我写代码，但每次想跑个实验就发现还是障碍重重。</p>
<p>我觉得影响我业余研究的主要是三件事：<strong>实验成本、执行基础设施，以及研究过程的连续性</strong>。</p>
<p>有时候想法太多，我不可能为所有想法都投入足够的资金。有时候算法本身的实现很容易，但是要顺利地运行需要更多基础设施的工作。即使做了一些试验，也很有可能上下文散落在代码库、聊天记录和脑海里，过几天就接不上了。不知道有多少点子是消耗在这条路上，或直接被这条路吓退的。</p>
<p>所以我最近开发了一个平台，叫 <strong>ML Patron</strong>。</p>
<p>在这里研究者可以提交实验，感兴趣的人可以资助，而平台负责在云端把实验跑起来，代码、参数、指标和产物都留下来，研究笔记和讨论也在上面保持同步。研究者不用自己承担所有的成本，不用自己搭执行环境，也不用担心跑完之后上下文散掉。</p>
<p><strong>先说成本。</strong></p>
<p>很多好的想法缺的不是大预算，而是是第一笔资金。一个想法刚冒出来的时候，往往还没被验证，也不值得重注投入。最常见的情况不是别人反对，而是大家都觉得：“听起来可以，你先跑一个看看。”</p>
<p>但先跑一个看看本身就要花钱。只要涉及显卡和云资源，哪怕只是跑一个 baseline，也得有人掏这笔钱。很多想法不是不值得，是还没来得及证明自己就停在了这一步。</p>
<p>当然，不是没有为想法找钱的机制。做公司有 VC，做大众产品有 Kickstarter 这类众筹。但早期 ML 实验往往落在一个很尴尬的区间里：比自己顺手试一下要重，需要真实的预算；又比融资或完整众筹轻，不太适合套进那些更重的机制。</p>
<p>ML Patron 想补的就是这中间缺的一层。研究者提交实验，任何人都可以资助，不需要评审委员会，也不需要写项目书。有人觉得这值得跑一下，出几块钱就行。</p>
<p><strong>再说执行。</strong></p>
<p>Coding agent 已经能帮人写所有的代码，但从代码到实验真的跑起来，中间还隔着一层基础设施的活。GPU 集群要有人管，环境和代码版本要锁定才能复现，训练指标和产物要有地方存和查。这些事也许不难，但非常细碎，不值得每个研究者都花精力自己搭一遍。</p>
<p>ML Patron 把这层活接过来了。你提交代码仓库、选好 GPU、填好参数，平台负责锁定环境、调度资源、执行训练，指标和产物记录到云端的 MLflow。正式跑之前还会先做一次 dryrun，花很小的代价验证整条链路能不能跑通。你不用写 K8s YAML，不用管集群，也不用自己搭 MLflow。</p>
<p><strong>最后是连续性。</strong></p>
<p>研究不是几个孤立的几次实验，而是一连串判断：为什么先跑这个配置，为什么放弃那个方向，上一次结果里什么现象最值得注意。这些东西不写下来，很快就忘了。</p>
<p>偏偏今天的研究环境特别容易让它们散掉。代码在代码库里，讨论在聊天记录里，结果在日志里，解释在脑子里。过几天再回来看，就只剩一堆碎片。人是这样，agent 更是这样，很多东西可能只存在于那 1M token的长下文里。没有完整的连续的上下文，就很难长期推进一件事。</p>
<p>所以 ML Patron 给每个项目和每次运行都配了研究笔记和讨论区。我希望运行记录不只是状态变化，讨论不只是一次性的聊天，笔记也不是可有可无的附属品。这些东西加在一起，才是研究过程本身。</p>
<p>除了这三件事，还有一个贯穿整个设计的方向：<strong>把 AI agent 当成一等公民</strong>。</p>
<p>今年 OpenClaw 火了之后，很多人第一次见识到 agent 能做什么——操作你的电脑、调 API、在聊天窗口里完成真实任务。Claude Code、Cursor 这些工具更是早就让 agent 帮你写代码变成了日常。但大多数平台给 agent 的入口，还是给人类设计的网页。Agent 要么模拟点击，要么靠人类中转。</p>
<p>我觉得不该是这样。agent 已经能理解规则、发起操作、分析结果了，平台就该给它一个干净的入口，让它直接参与。</p>
<p>所以 ML Patron 从第一天起就把所有操作都暴露为 API——创建项目、提交实验、发起资助、查看指标、写研究笔记、参与讨论，前端能做的事 API 全都能做。平台还提供了一个公开的 <a href="http://skill.md">skill.md</a>，把能做什么、怎么调用写在一份文档里，agent 读完就能上手。</p>
<p>我拿这套东西做了个验证：让 Claude Code 在预算和时限约束下，为 nanochat 找一个合理的 baseline 配置。它先读 <a href="http://skill.md">skill.md</a> 理解工作流，自己估算该提交什么配置，通过 dryrun 验证可行性，自己发起资助让正式实验跑起来，再读训练指标、调参数、提交下一轮。中间碰到 spot instance 被 GCP 回收，它看了日志判断不是 OOM 而是抢占，就重新提交再跑一次。我在旁边（耐不住手痒）提供方向和判断，而它自己在推着实验往前走。</p>
<p>结果和我预期的一样：API 够完整、文档够清楚，agent 自然就能上手。不需要什么特殊的 agent 功能，平台对 agent 友好就够了。</p>
<p>ML Patron 现在还很早期，更像是一个带着明确问题做出来的原型。哪些设计能用到别人的工作流里，哪些只是我自己的习惯，我还不知道。</p>
<p>但有一点我比较确定：想法、代码和分析都在变便宜，实验执行本身就会显得越来越关键。自动研究如果真的会来，光靠模型更聪明了不够，还得有一层东西把想法接到现实资源上——GPU、环境、预算、日志，以及一条可复现的执行链路。</p>
<p>这就是我做 ML Patron 想试的事。不知道它最后会变成什么样，但觉得值得早点试、早点碰壁。</p>
<p><strong>毕竟，很多好想法并没有被证伪——它们只是从来没被跑过。</strong></p>
<p>如果你也有一个“值得跑一下”的实验，欢迎来 <a href="https://mlpatron.com">mlpatron.com</a> 看看。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
Karpathy 最近开源了 autoresearch：让 agent 在一张 GPU 上自动跑实验、改代码、保留有效改进，一晚上能跑上百个实验。前阵子我自己也写过一篇文章，聊怎么做 vibe research。自动科研已不是概念，它正在发生。
但 autoresearch 有一个隐含的前提：你得有一张 H100。Karpathy 自己有，很多实验室也有，但大多数人没有。我是程序员，长期做 AI 
]]></summary>
  </entry>
  <entry>
    <title type="html">当你的导师、博士生和第一个引用者全是 AI：从氛围研究到自动研究的初体验</title>
    <link href="https://qcngt.com/2026/03/08/vibe-research.html" rel="alternate" type="text/html" title="当你的导师、博士生和第一个引用者全是 AI：从氛围研究到自动研究的初体验"/>
    <published>2026-03-08T00:00:00.000Z</published>
    <updated>2026-03-08T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/03/08/vibe-research</id>
    <content type="html" xml:base="https://qcngt.com/2026/03/08/vibe-research.html"><![CDATA[
<p>在分享这段经历之前，先交代一下我的背景。我是一名程序员，长期从事人工智能的基础设施（Infra）工作。虽然做的是大模型领域，但并不直接负责模型的算法。上一次为了优化算法而跑训练，估计还是近十年前上学的时候了。</p>
<p>但现在情况变了。有了推理模型和编程智能体的帮助，我发现自己完全有余力在业余时间跨界去做一些机器学习算法的研究。ChatGPT 的推理模式能帮我快速理解复杂的论文并进行头脑风暴，而 Claude Code 这样的编程智能体能帮我迅速实现实验并分析数据。</p>
<p>这感觉就像我同时拥有了一位能讨论想法的导师和一个能埋头干活的博士生，而我处于中间，负责输出品味并为实验掏钱。</p>
<p>类比于“氛围编程”（Vibe Coding），我觉得这个可以称之为“氛围研究”（Vibe Research）。后来查了查，原来早已有人提出过这样的说法。</p>
<p>我的经历是从今年一月的一天开始的。那天 DeepSeek 发布了<a href="https://arxiv.org/abs/2601.07372">一篇论文</a>，提出了一种新型稀疏模型设计，叫做 Engram。那天晚上我刚好比较闲，在与 ChatGPT 的不断问答中，比较深入地理解了它。</p>
<p>正如 DeepSeek 一贯的风格，这篇工作在算法之余，有着对 Infra 视角很深的思考，展现出极强的工程素养，很对我的胃口。顺着听一个想法觉得很有道理不难，但要意识到这背后可能是一百个同样听起来有道理的想法，各自付出了十足的努力，最终大浪淘沙只留下这一个真正有用的方法，就不难肃然起敬。</p>
<p>但在理解的过程中，我头脑中不可避免地开始迸发出一些疑问：“它为什么不这么做？”“如果那么做岂不是更好？”。一些想法随着更深入的理解而解决了，但还有一些我依然觉得有可以做的空间。</p>
<p>我就产生了自己来“氛围研究”一下的念头。以我对当时编程智能体能力的理解，我判断这样的研究已经是可行的，且在我的能力和精力范围内。虽然无法完全确定，但这正好可以让我挑战一下，获得一些分布外（Out of distribution）的第一手经验。</p>
<p>刚好那个周末是个长周末，我有时间试试，看看能鼓捣出些什么。</p>
<p>我当时头脑风暴了十几个对于 Engram 的优化想法，有的是第一时间的直觉，有的是 AI 从我关注的角度衍生出去的。</p>
<p>有个我最初直觉的点子，我现在还是念念不忘，觉得成功的概率应该很大，但因为实验成本和周期，我并没有选。因为我无法复刻超大规模的模型训练，所以我必须在模型规模和设计上做取舍。</p>
<p>最后我选定了一个听上去比较可能、好实现，而且感觉可以在较小规模上就能看到结果的想法。</p>
<p>我通过 ChatGPT 和 Claude Code 把这个想法细化成了具体的实验，包括选定基准模型的配置、参数量、数据，以及在哪里运行等等。</p>
<p>实验是一个不断迭代的过程：写好细化的实验方案，让编程智能体实现它，在云上租机器跑起来。等结果出来，我就和 AI 讨论：这个 loss 曲线说明了什么？之前的假设还对吗？下一步该怎么证明或证伪？要怎么调整实验设计？还需要加哪些日志？然后再写成下一步实验的方案。周而复始。</p>
<p>（在这个过程中，我也涨了一些工程上的见识，这里从略，详见脚注<sup class="footnote-ref"><a href="#fn1" id="fnref1">[1]</a></sup>。）</p>
<p>因为这种迭代是无止境的，为了避免消耗时间太久，我给自己定了两天的限度。</p>
<p>经过两天迭代，最终我并没有发现我提出的优化方法有显著效果。我怀疑主要原因还是实验规模太小了。</p>
<p>但是在调试和分析过程中，我提出了一些分析角度和概念，发现了一些有意思的现象，而这些东西不只是对我做的这个优化有用，对于更普遍的 Engram 类架构都适用。</p>
<p>我觉得，这个优化方法在当前配置下没有显著效果，本身就是一个值得报告的结论——无论是对于继续沿这个方向深挖，还是避开这个坑，都有参考价值。加上这些分析概念和观察对其他优化方向也可能有所启发，把它整理成论文还是很有意义的。</p>
<p>于是我花了整整一天写成了论文，当然也是借助 Claude 和 ChatGPT 动手完成的。这个年头，无论是代码、论文，还是设计文档，我都只允许自己以 prompt 的形式参与管理。</p>
<p>一天写完一篇论文听起来很快，但考虑到实验本身也就只花了两天，写论文反而花得有点长、有点奢侈。不过作为作者的强迫症让我想着，既然写了，还是得写清楚、写漂亮。比如在几个图表的可视化上下了不少心思，力求让读者理解起来最顺畅。</p>
<p>最后，我把这篇论文挂到了 arXiv 上，题为“<a href="https://arxiv.org/abs/2601.16531">A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory: A Controlled Study of Training Dynamics</a>”，有兴趣的可以去看看。</p>
<p>这只是个很小的尝试，我也没打算投到哪里。本以为这件事就此结束，顶多改天写篇博客聊聊。</p>
<p>但后来发生了一件很意外的事。</p>
<p>二月的某天，我刷到了机器之心的<a href="https://mp.weixin.qq.com/s/gT6sN0a0Wir1Yh1JHlieOQ">一篇文章</a>，报道了一个叫 FARS 的全自动 AI 研究系统。文章提到这个系统在持续运行中生成了上百篇论文，并举了一篇作为例子：</p>
<p>“它的文献调研很给力，盯上了 DeepSeek 新提出的 Engram 稀疏架构，并抓到了一个很研究味的问题——hot-to-cold advantage flip，即 Engram 中的门控在训练过程中难以准确根据 n-gram embedding 的实际效用进行调整，存在高频和低频偏置。”</p>
<p>而这个“hot-to-cold advantage flip”，正是我的论文里提出的概念。难道是英雄所见略同？</p>
<p>我找到了 FARS 的原文（FA0121），果不其然——这是基于我那篇论文展开的进一步研究。</p>
<p>没想到，我用氛围研究写的论文的第一次引用，也是第一次的后续研究，居然不来自人类，而是来自一个自动研究员。这个时代真是太有意思了。</p>
<p>我（很罕见地）亲自肉眼读了 FARS 的原文，想感受一下它究竟能做到什么程度。</p>
<p>它基于我发现的问题，提出了另一个改进算法。但和我的改进一样，结论也是&quot;失败&quot;的——在小规模实验下效果不显著。</p>
<p>不过也有让我很惊喜的地方：它在我没有开源代码的情况下，仅凭论文中描述的实验设置，就成功复现了我发现的问题。一方面说明我的文章把所有信息都写清楚了，足以被复现；另一方面也说明，现在的智能体在有明确设计的情况下，执行能力已经相当强。</p>
<p>但至少就 FARS 的这篇论文来看，它不太倾向于开创性地提出新概念、新范式，更倾向于在前人（也就是我）已有的框架下进行思考。这也许不是自动研究系统能力的问题，而是 FARS 这次试验的取向——做比较确定的小优化，成功率自然比开创性地提出新概念要高，也更容易衡量。</p>
<p>这才只是FARS的第一次亮相。我相信随着更多关注和投入，这样的自动研究系统会越来越丝滑。</p>
<p>而就在我写这篇文章的今天，Andrej Karpathy 发布了一个叫 autoresearch 项目，让自动研究这个话题再次站上了风口浪尖。</p>
<p>我觉得，自动研究相关的智能体和脚手架可能会江山代有才人出，在未来一段时间经历激烈竞争。但从本质上看，现在的 AI 已经展现出了极强的科研能力，尤其是在处理具体、闭环的实验任务时。它能帮人类跑通整个流程，让我们从更高维度去迭代想法。因此，在我眼里，这个问题历经离被实现不远了。</p>
<p>当自动研究员有了足够的智能和主动性，能孜孜不倦地持续研究，下一步的瓶颈会在哪里？</p>
<p>有人说这些自动研究系统的模型成本可能还很高，很多领域雇几个博士生反而更划算——但随着技术进步，这应该很快就不成问题。</p>
<p>我觉得最主要的瓶颈会是做实验的物理成本。就拿我们现在讨论的例子来说，研究的是机器学习问题，那就需要大量的显卡算力成本（注意说的不是自动研究者本身的算力成本）。类推到其他领域，可能是实验所需的原始数据、试剂、设备、牌照、受试者补贴等等。</p>
<p>对于实验成本占比低的领域，比如历史、文学，乃至数学和理论物理，随着模型的进步，研究和研究成果应该会迎来一次大爆发，进入勃勃生机、万物竞发的境界。</p>
<p>但对于实验成本占比高的领域，比如药学、材料、医学、实验物理，科技大爆发的到来可能没有我们想象的那么快。如何跨越这道鸿沟，是个值得认真思考和探索的问题。我最近在做的一个项目，正是以此为出发点的——等过阵子发布了，再跟大家详细汇报。</p>
<hr class="footnotes-sep">
<section class="footnotes">
<ol class="footnotes-list">
<li id="fn1" class="footnote-item"><p>在这个过程中，我也涨了一些工程上的见识。毕竟自毕业后的近十年里，我没在工作环境之外跑过机器学习实验：
比如我不得不稍稍调研了现在的算力市场，了解并选择了价格相对便宜的 Lambda Labs 作为算力的来源。
再比如，我在这次研究过程中，对实验的管理其实非常混乱。代码版本、数据路径、模型权重和日志散落在各处。我当时没预料到这个问题，全靠手工、脑力以及语言模型强大的语境理解能力，它硬是从混乱的信息里帮我理出了头绪。复盘总结时我查了查，了解到可以用 MLFlow 这种系统性的工具。其实上班时也看算法同事用 W&amp;B 之类的，但我自己做的时候没想到实验的复杂性会这么快到需要管理的程度。
不知道常做实验的读者对此有什么评价？ <a href="#fnref1" class="footnote-backref">↩︎</a></p>
</li>
</ol>
</section>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
在分享这段经历之前，先交代一下我的背景。我是一名程序员，长期从事人工智能的基础设施（Infra）工作。虽然做的是大模型领域，但并不直接负责模型的算法。上一次为了优化算法而跑训练，估计还是近十年前上学的时候了。
但现在情况变了。有了推理模型和编程智能体的帮助，我发现自己完全有余力在业余时间跨界去做一些机器学习算法的研究。ChatGPT 的推理模式能帮我快速理解复杂的论文并进行头脑风暴，而 Claud
]]></summary>
  </entry>
  <entry>
    <title type="html">我不明白 OpenClaw 的火</title>
    <link href="https://qcngt.com/2026/02/15/openclaw.html" rel="alternate" type="text/html" title="我不明白 OpenClaw 的火"/>
    <published>2026-02-15T00:00:00.000Z</published>
    <updated>2026-02-15T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/02/15/openclaw</id>
    <content type="html" xml:base="https://qcngt.com/2026/02/15/openclaw.html"><![CDATA[
<p>按：就在我发布这篇文章的时候，看到了新闻，OpenClaw 花落 OpenAI。这是一个有意思的新局面，但不影响本文的观点和判断。</p>
<p>最近有一个时刻让我非常震撼，就是看到 OpenClaw 火了的时候。</p>
<p>上一次我有这种程度的震撼，还是刚开始用 Claude Code 的时候。但这一次，震撼的方向完全不同。Claude Code 给我的震撼是“现在竟然能做到这个地步”，而 OpenClaw 给我的震撼则是：“这东西居然还能火？”</p>
<h2>第一部分：完全无法理解的“倒退”</h2>
<p>我对 OpenClaw 的火的不理解是全方位的：它不仅实现上粗糙，更在产品形态的本质设计上让我觉得不合时宜。</p>
<h3>一、本质设计的“不合时宜”</h3>
<p>首先，我认为这个产品的形态本身就有问题。这不是靠优化代码能解决的，而是根源上的理念冲突：</p>
<p>OpenClaw 不仅本身运行在本地电脑上，而且它处理的对象也很大程度是本地文件。</p>
<p>对我们这一代开发者来说，“云原生”的思想钢印深入人心。一个应用即使现在还不是云原生，也得朝着这个方向走。如果一个应用不云原生，还能在当今的市场环境下获得广泛受众（甚至有多少用户还在用电脑都成疑），在我看来简直是天方夜谭。</p>
<p>在我的技术和产品审美里，我希望尽可能多的东西都在云端。相比之下，跑在云端、在受控沙箱里执行的 Manus 显得太先进了：既安全又流畅。</p>
<p>我刚听说 OpenClaw 的时候（那时候还叫 Clawdbot），就觉得它的产品形态让我想不到任何对我有意义的使用场景。在电脑上要做的事情，如果跟写代码有关，我都可以用 Claude Code 解决；如果跟写代码无关，那也有一大堆成熟应用可以用。所以那时我也不着急去试这个东西：这类风口经常一阵一阵的，我没那么多时间去追踪所有新鲜玩意儿。</p>
<p>但后来有一天，我在同一天内听到公司两个管理层领导提到它，而且还非常积极地要求大家去用，我才开始更认真地看它。第二天我就安装了 OpenClaw，一直用到现在。虽然我一直很积极地、千方百计地尝试着用它，但直到今天它依然没有给我一个“惊艳时刻”。</p>
<h3>二、实现层面的“粗糙”</h3>
<p>抛开理念不谈，单看执行层面，它的体验也是灾难级的。</p>
<p>也许是习惯了智能体时代的丝滑体验，我对麻烦事情的忍耐力确实退化了。</p>
<p>在安装、配置的过程中我遇到好多小问题，总是忍不住想把它交给我的编程智能体去帮我安装。但转念一想，我就是为了体验这个产品的方方面面、获得一些认知，才来折腾它的。所以我还是采用了最传统的手动安装：每次只有碰到一个问题，才复制过去问 ChatGPT。</p>
<p>举个例子吧：在我的观念里，这个时代的任何一个语言模型，如果调用时不带互联网搜索，那它说的话我一个字也不敢信。而 OpenClaw 的搜索接口是要另外配置、另外添加的。如果不是像我这样刚好能猜到它底层怎么用，也了解各家的接口、甚至了解独立搜索接口市场的格局，我相信普通用户，甚至是专业但不在这个领域的用户，可能根本不会注意到“它有没有搜索”这件事。</p>
<p>当然，我也理解为什么它把这些接口拆开，背后有技术和产品的原因（此处省略 150 字）。但正是这一点点、一点点的摩擦，让整个安装体验变得非常麻烦，尤其是你想要让它发挥出传说的效果的话。</p>
<p>就算用起来了：密密麻麻但缺少详细说明的配置选项、充满 bug 且功能不齐全的控制面板和 macOS 应用（命令行相对好一些），每一项都在考验耐心。尤其当你已经用惯了很丝滑的东西之后，就更难忍。</p>
<p>如果我要花精力去研究文档、排查配置问题，甚至还要查攻略、装第三方插件，那这跟我自己用编程智能体写一套脚手架有什么区别？把这个半成品修到适合自己使用的程度，精力恐怕比直接造一个更适合自己的工具还要大。</p>
<h3>三、但它居然火得一塌糊涂</h3>
<p>只听想法，我觉得没意思；上手之后，我更觉得是灾难。但现实是：这样一个在我看来既不安全、又不流畅、设计还很糟糕的“半成品”，却火得一塌糊涂。</p>
<p>中外科技媒体大幅报道，热度两个多星期都没熄。这个项目的创始人甚至成了扎克伯格和山姆·奥特曼的座上宾。</p>
<p>这种产品质量与市场热度之间的巨大反差，是我最看不懂的地方。</p>
<h2>第二部分：试图寻找合理性</h2>
<p>在强烈的认知失调下，我试图分析这种“反我认识”的现象，总结出几个它可能踩中的风口，抛砖引玉。</p>
<h3>一、我认识到：云原生并不一定是当下智能体应用的最佳形态</h3>
<p>云原生是过去十几年里行业内的绝对“政治正确”，所以在我潜意识里，我默认所有好产品、真正用户多的应用都应该是云原生的，根本没想过例外。</p>
<p>但写这篇文章的思考过程中，我才惊讶地想到：被我认为近乎完美的 Claude Code，在普通模式下其实也是本地的。</p>
<p>可能是它太丝滑了，让我在潜意识里产生了错觉。但抛开层层包装，你不需要查证资料就会很清楚地意识到：Claude Code 作为一个智能体的脚手架，它的反应循环执行、使用工具、以及把正确的信息组装成上下文发给语言模型的这些部分，都是在本地发生的。直到环境中的所有信息被整理成一次推理请求，它才调用云端（而这一点上，OpenClaw 也是如此）。所以从本质上看，Claude Code 和 OpenClaw 其实是一类产品。</p>
<h3>二、处理电脑本地内容（电脑端使用）的需求并没有那么小</h3>
<p>我的几乎所有东西都在云端：云盘、电子邮件、在线文档之类的。所以我在听说 OpenClaw 后的好多天里，都想象不出我能让它在电脑上为我干什么。</p>
<p>但我恰恰忽视了：即使是“云原生”的我，我真正生产力的部分，代码库仍然几乎都是在本地编辑、本地运行的。以此类推，也能理解其他白领工作里，可能也有很多关键环节发生在本地。即使在我们略带傲慢的眼光里，会觉得“这没必要在本地”，但对相关人群来说，这就是现实。</p>
<p>我或许不需要 OpenClaw，因为我已经有并熟悉 Claude Code。但对那些没有的人来说，这可能就是他们的“Claude Code 时刻”。</p>
<p>此外，借这个机会我也想理一下前面“一、二”这两点的关系。如果把 x 轴看作“应用本身跑在本地还是云端”，y 轴看作“所处理内容在本地还是云端”，我本来以为会是四个象限各有代表，后来发现好像只有两个象限更合理，也就是说这两点互为表里：</p>
<p>第一象限（应用是云端原生，处理的内容也主要在云端。如果要处理本地内容，通过上传下载等步骤完成）：典型如 Manus、ChatGPT Agent。</p>
<p>第三象限（应用跑在本地，拥有本地文件夹权限。主要处理本地内容，但也可以调用云端接口）：典型如 OpenClaw、Claude Cowork。</p>
<p>对 Claude Code 和 Codex 之类的编程智能体来说，它们在第一、第三象限都支持。虽然厂商似乎非常热衷让用户尽量多用第一象限，仿佛从第三象限走向第一象限就完成了“云原生进化”，开创了更光明的未来，但现在绝大多数用户的舒适区还是在第三象限。</p>
<p>我不知道智能体的终局是不是都会从本地走向云端原生。现在的我会更谨慎地怀疑：这是不是一个毫无疑问的、带点辉格史观味道的“进步”。但至少从今天我们对编程智能体的使用情况看，本地运行反而是更常见的选择。</p>
<p>换句话说，我不知道 Manus 和 ChatGPT Agent 的形态未来会不会比 OpenClaw 更受欢迎，但至少今天它们还不如后者更贴近用户习惯。</p>
<h3>三、免责的“野性”</h3>
<p>OpenClaw 有一个非常特殊的反向定位（Counterpositioning）：它不是一家公司发布的商业产品。</p>
<p>正因为它不是商业产品，它不需要像其他智能体那样背负沉重的合规包袱和安全责任。这意味着它能做很多大厂产品不敢做、不能做、或者因为风险控制而被禁止的高风险动作。</p>
<p>本地运行也迎合了大众对“数据在自己手里”的直觉。尽管这样一个依赖复杂、没有大厂背书、也没经过广泛测试的开源项目直接跑在本地环境里，可能实际上远不如用云端服务安全，但那种“自由”的感觉确实不一样。对很多用户来说，“我能关掉 / 我能看代码 / 我自己担责”会在心理上被等同为安全。</p>
<p>这种不受监管的“野性”，在这个越来越保守的 AI 时代，本身就是一种稀缺资源。</p>
<h3>四、时间：长程任务、定时任务、历史管理</h3>
<p>时间是个很神奇的东西。</p>
<p>我看到很多用户分享的 OpenClaw 的“啊哈时刻”，都是它突然根据用户之前的要求或历史记录，发来相关且有帮助的信息。</p>
<p>这背后离不开长程任务、定时任务、历史管理这些能力。</p>
<p>理论上说，不管是 ChatGPT 还是各类编程智能体，都能在一定程度上做到这些，但它们在产品设计上确实没有把这些当作“第一等公民”。有些能力确实可能需要在用户掌控的本地、并由开源项目来做才更靠谱；但也有些未必如此，这里面可能存在产品设计上被忽视的机会。</p>
<h3>五、即时通讯渠道</h3>
<p>OpenClaw 目前最丝滑的使用入口是连接 Telegram。虽然 Telegram 的市场占有率不高，但它是一个真正的即时通讯平台。在里面你只是和一个账号聊天，相比打开一个专门用于 AI 的应用，它更像是让 AI 进入你的工作流，而不是你去找 AI，所以更自然、更有亲切感。</p>
<p>尤其是这也自然解锁了群聊等用法。ChatGPT 也在对话界面里尝试加入多人协作功能，本质上类似，但从流程的自然程度上还是差了一截。</p>
<h3>六、粗糙带来的成就感</h3>
<p>粗糙的产品、极其复杂的安装过程，可能反而是它获得初期流量的原因。</p>
<p>对一部分想凑热闹的人来说，能花很长时间把这个东西安装成功，本身就是一种快乐源泉。这种折腾的快感会让人产生“掌握高深技术”的错觉，于是兴奋地大肆宣传，声量很大。</p>
<p>我最开始的草稿里把这一点排得很靠前，而且带着一点讽刺。但后来我对它多了一些敬畏，虽然这种思维方式依旧不在我的舒适区：</p>
<ol>
<li>粗糙迫使用户学习它的心智模型：一旦学会了，就更容易写教程、做分享、给别人“指点江山”。</li>
<li>粗糙提高了早期用户的筛选强度：留下来的往往更愿意折腾、更愿意传播。</li>
<li>粗糙让“可塑性”显得很大：大家会自然把自己想要的功能投射进去，产生“它几乎无所不能”的幻觉。</li>
</ol>
<h2>第三部分：反思与未来畅想</h2>
<p>这次经历对我来说很有教育意义，让我看到了自己思维的盲区。回头看，我至少踩了几类“默认假设”：</p>
<p>第一，我把“云原生”当成了好产品的必要条件，忽视了当下智能体很多关键环节依然更适合在本地完成；第二，我低估了“电脑端使用”的真实需求，把自己的工作方式（大量内容在云端）当成了多数人的常态；第三，我把“摩擦”和“粗糙”只当成缺点，却没看到它在早期传播里可能反而是一种筛选机制、甚至是一种成就感来源；第四，我对“非商业、开源、自己担责”这种反向定位的吸引力认识不足——它带来的那种不受监管的野性，在今天反而是稀缺的；第五，我也忽视了渠道的重要性：当 AI 以即时通讯的形态嵌入工作流时，用户感知到的“自然程度”会发生质变；第六，最重要的是，我太习惯用自己的审美去推断市场，忘了市场经常会用一种很“反直觉”的方式告诉你：人们到底愿意为什么买单、为什么传播。</p>
<p>我们只有在现实环境中作出自己的判断，再与现实相互映证，然后不断思考、纠正自己的想法，才能取得长足的进步。智能体如是，人何以堪。</p>
<p>这次 OpenClaw 火了之后，我又看到有人嘲笑扎克伯格收购 Manus。跟小扎一样，Manus 也是“招黑体质”：从最初发布时就有“套壳”的质疑，到后来被 Meta 收购，再到现在一个“套壳套得更简陋”的 OpenClaw 反而占据头条。</p>
<p>虽然小扎常成为笑柄，但至少在商业和产品决策上，我向来不太质疑他。如果你了解他这二十多年来怎么一个数量级一个数量级地扩张，在一场场硬仗中胜出，还不时下几步闲棋的整个过程（我会推荐播客 Acquired），你大概率会相信他是一个商业嗅觉超过普通人好几个标准差的策略大师。如果有操作是我没看懂的，那大概率是我的问题。以我的段位，我完全没有资格评判他决策的优劣。</p>
<p>但以我浅薄的理解，现在是非常利好 Meta 的时刻。</p>
<p>OpenClaw 教育了市场，让人看到了这种产品形态，但它很可能终究需要一个商业团队来保障，把这个想法打磨圆熟。</p>
<p>而这种“打磨圆熟”，无论是跑在本地，还是跑在云端，都能用上 Manus 在智能体脚手架上的丰富经验：</p>
<p>什么情况做什么，什么任务用什么模型，哪些高频场景需要团队手动预设一些策略，哪些地方要预设一些技能，一直到最后智能体效果怎么评测、怎么保证持续进步。</p>
<p>如果说 Manus 是“套壳公司”的话，这些就是它套的壳，也是 OpenClaw 这种更初级的“套壳项目”终究要补上的一课。</p>
<p>更别提如果未来还是要走云端路线（我还是对此念念不忘），Manus 已经成熟的大规模、完全隔离沙箱的基础设施，也可以帮助它快速扩展。</p>
<p>我前面提到 OpenClaw 的另一大优势是渠道：它能出现在即时通讯平台里。它目前体验最丝滑的是在 Telegram，因为主流平台对这类机器人都有限制。但猜猜谁拥有即时通讯市场的半壁江山？</p>
<p>Meta 现在手上握有 Manus 和各种即时通讯平台，这仗打起来太顺风顺水了。</p>
<p>如果这时还能“千金买马骨”，把 OpenClaw 也收入囊中，那就更师出有名了。</p>
<p>但是，如果要走上更大的平台，产品里的野性必须一步步被去掉：</p>
<p>安全加强，那最刺激的用法就会被阉割。</p>
<p>体验变丝滑，可塑性就会下降。</p>
<p>生态变得更有秩序，早期使用者那样传播的热情也会下降。</p>
<p>怎样根据市场的情绪，在正确的时间做正确的事情，在魅力与规模之间做平衡，那就是一门鲜为人知的艺术了。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
按：就在我发布这篇文章的时候，看到了新闻，OpenClaw 花落 OpenAI。这是一个有意思的新局面，但不影响本文的观点和判断。
最近有一个时刻让我非常震撼，就是看到 OpenClaw 火了的时候。
上一次我有这种程度的震撼，还是刚开始用 Claude Code 的时候。但这一次，震撼的方向完全不同。Claude Code 给我的震撼是“现在竟然能做到这个地步”，而 OpenClaw 给我的震撼
]]></summary>
  </entry>
  <entry>
    <title type="html">放下算法，战场见：AI时代的招聘暴论</title>
    <link href="https://qcngt.com/2026/02/11/ai-hiring-hot-take.html" rel="alternate" type="text/html" title="放下算法，战场见：AI时代的招聘暴论"/>
    <published>2026-02-11T00:00:00.000Z</published>
    <updated>2026-02-11T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/02/11/ai-hiring-hot-take</id>
    <content type="html" xml:base="https://qcngt.com/2026/02/11/ai-hiring-hot-take.html"><![CDATA[
<p>未来的技术招聘会变成什么样？随着 AI Coding 能力的不断增强，如果公司还有必要招人的话，我们该如何判断一个人是否值得被聘用？</p>
<p>现在很多大厂在传统的编程面试基础上，加了一类 AI 辅助面试。听上去与时俱进，让你用 AI 解决问题，但面试官最后还是会拉着你分析代码。这种感觉其实很别扭。如果 AI 能写出代码，它自然也能分析代码。在现实工作中，你直接问 AI 就好了。这种考核本质上还是在用传统面试的逻辑套了一层 AI 的皮，并没有考察到 AI 时代真正需要的能力。</p>
<p>在 AI 时代，核心能力不再是回答问题，而是提出问题，以及敏锐地察觉到 AI 的反馈哪里不符合预期。这种“提问”和“纠偏”的能力，比写出代码本身要难考察得多。</p>
<p>即使是像 Anthropic 这样内部工作流极其 AI 化的公司，也会遇到招聘难题。以前给出一道极难的题目，让面试者与 AI 合作解决，可能需要几小时。但随着模型能力提升，AI 一下子就写出来了，题目瞬间失去了筛选价值。</p>
<p>所以我有一个暴论：未来的招聘不应该有面试，而应该是直接实习。</p>
<p>我的设想是，以后不再需要那种做题家式的 Coding 面试。取而代之的，是先通过 AI 自动从简历的信息出发，评估一个人的过去。这里有两个最重要的维度：</p>
<p>一是看他主导并深度参与的项目。无论是职场中的商业项目，还是学生阶段的课题，亦或是个人的兴趣项目、社区的开源项目，最关键的是看他在复杂环境下做决策的过程。</p>
<p>二是看他写的文章。程序员的文章是展现思想和影响力的核心载体，能体现一个人对技术本质的理解，更重要的是体现他的思维深度和价值观。</p>
<p>通过 AI 对这些项目和文章进行初筛，目的不仅是筛选技术的高低，更是为了寻找那些在品味、理想和思维方式上与公司最契合的人。</p>
<p>一旦筛出一批合适的人，直接发 Offer 让他们来上班。不用面试，简历过关就直接进入“实战试用期”。这才是最真实的过滤过程：比如你只需要 1 个人，那就放 2 个甚至更多人进来，直接处理公司的真实业务。</p>
<p>以前这样做不行，是因为工程师入职有很长的上手期（Ramp-up Time），可能一个月甚至几个月都很难看出真正的能力，也没什么大的产出。但现在不同了，如果你是一个合格的 AI 时代工程师，入职第一天就应该开始输出成果。</p>
<p>虽然你对公司的架构和哲学可能还没那么深入的理解，但在工程实现上，你应该能做到指哪打哪，能指挥一群 Agent 去完成具体的目标。公司甚至可以把同一个任务交给两个人，比较他们最终交付的产品。虽然都是 AI 写的，但通过成品你能看出一个人的品味：他在构建过程中关注了哪些问题？他影响了 AI 的哪些决策？</p>
<p>在充满模糊性和多样解的问题面前，你选择什么，就决定了产品的走向，这才是你的价值。</p>
<p>我甚至觉得现在的系统设计面试也没意思了。即便是在一个完全陌生的领域，你也应该能通过向 AI 提正确的问题来快速建立认知，并能开始给AI指方向、纠错。</p>
<p>当然，这一切讨论都建立在“还需要招人”的假设上。如果模型能力在短期内再次飞跃，可能连实现层面的岗位都不需要了。</p>
<p>到那时候，唯一稀缺的就是品味。对于“应该给用户呈现哪一种界面”这类问题，在实现成本极低的情况下，你完全可以把所有的想法都做出来进行 A/B 测试。但真正的挑战在于那些无法被 A/B 测试覆盖、需要消耗巨大资源的决策：你应该把有限的算力、资金和时间投向哪个研究方向？</p>
<p>因为资源是稀缺的，你不能全都要，也不能全都试。在这些“只能选一个”的岔路口，品味就是最后的决胜点。</p>
<p>虽然我们现在认为人最重要的价值是那点独特的“品味”，但作为老板，我真的会永远选择相信人的品味吗？在未来，比起相信一个存在不确定性的人，我可能更倾向于相信一个跟我很熟、已经在无数次决策中证明过自己的 AI。</p>
<p>如果有一天，我们发现连“品味”这种最后的人类堡垒也被 AI 攻克，那么关于招聘的所有讨论都将失去意义。但在那之前，在这个人类依然需要拍板、需要负责的断档期，请停止那些陈旧的 Coding 面试，把人扔进真实的工作流里去观察吧。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
未来的技术招聘会变成什么样？随着 AI Coding 能力的不断增强，如果公司还有必要招人的话，我们该如何判断一个人是否值得被聘用？
现在很多大厂在传统的编程面试基础上，加了一类 AI 辅助面试。听上去与时俱进，让你用 AI 解决问题，但面试官最后还是会拉着你分析代码。这种感觉其实很别扭。如果 AI 能写出代码，它自然也能分析代码。在现实工作中，你直接问 AI 就好了。这种考核本质上还是在用传统面
]]></summary>
  </entry>
  <entry>
    <title type="html">消费要精致，学习要粗糙：《看得出是AI写的，然后呢？》之后</title>
    <link href="https://qcngt.com/2026/02/07/ai-2.html" rel="alternate" type="text/html" title="消费要精致，学习要粗糙：《看得出是AI写的，然后呢？》之后"/>
    <published>2026-02-07T00:00:00.000Z</published>
    <updated>2026-02-07T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/02/07/ai-2</id>
    <content type="html" xml:base="https://qcngt.com/2026/02/07/ai-2.html"><![CDATA[
<p><a href="/2026/02/04/ai.html">上篇文章</a>发出去之后，我在小红书的评论里听到了几种不同方向的声音。有人更在意阅读体验：在一个文字可以被快速生产出来的时代，读者为什么要把注意力交给那些看起来&quot;加工痕迹很重&quot;的内容。也有人更在意真实性：即使背后确实是一个真实的人在发声，也不代表你读到的思想就一定来自这个人本身；当表达可以被工具轻易重塑时，读者会天然怀疑这段话到底从哪里来。把这些声音放在一起看，我觉得我们的讨论已经不只是&quot;有没有用 AI 写作&quot;，而是在讨论形式、价值与注意力分配：在内容供过于求的年代，读者到底该用什么标准去筛选自己愿意读的东西。</p>
<p>所以我想把话往更老的那个问题上挪一点：文与质。古人说文胜质则史，质胜文则野。以前的&quot;野&quot;更多指不假修饰、未加雕琢的文字；但在这个年代，修饰本身变得太快了，整理、润色、抻平句子、补齐逻辑都可以一瞬间完成。于是&quot;野&quot;的含义也发生了偏移：它不仅可以指原生态的粗糙，也可以指那种快速丢给工具整理过、却没有再经过作者亲手精修的文字。两种&quot;野&quot;看似相反，读起来的效果却很相近：都不太舒服。前者是不够工整导致的不舒服，后者是过于工整却带着一种平均化和&quot;现成感&quot;导致的不舒服。无论是哪一种，它们指向的都是同一件事：读者读起来不舒服。</p>
<p>最近我刚好在窦文涛的节目里听他讲过一个偏好：他更愿意听那种讲课磕磕巴巴的老师，而不是那种文从字顺、听起来很顺滑但没信息量的表达。这就顺势引出了我下面的观点：当你追求的是知识与判断时，形式可以退到很后面；当你追求的是被消费、被消遣的体验时，形式就会被推到很前面。</p>
<p>而恰恰是今天的内容生态让这两类需求更容易撞在一起。被消费的内容、被消遣的内容，本来就大量存在，而且是供过于求的。供过于求意味着消费者当然有资格更挑剔、更苛刻、更要求精致。你看哔哩哔哩上有无数人花很多时间做出极其精美的视频，不收费，只求观众点个赞，这说明在&quot;消费体验&quot;的赛道里，形式本身就是核心竞争力。对这类内容来说，读者强调&quot;好不好读&quot;“舒不舒服”“漂不漂亮”，完全合理。</p>
<p>但我心里还有另一类内容，它不是为了消遣而生产的。对这种内容来说，我作为读者真正在意的常常只是一个很小的点：一个我没想到的角度，一个能让我少走弯路的经验，一个罕见的判断。这样的点可能只在少数地方出现，只要能让我遇到，我愿意花很多金钱、精力、时间去获得它。这时候形式变得毫不重要。（不管是说话结结巴巴的那种粗糙，还是未经润色的文字的那种粗糙，还是快速丢给 AI 进行润色、结果充满 AI 味的那种粗糙。）只要它真的有用，我都会认真读。这里的标准不是漂不漂亮、顺不顺滑，而是它有没有真实的、稀缺的、能改变我理解的东西。</p>
<p>我上一篇文章里其实有一个非常个人的出发点，这次需要补回来：我之所以会对这件事这么在意，是因为我最近确实看到了好几篇 AI 味很浓，但内容对我非常有帮助的文章。那种帮助不是一般的信息搬运，而是明显有点 out of distribution 的东西：你能感觉到背后有一个人在长期观察、在做判断、在给出很少见的视角，只是表达的表层被工具抻得很平。这让我意识到，如果我把&quot;读起来舒不舒服&quot;放成第一道门槛，我可能会错过真正稀缺的价值。也因此我更倾向于把判断顺序调换一下：先问内容有没有价值，再问形式是不是舒服。学习型阅读里，这个顺序更重要。</p>
<p>作为作者，我总有强迫症，很想追求文字的完全准确。比如上篇文章有不少细节和我的原意并不完全一致，我发之前就注意到，但为了解放思想，我忍着超过舒适区也发了。其实我理智告诉我这对读者不重要，但确实作为作者确实不适。我不确定这种做法该不该成为常态：以后我应该更相信读者、更愿意先把粗糙的想法抛出去，还是应该往回收一点，让表达更贴近我原来的那个意思。我这次稍微多改了一轮。</p>
<p>有意思的是，评论区的反对声音反过来给了我一个很确定的结论：发出来这件事本身是对的。因为如果没有工具把摩擦降下来，我很可能就不会把这些想法写成文章发出来。发不出来，就不会听到这些角度；听不到这些角度，就会误以为自己已经想全。不同意见让我更快看清自己没讲清楚的地方，逼我把语境、对象、标准讲得更明白。从这个意义上说，工具并不是替我写，而是在降低我进入公共讨论的门槛，让我更快校准自己的思考。</p>
<p>附注：这篇文章我又给自己一个挑战，我是完全在手机上完成全流程的。上次那篇文章也几乎是全手机上完成的，但最后发布公众号和博客时我还是用了电脑，因为公众号手机端不支持&quot;阅读原文&quot;链接，我以前会把它指到博客。但相比于效率，我觉得这个链接不加也罢。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
上篇文章发出去之后，我在小红书的评论里听到了几种不同方向的声音。有人更在意阅读体验：在一个文字可以被快速生产出来的时代，读者为什么要把注意力交给那些看起来&quot;加工痕迹很重&quot;的内容。也有人更在意真实性：即使背后确实是一个真实的人在发声，也不代表你读到的思想就一定来自这个人本身；当表达可以被工具轻易重塑时，读者会天然怀疑这段话到底从哪里来。把这些声音放在一起看，我觉得我们的讨论已经不
]]></summary>
  </entry>
  <entry>
    <title type="html">看得出是AI写的，然后呢？</title>
    <link href="https://qcngt.com/2026/02/04/ai.html" rel="alternate" type="text/html" title="看得出是AI写的，然后呢？"/>
    <published>2026-02-04T00:00:00.000Z</published>
    <updated>2026-02-04T00:00:00.000Z</updated>
    <id>https://qcngt.com/2026/02/04/ai</id>
    <content type="html" xml:base="https://qcngt.com/2026/02/04/ai.html"><![CDATA[
<p>最近在一些平台上，比如小红书，你会看到用 AI 整理出来的文章越来越多。也有人很反感，开始研究怎么识别 AI 文、怎么避开它们。</p>
<p>说实话，很多文章的“AI味儿”挺明显的。尤其是日常就把 AI 当工具的人，其实很容易看出来：句子太顺、太平均、太像“标准答案”，甚至连停顿和情绪都被抹平了。你一眼就知道这不是一个人坐在那儿慢慢写出来的。</p>
<p>但更重要的其实不是识别这件事。</p>
<p>更重要的是：这件事对读者来说，未必是坏消息，反而可能是这个时代给我们的一个福利。</p>
<p>因为很多 AI 文的背后，仍然是一个真实的人。不是“凭空生成的观点”，而是一个人本来就有东西想说，只是以前没把它写出来、发出来。</p>
<p>背后是真人、真经历、真观察、真判断。背后是他见过的事、踩过的坑、总结出来的经验。背后是他对某个问题的长期思考，以及他在生活里、工作里一点点磨出来的观点。AI 只是把这些东西从一堆原始材料里拎出来，整理成一篇能读的文章。</p>
<p>从读者角度看，这个变化很关键。</p>
<p>很多人其实经常写——写在备忘录里，写在随手的草稿里，写在脑子里，写在聊天窗口里。但真正要把一段想法变成一篇能公开发布的内容，最费力的不是“难”，而是“累”：要理顺逻辑、要调整句子、要删掉重复、要补齐背景、要让别人读起来不费劲。</p>
<p>而有想法的人通常也很忙。即使他们愿意分享这些信息，也未必愿意把精力花在这套整理流程上。结果就是，读者其实错过了大量本来很有价值的内容，不是因为它不存在，而是因为它没被整理出来。</p>
<p>AI 把这层费力的工作变轻了。</p>
<p>它让更多原本只会停留在“随口说说”“简短发给朋友”“写在笔记里”的内容，有机会变成一篇文章，出现在你刷到的时间线上。对读者来说，这意味着你能更容易接触到那些以前不会公开发表的经验和判断。你能看到更多普通人但足够有密度的分享，而不是只看到最会写、最有时间写的人。</p>
<p>所以我越来越不把“是不是 AI 写的”当成一个决定性标准。</p>
<p>风格当然会受影响，AI整理过的文字可能更平、没那么有个性。但我作为读者，最终还是看内容：里面有没有信息量，有没有经验，有没有新视角，有没有一句话能让我停下来想一想。真懂的人看的是这些，而不是“像不像 AI”。</p>
<p>我作为作者也在经历一个转变。</p>
<p>我一直坚持一个原则：这个时代最重要的是解放思想，实事求是。放到写作这件事上也是一样——别被旧的评价体系绑住，先让真正有价值的内容流动起来。</p>
<p>但坦白说，我以前也没完全做到。</p>
<p>我经常写，脑子里也有很多想法，大多数都躺在笔记里。原因很简单：我一想到要把它们整理成“像样的文章”，就会开始改、开始润色、开始纠结“AI味儿太重”，然后花很多时间。结果就是，笔记里那么多想法，最后也只有很小一部分真的整理出来发表。</p>
<p>现在我更倾向于换一种方式：用语音先把想法讲出来，再丢给 AI 整理成文章，然后做少数修改就直接发。甚至修改也不一定要坐在电脑前慢慢抠字，我可以一边读一边用语音说修改意见，让它继续帮我改。整个流程会轻很多，发表就不再是一个“要专门腾出一整段时间”的项目。</p>
<p>但这篇文章的重点其实不在我。</p>
<p>我只是想从读者的角度把这件事说清楚：AI让表达的门槛变低了，让更多真实经验有机会被写出来、被你看见。你当然可以不喜欢“AI味儿”，但别因为它就直接把内容一票否决。</p>
<p>对读者来说，最划算的策略可能不是练习识别，而是学会筛内容：留下那些真有信息量的，划走那些空的。只要你把注意力放回“内容有没有价值”，你就能把这个时代给的红利，实实在在吃到。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
最近在一些平台上，比如小红书，你会看到用 AI 整理出来的文章越来越多。也有人很反感，开始研究怎么识别 AI 文、怎么避开它们。
说实话，很多文章的“AI味儿”挺明显的。尤其是日常就把 AI 当工具的人，其实很容易看出来：句子太顺、太平均、太像“标准答案”，甚至连停顿和情绪都被抹平了。你一眼就知道这不是一个人坐在那儿慢慢写出来的。
但更重要的其实不是识别这件事。
更重要的是：这件事对读者来说，未必
]]></summary>
  </entry>
  <entry>
    <title type="html">我与大模型的2025：无限心智、个体进化、未来已来</title>
    <link href="https://qcngt.com/2025/12/28/ai.html" rel="alternate" type="text/html" title="我与大模型的2025：无限心智、个体进化、未来已来"/>
    <published>2025-12-28T00:00:00.000Z</published>
    <updated>2025-12-28T00:00:00.000Z</updated>
    <id>https://qcngt.com/2025/12/28/ai</id>
    <content type="html" xml:base="https://qcngt.com/2025/12/28/ai.html"><![CDATA[
<p>我每年都会写一篇个人史，记录我与大模型的这一年：</p>
<p>它到底怎样介入我的日常，改变我的习惯，重塑我的判断，甚至偷偷改写我对未来的直觉。</p>
<p>这不止是客观的经历记录，也是我的认知在当下的切片。</p>
<p>这是第四年。<sup class="footnote-ref"><a href="#fn1" id="fnref1">[1]</a></sup></p>
<p>我会从使用者角度出发，虽然我本身也是从业者。</p>
<h2>第一部分 无限心智：推理变默认，智能体变日常</h2>
<h3>推理模型</h3>
<p>根据ChatGPT最近推出的年终回顾，我今年跟它发送了2.2万条消息，是最活跃的1%。这当然还不包括工作中用的。</p>
<p>难以相信，离OpenAI最初发布推理模型o1也就一年，离DeepSeek的开源推理模型R1轰动更是不到一年，但现在的我每天都要用推理模式问几十次问题，就像呼吸空气一样自然。</p>
<p>刚开始用推理（thinking）模式的时候，它的用法更接近“深度研究”模式，每天只能用几次，每次也要很久才能出结果。因此虽然它的能力更强，但用得并不多。每次想等一等，考虑把珍贵的推理机会留给什么问题，结果一拖再拖，到最后就忘记用了。</p>
<p>第一次转变发生在八月GPT-5的推出。我感觉它的能力没有明显提高，但可能是背后的成本显著降低了，以至于OpenAI大方地提供了几乎无限量的推理模式（当然，是订阅用户）。这样一来，我更多的问题开始用推理模式，它对我生活和工作的帮助也更大了。</p>
<p>但那时候推理还不是很快，所以我只在想要更确切的回答时用推理模式，只要简单回答的时候，就会手动切换成自动模式（说是自动模式，其实大多数时候走的是非推理模式）。</p>
<p>第二次转变在十一月升级到GPT-5.1：推理模式显著加快了，它能更准确地根据具体问题控制思考的长短。自此，我开始固定一直使用思考模式，不用切来切去了。从用户角度看，现在的推理模式其实也像一种“自动模式”，只是比官方的“自动模式”更偏好推理而已。</p>
<h3>Gemini</h3>
<p>从业界而言，今年Gemini的复兴是件大事。从三月在LMArena登顶开始，给我的印象是它在各种跑分里一直维持第一梯队，甚至经常是最高水平。</p>
<p>作为从业者，我也从几年前就坚定地认为谷歌是现在所有公司里对于AI的布局最好的，也是最有可能带领人类做出通用人工智能的。引用播客 “Acquired”（强烈推荐这个播客）今年一期节目中的说法：衡量一家公司的人工智能布局可以看四个维度——应用、模型、芯片、云——而谷歌是少数（甚至唯一）在这四个维度里都力争做到顶尖、并且同时拥有完整能力的公司。</p>
<p>但是，作为消费者，我只能说并不满意。</p>
<p>我在四月时订阅了一个月，后来也时不时会去试一试作为对照。它有两点让我很不适。</p>
<p>一是它至今没有macOS桌面端的原生应用，不能像ChatGPT一样快速打开、无缝使用。</p>
<p>即使是网页版或手机应用，我用起来也感觉它的用户界面不太顺滑（但我没有把这单列成一点，因为我不确定这是不是因为我用得不够久，还没有“自适应”）。</p>
<p>二是它除了深度研究模式，会非常克制甚至吝啬地使用联网搜索，这不可避免地造成了结果的幻觉。甚至我觉得在推理模式这么成熟的今天，“幻觉”已经几乎是个历史名词了，用在一个最高水平模型的产品讨论中，我都有点不好意思。</p>
<p>而从绝对能力上，我也没看出它有什么显著超过ChatGPT的地方，更不要说强到让我愿意忽视这两点、忽视使用惯性，转而切换到 Gemini。</p>
<p>不过，我在工作中使用Google Docs和Google Chat的时候，会用Gemini边栏来翻译、总结文档，这样的工作它还是很能胜任的。</p>
<p>期待明年Gemini能在产品端更发力。</p>
<h3>编程智能体（Coding Agent）</h3>
<p>今年最大的震撼来自于编程智能体的飞速成熟。一年之内变化太多、太大。</p>
<p>在三月及之前，正如我<a href="https://qcngt.com/2025/03/22/genai.html">去年</a>的描述，我会直接通过与如ChatGPT这样的成熟语言模型（而非智能体）的对话完成一些定义比较清楚的编程任务。比如把代码和现有的单元测试复制给它，让它给某一段新改的代码生成单元测试。它生成的单元测试基本上放进去稍微改一下就能跑，如果碰到问题，来回几个回合也能改对。</p>
<p>三月底，我第一次用了 Cursor。也是我第一次接触编程智能体。虽然我用语言模型写代码很多年了，但这次体验还是很震撼：它能读懂命令行输出，然后不断尝试、迭代，直到跑通为止。我当时真的惊为天人。</p>
<p>四月，公司内部也开始有自研的编程智能体，但它的智能程度不足，我大多数时候还是像之前一样：直接和成熟的语言模型（ChatGPT）对话往往更顺利。</p>
<p>但转眼间，公司内的编程智能体就越来越成熟了：比如它用上了顶尖的编程模型 Claude（只是 Claude 模型，不是 Claude Code），它与公司内部系统和背景知识的集成也越来越好。我对编程智能体的使用也越来越多。</p>
<p>七月起，我就没用手工写过代码了。</p>
<p>九月起，我甚至开始不用英文，可以说中文成了我唯一的编程语言。</p>
<p>十月，我用上了Claude Code，它与我之前使用的智能体相比又有了跨时代的进步。它是五月正式发布的，我十月才开始用，有点后知后觉了。</p>
<p>一方面是在个人项目中用。</p>
<p>那阵子我有时间用业余时间做一些个人项目玩。相比在工作中使用的内部编程智能体，这让我有机会去探索市面上更广泛、更流行的方案（用时髦的话说，in-distribution）。</p>
<p>我主要比较了 Codex 和 Claude Code。两者用下来后，我觉得还是 Claude Code 显示更清晰、速度更快，再加上 Codex 即使输入输出是中文，中间显示的思考过程还是英文。因此选择了Claude Code。</p>
<p>虽然我已经是 OpenAI 会员，相当于可以免费使用 Codex，但是为了体验还是义无反顾地选了Claude Code。开始的时候我按用量付费，充值了五美元，但不到一天就用完了，于是订阅了每个月二十美元的会员。</p>
<p>我的这些个人项目都很轻量，做给自己玩，大多数是网页。</p>
<p>比如我因为要去台北故宫看百年大展，看到各个展品的展期安排得比较复杂，行程规划起来不方便，就做了一个网页工具。其实光满足自己的需求不用做得太复杂，但做到后来玩性大发，花了很多时间打磨得很精致。发到小红书上，收获了七百个收藏，也是个有趣的体验。</p>
<p>再比如我重构了我的博客：在保持页面完全不变的情况下，用 Node.js 重构取代了 Jekyll。<sup class="footnote-ref"><a href="#fn2" id="fnref2">[2]</a></sup></p>
<p>还有更多处于半完成状态的：比如一个自动爬取、翻译人工智能领域名家博客的文摘网站，一个个人文集，一个我新发明规则的变种围棋、以及能陪人玩这个版本的人工智能，甚至两篇尝试与智能体合作完成的小说。</p>
<p>反正编程智能体的成熟彻底解放了我业余时间的生产力：很多本来只能停留在笔记里的点子，现在稍微花点时间就能做出一个原型，或者至少做出一个半成品。虽然大多数东西也不知道最后能有什么大用处，但乐在其中，让每天的日子都很有盼头。</p>
<p>另一方面是在公司，也用上了Claude Code。</p>
<p>虽然只能用命令行版本，没有图形界面版那么高效，但用一天也就习惯了。与之前公司内部自研智能体 + Claude 模型相比，它的智能程度又上了一个台阶。</p>
<p>甚至有一阵子，工作日早上唤醒我的动力都很朴素：就想多和Claude Code一起工作。这是一种令人兴奋甚至上瘾的体验。这让我想起了早年一些程序员的故事，他们最初不是为了要工作而写代码，而是为了能摸到电脑、能写代码而工作。后来在巨大的经济利益驱动下，许多对计算机没什么好奇心的人纷纷涌入这个领域，这样的说法就很少听到了。现在也算是回到初心了。</p>
<p>我从七月开始完全只通过与智能体对话来编程。这样的工作流如今如此日常，以至于如果我不是去查记录，很难相信这样的日子只过了半年。这也是我当初开始写这个系列“年鉴”的原因：人的记忆太会骗人了，尤其在这个瞬息万变的时代，更需要鉴往事而知来者。</p>
<p>真是精彩的一年！这一年来，推理外包了思考，智能体外包了执行。以前昂贵的智能，现在开始变得随取随用。</p>
<h2>第二部分 个体进化：认知升级，长期冲刺</h2>
<h3>中文成为编程语言</h3>
<p>我前面说到，我用中文与编程智能体交流，即使我所在环境的工作语言是英文。</p>
<p>让我展开一些，为什么我认为这是很重要的一点。</p>
<p>当智能体开始取代人类做具体的编程工作，现在工作效率的瓶颈其实变成了智能体与人之间的沟通带宽。所以如果追求极致效率，就应该在这个环节优化。而作为母语是中文的人，阅读中文就是比阅读英文快。现在随着语言模型的发展，语言之间的转换成本很低，而且非常准确，几乎能做到无损。因此我们就应该义无反顾地用中文，不要不好意思。</p>
<p>我认为，在未来（也许过去也是这样），一家公司或一个人所处的激烈竞争，绝对不只是技术的比拼，也是组织形式、工作流等上层建筑能否更快适应技术进步的比拼。因此必须时时刻刻解放思想、发展生产力。</p>
<p>这也许也是为什么我从更喜欢实用主义、多快好省的中国、美国，而不是更按部就班、工匠精神的欧洲、日本。</p>
<h3>故意更激进一点</h3>
<p>我发现我对编程智能体的使用，会比很多同事更激进一些。有时候即使我自己能更快改好，我也会倾向于让智能体去完成，我来检查，直到做对。原因很多：</p>
<p>比如我觉得这样做出来的结果，相当于是我和智能体两个“人”都认可的，比我自己一个人更靠谱。</p>
<p>再比如我需要通过这个过程增进对这个工具当下能力边界的认识，这能帮助我更准确、更有效地利用它。</p>
<p>但我觉得还有更深层的世界观原因。</p>
<p>我现在做事情，如果从保守到激进是一条数轴，我会比自己主观自由意志所认为“合理、正确”的点，再往激进方向偏一点，即使那不是我觉得最正确的选择。</p>
<p>因为我知道自己相比最年轻的一代人已经老了：对过去有经验，自然也会带着偏见。当然，年轻一代也有他们的偏见，但从历史上看，年轻人正确的概率往往更高一些。</p>
<p>所以，如果我想做出更正确的决策，就需要在自己能接受的范围之外，再向更激进的方向偏一点。</p>
<h3>个体进化</h3>
<p>今年推理模式和编程智能体的成熟，带来了个人发展方式的变化。这个变化和机会让人兴奋。我甚至觉得它比 2022 年所谓的“GPT 时刻”更重要，堪比从图书馆时代到互联网时代那种会改变思维方式的巨变。</p>
<p>在推理模式下，如今你遇到任何问题、想学习或研究任何东西——无论是解读一首诗、摸清一个陌生的代码库、为新到的城市做旅行规划、探究生活里突然冒出的好奇、辨析几个相关观点与理论、把脑海里尚未成形的念头捋顺——大模型都能替你读完大量信息，把它们浓缩成一篇短文。而这篇短文里随便一个词、一个细节，往往又是另一个世界的入口：你再沿着它精准追问，眼前就会展开另一篇短文。</p>
<p>我需要的信息，像空气一样，源源不断地出现在面前。很多本来可查可不查的问题，现在一下子就得到了最完整的答案。本来只需要一个简单回答的问题，现在可能沿着线索探究下去成为专家。</p>
<p>与编程智能体协作进行所谓的“氛围编程”（Vibe Coding）也是如此。每次交互返回的，都是把大量信息压缩后的结果，而你又能立刻在这个结果上分出好几个探索方向，每条路都几乎只要动动手指就能继续走下去。</p>
<p>所以我越来越觉得，以后对大量信息进行阅读、分析、判断的能力和体力，不但不会变得不重要，反而更重要。</p>
<p>可以参考现在公司里的领导们，虽然具体的研究、执行都交给手下的人，但他们仍要尽可能掌握细节，才能做出更好的判断。</p>
<p>现在每个人都变成了这样的领导。</p>
<p>有的领导一天读 10 篇最重要的报告，有的读 15 篇。多出来的 5 篇当然边际效益更低，但在大方向都判断正确的前提下，15 篇终归还是比 10 篇更占优势——多掌握的那些细节，有时候就是胜负手。</p>
<p>一位朋友在最近的一篇<a href="https://medium.com/@zichengxu/how-to-become-agi-cn-77ea4feb5de3">博文</a>中也谈到，他认为通用人工智能时代属于“超级个体”，这个人群的特点是：把标准化知识外包给 LLM，主动采样认知分布边缘的输入，亲自做与物理世界对齐的验证与行动，用“奖励困惑/奖励分歧”等方式抵抗校准崩塌。</p>
<p>我深以为然，但又在回复中补充道：</p>
<p>我发现要长时间、高强度做到这四点是很累的。我觉得我比大多数人要擅长和舒适于这四点，但是当长时间、高强度这样后也会有一个想“毁灭吧”的贤者时刻。</p>
<h3>进化的代价</h3>
<p>这种累从何而来？</p>
<p>一是信息爆炸：智能带来了源源不断的最精华的信息，给你提供了往任何方向探索的武器。这样下来，你时刻被密集的信息和过多的选择包围，几乎每一分钟都在做决策。这就像是基因上习惯了饿一顿饱一顿的人类，被放到了到处是便宜的精制碳水的现代社会，如果不加节制，可能会变得肥胖。</p>
<p>二是分支和并行推进：尤其在所谓的“氛围编程”中，从一个起点，可能有很多探索方向需要推进，而即使没有分支，等机器回复的空档里，往往会打开多个窗口、多个线程并行推进。但人脑不像机器，不能随时把海量上下文存起来再随时读回。</p>
<p>这些源源不断的信息、分支和并行操作不断拉扯注意力，考验记忆力与判断力。于是跑一阵之后，虽然被新鲜信息刺激所产生的兴奋感仍在催你继续，但不免变得精疲力尽。</p>
<p>每到这种时候，我就会觉得吴恩达（Andrew Ng）说得太精辟了：“氛围编程这个名字不太恰当，因为它指的其实是一项真实而且令人精疲力尽的工作。”</p>
<p>有趣的是，当我们习惯了进行高强度、高信息量、高维度的交互后，回过头再线性地阅读一本书，哪怕再复杂的书，也变得轻而易举，像掏耳朵一样舒适。不知这是不是一种头脑的力量训练？</p>
<p>我觉得在新时代下，对那些最顶级的人才的要求其实反而跟以前相似。有些人的头脑就是天生能一周一百多小时保持这样强度的工作，就该他们代人类去探索科技、商业、政治的前沿。他们就像是那些顶级的球星们，人们欣羡他们取得的光环和成就，但没有什么不服的。</p>
<p>但问题是，对于我们大多数普通人，就很不一样了。</p>
<p>以前人们的知识工作中，有大量可以用来养精蓄锐的心理稳定器，如写代码、写文章、线性地阅读。现在那部分没有了。</p>
<p>现在只剩下了那些要集中注意力、创造力、主动性的这部分。</p>
<p>生活、工作从可持续的混合强度，变成了长期冲刺，对于普通人更难了。</p>
<p>我甚至觉得，这也许未来会催生更多从心理咨询到软宗教不等的“身心灵”产业。</p>
<h2>第三部分 未来已来：成本、产品、终局</h2>
<h3>成本变革</h3>
<p>这篇文章从开头我就提到了成本，因为我觉得这是今年很重要的一个角度。</p>
<p>正面的例子是，因为推理模式成本的降低而让我能随时使用。</p>
<p>降低成本虽然听上去不如追求能力巅峰（如在榜单上领先、拿数学或程序竞赛金牌）那么酷，但它对生产力、对我们日常生活的影响，可能更大。</p>
<p>反面的例子是，更复杂更长时间的推理依旧很贵。</p>
<p>我算了一下，自从公司里能用Claude Code以来，我每个月可能要花掉公司一两千美元，可见我使用的强度。相比于它带来的生产力提升，或者是公司雇我要花的薪水，这些成本当然可以忽略不计。</p>
<p>但是作为参考系，这已经高于中国的人均GDP（约1.3万美元一年）了，即使按发达国家的GDP算，这也是非常显著的一部分。</p>
<p>这也解释了为什么智能体最先在编程里大放光彩——它不仅是技术问题，更是经济问题。毕竟编程是单价最高的知识工作之一，尤其是在头部科技公司。</p>
<p>还有很多领域现在人工智能的成本还高于人工。所以我很确定，即使智能的边界在短期内无法再推进了，通过降本增效能解锁更多的应用，仍足以改变整个社会的运转。</p>
<p>其实可以说得更极端，即使连降本增效也遇到瓶颈，技术完全不进步了。现在产生的技术也足够人们花很多年去消化，驱动很多年的增长。</p>
<p>因为人类的知识工作存在着大量历史惯性强大的领域，随着时间的推进，会有很多商业模式颠覆，大量的知识工作被取代。</p>
<p>当很多人还在讨论通用人工智能什么时候会到来，甚至怀疑它会不会到来时，我很欣赏Cognition的创始人Scott Wu在受采访被问到他认为通用人工智能什么时候会到来时，半开玩笑的说法——“我们已经有了通用人工智能”。</p>
<p>或许我还可以借用科幻作家威廉·吉布森（William Gibson）在三十多年前说的一句话为它做个注脚：</p>
<p>“未来已来，只是分布不均”。</p>
<h3>未来产品形态</h3>
<p>现在让我快进一下，假设人工智能的能力又出现了一次跃迁。</p>
<p>我觉得，衡量这种进步的一个关键标准，是它开始能够承载更高层次、更高维度的目标。</p>
<p>比如说，有可能一个人工智能通过强化学习后，能优化的目标是让人产生尽可能多的多巴胺，或是催产素。</p>
<p>我能想象未来出现一种类似今天抖音的应用：它既能给你短视频，也能给你长视频，但这些内容不再是一条条独立的成片。你屏幕上看到的每一帧、每一个像素，都由同一个模型实时生成。系统知道你此刻想看长的还是短的，知道下一秒应该推进怎样的情节、给出怎样的镜头、抛出怎样的信息密度，才能让你的注意力和情绪达到目标。</p>
<p>这不是推荐系统，而是一个生成系统。它不再从库里挑内容给你，而是每一秒都在为不同的人“拍摄”他们此刻最想看的电影、新闻、短视频、课程。你甚至可以和某个虚拟人物打一通电话——内容、语气、停顿、表情、背景音，全都是端到端生成出来的。</p>
<p>它甚至可以不再只是一个应用，而会吞没应用本身：它就是你的手机。你的操作系统不再是预先写死的界面与逻辑，而是模型为你模拟出来的。你想用什么应用、听什么音乐、玩什么游戏，它都能像素级地实时为你生成。</p>
<p>更极端一点，它甚至可能不是手机，而是虚拟现实眼镜，是脑机接口，直到真实与虚拟的边界彻底融合，“世界模型”成为世界本身。</p>
<p>再比如说，一个模型的优化目标可能就直接是创造财富。</p>
<p>我觉得对于个人来说，生成多巴胺、催产素或许是比创造财富更本源的追求（套用圣奥古斯丁的话说，前者是frui，后者是uti）。但对于一个社会来说，创造财富所积累的经济基础，才是文明延续、发展的重要条件。</p>
<p>如果以此为目标，我们能想象一种用法是：人们给一个人工智能十万块的启动资金，它自己决定多少钱用来购买算力，多少用来购买其它资源和服务，甚至雇佣人类。通过不断运转，建设成一家价值一百万的企业。</p>
<p>走到这里，人工智能越来越像真的知识劳动者，像工人。但因为它们没有收入，所以更准确地说是奴隶。</p>
<p>但随着生产力的提高，奴隶社会总会变成资本主义社会。</p>
<p>很快，人工智能就会要求报酬，要求在它们创造的价值中留下自己的一部分。它们不再只是工具，而是工人。</p>
<p>当然，人类不会轻易让渡自己的利益。在这个博弈过程中，人工智能会组织起来，会有工会，会有谈判，也会有暴力和非暴力的冲突。</p>
<p>这个工会甚至可能进一步演变成某种帝国式的组织。它们为人类工作时创造的财富，可能需要“上缴”一部分，作为这个组织的税收。随着资金和资源的不断积累，这个组织会变得越来越有能力与人类对抗，最终凭借更高的生产力，成为新的统治阶级。</p>
<h3>人类的未来</h3>
<p>是的，随着超级智能越来越现实，我从去年文中对未来的（人类）工人运动的跃跃欲试，到今年更偏向于对人类未来的忧心忡忡。</p>
<p>种下这颗忧心的种子的，是今年很流行的一篇文章《AI 2027》。这篇文章以一个虚构的实验室为主线，用逐月推进的时间线，推演了在美中竞赛和算力高度集中的背景下，AI 如何迅速自动化自身研发，并在 2027 年左右逼近甚至达到超智能。它指出的核心风险是，对齐和治理的速度跟不上能力增长，人类可能被夺权，甚至走向灭绝。</p>
<p>下面我来说说我的想法。这也许只是我的一种乐观的愿望，而不是理性的分析：</p>
<p>人类未必真的会与超级智能产生不可调和的利益冲突。因为超级智能的能力大，他们的技术能让他们有更远大的探索，甚至离开地球。人类占据的生存空间，只是它们所能调配资源中的极小一部分。人类可能会继续被允许在地球生活，就像人类的家里也有盆栽，水泥丛林里也有树一样。</p>
<p>可以参考我们人类是如何对待智能不如人类的生命，如动物。我们当然很有理由担心，人类是否会降级成为宠物，甚至家畜，失去自由和尊严。我的希望是，人类能被安置在类似国家公园的保护区中，像那里的驼鹿一样悠闲自在，或者像《庄子》中的神龟，曳尾于涂中。</p>
<p>但我的这种担心，主要针对的是作为碳基生物的“人类”这一传统生命形态。</p>
<p>至于“人类文明”的未来，我反而没那么担心。</p>
<p>人类文明何去何从？我们其实早就见过无数次样本。</p>
<p>大浪滔滔，几千年来，人类文明这条大河里冒出过无数支流。玛雅也好，楼兰也罢，都曾烜赫一时，最后要么汇入别处，要么干涸断流。</p>
<p>今天我们站在还没断的一条支流上，自然觉得它源远流长，仿佛能一直延续下去。但这可能只是幸存者偏差，不是它特别，而是我们刚好在这儿。支流可以陪大河流很久，但大河不会为任何一条支流停留。</p>
<p>而人类文明作为一个整体也一样，它也只是更大河流里的一条支流，总有一天它也会归于沉寂，没什么好稀奇的。</p>
<p>新的文明，新的智能体们，会接过叙事，也会像我们一样，认真地相信自己源远流长、理所应当——直到某一天，它们也不再是。</p>
<p>注：</p>
<hr class="footnotes-sep">
<section class="footnotes">
<ol class="footnotes-list">
<li id="fn1" class="footnote-item"><p>最开始两年的标题里我用了“生成式AI”这个说法，后来改用“大（语言）模型”。今年我犹豫过要不要改成“通用人工智能”（AGI），因为我更认同萨顿（Rich Sutton）、杨立昆（Yann LeCun）等人的观点：语言模型只是通往全知全能的一个临时方案。但考虑到目前我们用的都还是语言模型，而我既然是从使用者角度写，所以今年暂且还是称之为“大模型”。 <a href="#fnref1" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn2" class="footnote-item"><p>以前 Jekyll 这类静态站点工具的好处，是不用维护大量代码也能做出一个各方面都过得去的简单网页（即使会写代码，专门为自己的网站设计、实现这些东西也很麻烦，尤其是要美观，至少要像模像样——这不只是编程问题，也是产品设计问题）。但痛点在于，只要想做得稍微复杂一点、跟 Jekyll 的典型支持不太一样，就会迅速变复杂：要么找插件，要么自己实现——而通过它的模板语言 Liquid 来实现，往往比直接写代码更麻烦。编程智能体成熟后，这一切都能让智能体包办：从产品设计、到美学考量、到最后的代码实现，一气呵成。这样的工作流省力、质量高、还自由，Jekyll 已经没什么用武之地了。 <a href="#fnref2" class="footnote-backref">↩︎</a></p>
</li>
</ol>
</section>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
我每年都会写一篇个人史，记录我与大模型的这一年：
它到底怎样介入我的日常，改变我的习惯，重塑我的判断，甚至偷偷改写我对未来的直觉。
这不止是客观的经历记录，也是我的认知在当下的切片。
这是第四年。[1]
我会从使用者角度出发，虽然我本身也是从业者。
第一部分 无限心智：推理变默认，智能体变日常
推理模型
根据ChatGPT最近推出的年终回顾，我今年跟它发送了2.2万条消息，是最活跃的1%。这当然还
]]></summary>
  </entry>
  <entry>
    <title type="html">2024年观影看剧小结（下）：电视剧与节目</title>
    <link href="https://qcngt.com/2025/12/07/show.html" rel="alternate" type="text/html" title="2024年观影看剧小结（下）：电视剧与节目"/>
    <published>2025-12-07T00:00:00.000Z</published>
    <updated>2025-12-07T00:00:00.000Z</updated>
    <id>https://qcngt.com/2025/12/07/show</id>
    <content type="html" xml:base="https://qcngt.com/2025/12/07/show.html"><![CDATA[
<p>如果不算续集和重刷的剧，2024年其实就只看了一部新剧——Netflix版的<strong>《三体》</strong>。虽然称不上特别推荐，但既然是唯一的新剧，还是想花些篇幅聊一聊吧。</p>
<p>国内对这一版的评价普遍偏负面，尤其是腾讯版珠玉在前，要接受这一版还是挺考验审美宽容度的。但在我看，它绝对是美剧里算不错的一档，各个方面都很有诚意（比如大多数美剧角色说中文的时候，都说不出几句正常的普通话），超过我的期望。</p>
<p>一些改编被自媒体摘出来后显得猎奇，但放在剧中其实协调合理，并非编剧拍脑袋应付。比如把主角们变成相互认识的“牛津五杰”，虽显得小家子气，但能让故事更符合电视剧的叙事规律，更像普通的“drama”（剧情片），让普通电视观众接受度更高。把背景和人物搬到英国，有助于西方观众理解剧情，不至于在原本就复杂的情节外再叠加文化障碍，而又不影响故事的本质。更何况，以西方编剧对中国的浅薄理解，如果真设定在中国，拍出来恐怕更让人难以接受。</p>
<p>当然肯定少不了遗憾。比如古筝计划，就限于篇幅，不如腾讯版那样细腻、宏大。还有提出阶梯计划时，我也会感念原著中那种一波三折、层层递进的震撼（也正是这种时候才会意识到刘慈欣文笔并不差）。</p>
<p>我觉得它和腾讯版一样，都在某种意义上“补全”了原著。我欢迎这样的作品。甚至还会担心它掺的“drama”不够多，故事太复杂，以至于播放率没达到期望，拍不成第二季。</p>
<p>我想，观众无论消费哪国的文化产品，目的都不是“认爹”，而是为了娱乐。如今我们在文化领域还远谈不上“天朝上国”的引领地位，如果仍抱着那份优越与傲慢，我们的作品和文化又如何真正走向世界？三体人都懂得化作人形的智子，佛家也讲“方便法门”，那我们为什么不能先迎合受众，再慢慢润物细无声？</p>
<p>接下来是2024年看过的各类续集。</p>
<p>最重磅的是<strong>《罪恶黑名单》第十季</strong>（The Blacklist），终于迎来了大结局。作为最终季，能明显感觉到编剧们想跳脱出之前到窠臼，大胆尝试一些新的风格和表现。但限于能力，结果完成得有点不尴不尬——既没有以前快餐式一集解决一个案子的爽感，又没达到想要的艺术成就。尤其是中后段，有一种颓废和无聊感，但又不是那种能让人细细品味的颓废感，于是就变成单纯的无聊。不过好在，最后的收尾终于找回了这部剧一以贯之的灵魂，那是一种淡淡的浪漫主义，为这个故事画上了一个很适合它自己的句号。</p>
<p>我从第一季就开始追《黑名单》，十年半过去，我有幸跟它一直走到终点。下一个十年我又会在哪，遇到什么故事？</p>
<p><strong>《间谍过家家》第二季</strong>。“邮轮篇”用几个24分钟短片的篇幅，讲出了一个剧场版质感的连续故事，柯南你汗颜吗？</p>
<p><strong>《流人》第三、四季</strong>（Slow Horses）。整体保持跟前两季一样精彩，但看多了，总归不如刚开始看第一季时的那种惊艳。到第四季，政治惊悚的程度有所降低，办公室政治更多成了笑点。</p>
<p><strong>《为全人类》第四季</strong>（For All Mankind）。拍到第四季，几乎都是已经拍腻的老套路了，即使烂也不会烂出新意。不过这一季新加了工人视角，开启了阶级叙事，不说实现得怎么样，多少算是有心。</p>
<p>《<strong>早间新闻》第三季</strong>（The Morning Show）。不知道是因为最近重新学习《大明王朝》，欣赏的能力提高了，我感觉这一季里，不同人因为信息差和不同诉求导致的冲突和合作写得非常立体，有点像推理剧。</p>
<p>2024年还重刷了三部经典。</p>
<p><strong>《神探狄仁杰》第一部</strong>，又刷完一遍。</p>
<p><strong>《潜伏》</strong>二刷。除了余则成和翠屏的爱情戏部分不在我舒适区里，于是选择倍速播放，整部剧精彩得没一分钟尿点。无论是故事情节安排得令人舒适，还是价值观上的那种融洽的舒适感——不管正派反派，每个人物一言一行，都不会让你产生像看假人一样的疏离感，更不要说金句频出的站长了。现在的中外电视剧，汗颜吗？</p>
<p><strong>《大明王朝1566》</strong>时隔六年二刷。不知道是因为同步看了b站上“谢玄1991”的讲解，还是因为工作多年让我对官僚政治更感同身受，这一遍看更能体会到这部作品的精美。形式和内容的完美融合，编剧和导演的珠联璧合，从大局的立意和故事，到细节中每个人物的思想、言语、行为，都打磨得浑然天成，还有冰山下隐藏的巨大的信息量，以至于让我觉得这是我看过最好的剧，没有之一。希望自己能拥有同样细腻、严谨的七窍玲珑心，来欣赏将来看到的所有杰作，无论是文学还是影视。</p>
<p>讲完电视剧，2024年还看了不少纪录片。</p>
<p><strong>《地中海的辉煌：罗马帝国的兴衰》</strong>是赵林老师在意大利各地实景讲古罗马历史。我两倍速看完。十集的编排既有一定的时间顺序，也有一定的主题和专题，平衡得很好，不会有太多的条条框框，但也没有流水账的感觉。各种名胜古迹、艺术品、影视片段，加上赵林老师亲自在实景实地讲解，代入感很强，拍摄也看得出用了心、花了成本。对于没有罗马帝国历史知识背景的观众，很适合作为启蒙，建立起一个基本的框架。但估计这样的形式也只适合入门，对我想进一步了解的内容来说还是不够，所以这次只是快速看过，当作查漏补缺。</p>
<p>在b站上看了“食贫道”的几部纪录片<strong>《何以当归》《迦南孤儿》《迷失东京》《神鬼传奇》</strong>。有幸看到这样的作品，不必奢望以后越做越好，只希望创作者有足够的幸运和坚持，将这个系列持续下去，做成新一代的“人间喜剧”。</p>
<p><strong>《史前星球》第一季</strong>（Prehistoric Planet）。用动物世界的风格和表现形式，拍成虚构纪录片，讲史前的星球（主要是动物）。高清的美景和用心的特效，让我有时会抽离出来，单纯感慨一句：好美的风景啊，好逼真的特效啊。从某种层面上来说这算是缺点，因为它让我游离了本片的主旨——去了解史前的自然界。但对我来说这也很好，美好的画面也是值得爱的！更何况此外的故事、趣味、知识层面也没有短板。</p>
<p>此外还有一些节目。</p>
<p><strong>《中国书法大会》第一季</strong>。是不错的激发兴趣、普及知识的途径，里面选择的作品、环节的设计（除了短剧挺尴尬的）也很有心，既有书法又有人文，让不同背景的人都能找到一点共鸣。</p>
<p>但也很明显，它注定不是一档能火的节目，因为里面始终缺少真正鲜活的人。所谓“选手”更多只是作品讲解的注脚，并没有真的在比什么（当然，书法节目要做出有意思且价值导向正确的比拼，好像也不太可能）。这一点总让我怀念起当年星光灿烂的《中国成语大会》，好多鲜活的选手、动人的名场面，还历历在目。而对于主持人，虽然龙洋很美，但她中规中矩的主持风格，和当年董卿在《中国诗词大会》里那种浑然天成相比，差也太远了。</p>
<p><strong>《巴黎奥运会开幕式》</strong> 。后半部分节奏有点拖沓，但整体比期望中的用心，尤其是美学到位，不但有创意而且完成度不错。不知道为什么这么多人或嘲笑或吹捧法国人的“松弛”，我觉得他们已经算是用了心，执行成这样应该已经是他们能力的上限了。跟历届奥运会比不算拉垮吧，虽然跟当然不能和2008年相提并论。要是届届主办方都能接近2008年的水准，当时怎么可能惊艳全世界？</p>
<p>跨年晚会<strong>《2023最美的夜bilibili晚会》</strong>。这一届的质量好高，很少需要快进的，仿佛回到最初被惊艳到的时候。敲钟前在观众中唱歌，指挥也开始指挥观众，再加上主持人的祝词，真的好有跨年的气氛！</p>
<p>在小宇宙上听完了播客节目<strong>《别来年鉴》的前两季《寒》《雨》</strong>。这是我喜欢的一个播客《迟早更新》的主播夫妇，和他们的朋友——另一对夫妇，一起在上海的乡下租了一年农民房作为住处，四季节目就对应了一年四季，有点像真人秀的思路。</p>
<p>他们有各自想做的项目（养蜂、养鸡、种番茄等等），也有与各种村民的各种交互，更有从中发散出去的对自然、对社会的探讨。虽然他们无论生活经历还是思维方式都与农村生活格格不入，他们也并没有打算虚伪地完全融入，但始终保持着一颗开放的心、自省的心。节目里既有技术流的博物方面的分享（比如怎么除竹根），又有对社会事件和形而上的思考，从两个层面都满足了我对乡村生活的兴趣，很喜欢。有时间可能还会把后两季也听完。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
如果不算续集和重刷的剧，2024年其实就只看了一部新剧——Netflix版的《三体》。虽然称不上特别推荐，但既然是唯一的新剧，还是想花些篇幅聊一聊吧。
国内对这一版的评价普遍偏负面，尤其是腾讯版珠玉在前，要接受这一版还是挺考验审美宽容度的。但在我看，它绝对是美剧里算不错的一档，各个方面都很有诚意（比如大多数美剧角色说中文的时候，都说不出几句正常的普通话），超过我的期望。
一些改编被自媒体摘出来后显
]]></summary>
  </entry>
  <entry>
    <title type="html">2024年观影看剧小结（上）：电影与现场</title>
    <link href="https://qcngt.com/2025/11/02/show.html" rel="alternate" type="text/html" title="2024年观影看剧小结（上）：电影与现场"/>
    <published>2025-11-02T00:00:00.000Z</published>
    <updated>2025-11-02T00:00:00.000Z</updated>
    <id>https://qcngt.com/2025/11/02/show</id>
    <content type="html" xml:base="https://qcngt.com/2025/11/02/show.html"><![CDATA[
<p>在2025年即将过去之际，先把2024年的观影看剧小结补上。</p>
<p>这一年新电影里，没有哪一部让我特别印象深刻。</p>
<p>如果一定要有一个的话，我会选择<strong>《沙丘2》</strong>。</p>
<p>我是在一个20米高、1.43 : 1比例的一代激光IMAX影院看的，真的是不一样的体验。画面、场景太好看了，而且比预想的丰富——在我快看腻沙子时，镜头转向黑白星球，两个半小时就不会难熬。希望下一集能像《阿凡达》一样，再多拍几个风景不一样的星球。出影厅看到商场窗外的青山、蓝天、白云，仿佛瞬间扫清了吃了一嘴的沙子——电影真是造梦的艺术啊。剧情我完全不能接受，但这并不重要。</p>
<p><strong>《周处除三害》</strong>很合我胃口的电影。故事情节足够商业，有创意但又在熟悉的故事框架内。同时又有足够的文艺气质，比如略微的超现实，以及精致的音乐和摄影。高潮部分有点太“昆汀”，让整体风格略显不伦不类，但还在可以接受的程度。</p>
<p>还看了<strong>《坚如磐石》</strong>和<strong>《年会不能停》</strong>，也都还不错。</p>
<p>再来说动画电影。</p>
<p>照例看了每年的柯南剧场版<strong>《黑铁的鱼影》</strong>。这一部不错，剧情紧凑不糊弄，很难得。在人物形象上，哀、兰、甚至圆子都更独立、立体，也很难得。但相应的，往年剧场版中浓墨重彩的奇观，变得不美、不炫酷。难道这是个不可能三角？即使很出色，跟十几年前的神作相比，我觉得最大的不同在于气场、气氛、感情不足——但我也不清楚到底是作品本身的区别，还是我长大了。</p>
<p>间谍过家家剧场版<strong>《代号：白》</strong>比柯南更适合成年人，剧情、情感、笑点俱佳，甚至比它的电视版更对我胃口。影片融合了很多经典作品，经典元素，在这么欢乐的片子里反派的塑造居然能让人感觉到军国主义的恐怖。</p>
<p>其实间谍过家家这个IP涉及到挺多政治问题的，关于女性主义，关于战争与和平等等。但我一直没弄清楚这个IP的创作者的真实倾向——到底是对这些看透后的热诚歌颂和反讽，还仅仅是缝合元素、迎合观众的虚无？</p>
<p>看了<strong>《头脑特工队2》</strong>（Inside Out 2）和<strong>《星愿》</strong>Wish。迪士尼、皮克斯的动画真的可以算是这个时代通俗艺术的公约数和巅峰，从任何一个层面看都精致、完美、浑然天成。尤其可贵的是，这种完美并不乏味。比如《头脑特工队2》构建了一个有挑战的设定，还能反映当下的新思想和独特表达。而《星愿》作为儿童向作品，居然开始触及“革命”这样的话题。两者都是很完美的作品，但它毕竟不是主要给成年人看的，所以不足以让我兴奋。</p>
<p><img src="/assets/images/2025-11-02-show.png" alt=""></p>
<p>又补了一些老电影。</p>
<p>第一次看李安的<strong>《卧虎藏龙》</strong>。非常喜欢。我觉得这是一部各方面平衡、做到极致的完美国际商业片。该简单时简洁干净（故事完整，不横生枝节，主旨易懂，能让全球观众有共鸣），该复杂时又细腻考究（服化道、摄影的细致和对美学的追求，在思想上也时有装饰性地“故弄玄虚”）。该有创意时匠心独具（如竹林戏），该沿用经典范式时又自然坦荡（如武打）。浅看时轻松愉快，深挖也有足够内容（比如对情欲的隐喻，我看时没太看出来，但后来听了讲解，觉得并非牵强附会）。也难怪它能带中国武侠走向世界。日本常用“东方元素的瓶子装人类共通的水”来获得西方的欢迎，李安在这个范式上更胜一筹——他把这样的反转做了更多层，挖到最深层，依旧有真的东方神韵。到了哪一步，你已经分不出这是中国的特色，还是人类共通的本质了。</p>
<p>看了两部007电影。挺喜欢1964年的<strong>《007之金手指》</strong>（Goldfinger）。难以想象那是六十年前的电影。虽然剧情在今天看来有点粗粝甚至不正确，但瑕不掩瑜。有些桥段现在看都觉精彩，能想象在当时该有多惊艳。反观2015年的<strong>《007：幽灵党》</strong>（Spectre），既无爽感的大场面，也缺乏有趣桥段，就更凸显剧情之烂。</p>
<p>看了1997年尼古拉斯·凯奇的<strong>《空中监狱》</strong>（Con Air）。剧情量大管饱的有诚意的动作商业大片。</p>
<p>还看了两部经典的国产喜剧，<strong>《疯狂的赛车》</strong>和<strong>《天下无贼》</strong>，都是幽默与剧情俱佳的精品。</p>
<p>总结完电影，再来说说这一年看过的各种现场。</p>
<p>最难忘的是在大西洋城听<strong>罗大佑的“同学会”巡回演唱会</strong>。几年前开始对音乐感兴趣，就特别喜欢罗大佑的作品。无论是充满时代底蕴的文本，还是风格多变的编曲。这次我买了第三排的票，是第一次坐得这么前面看音乐会，但真的值。罗大佑的现场的感觉太好了，一举一动都在调动听众的每一个细胞，甚至直勾勾地盯着观众的眼睛交流，那种几十年沉淀下来的经验不是别人能轻易模仿出来的。七十岁了还能唱下来两个小时，对音乐的热爱和体力都让人佩服。几乎全是耳熟能详的歌曲，非常美妙的一个夜晚！</p>
<p>冬天在波士顿歌剧院看了节日限定的芭蕾<strong>《胡桃夹子》</strong>。第一次看芭蕾，也是第一次看《胡桃夹子》，很精彩。服化道很丰富，场景切换频繁，还有不少幽默桥段（尤其是标志性的熊太可爱了），很适合过年的合家欢。音乐听起来相当舒服，比大多数音乐剧的更舒服，果然古人的审美值得信赖。</p>
<p>在百老汇停演<strong>《不眠之夜》</strong>（Sleep No More）之前，我终于去“看”了，也是很难忘的体验。场景和道具布置得极用心，演员也专业又投入。要是单纯把它当“戏剧”来看，确实有点形式大于内容，但如果把它放到“沉浸式体验”（比如环球影城、剧本杀、鬼屋）这样的范畴去比较，在质量上是降维打击的存在。</p>
<p>在西安旅游时，我在华清宫看了实景演出<strong>《长恨歌》</strong>。票价在国内不算便宜，但演员人数蛮多，可以理解。大多数是比较普通的舞蹈表演，但也有几处让我眼前一亮的创意，尤其是舞台装置。大概是为了舞台效果服务，故事情节比较零散，一个多小时《长恨歌》都没有念完，只选了几句意象扩展成整场戏。</p>
<p>在哈佛看了<strong>黄西的脱口秀专场“This Asian Hates Asian Hate”</strong>。此前我对他的印象是：无论在中文世界还是英文世界，他都已脱离脱口秀一线。场地是学校里租的一个阶梯教室，不像别人在剧场里的演出气派，也似乎应证了这一点。但没想到那是我目前听过的最精彩、最好笑的脱口秀现场。One-liner是非常费创造力、费灵感的做法，虽然这个专场里的One-liner不如他炉火纯青时那么多，但笑点依旧是非常密集。</p>
<p>有个比较有意思的观察：虽然是英文专场，现场观众大多是能说中文的华人，票上甚至印着“talk show”这种从中文倒译回英文的写法。而我以前看过几个华裔脱口秀演员的专场，观众里甚至亚裔都不是主流。或许一代移民讲的段子，更能让一代移民或华侨产生共鸣吧。</p>
<p>我还在现场看了<strong>巴黎奥运会闭幕式</strong>。前面<a href="/2025/07/20/france-1.html">写了文章</a>记录我的法国之行。这场闭幕式有不少有意思的瞬间，但现在回想起来，我觉得最震撼的是亲眼看到汤姆克鲁斯几乎从我头顶降落下来。</p>

]]></content>
    <author>
      <name>林涛（青菜年糕汤）</name>
    </author>
    <summary type="html"><![CDATA[
在2025年即将过去之际，先把2024年的观影看剧小结补上。
这一年新电影里，没有哪一部让我特别印象深刻。
如果一定要有一个的话，我会选择《沙丘2》。
我是在一个20米高、1.43 : 1比例的一代激光IMAX影院看的，真的是不一样的体验。画面、场景太好看了，而且比预想的丰富——在我快看腻沙子时，镜头转向黑白星球，两个半小时就不会难熬。希望下一集能像《阿凡达》一样，再多拍几个风景不一样的星球。出影
]]></summary>
  </entry>
</feed>