2025 年 LLM 年度回顾

2025 LLM Year in Review

Andrej Karpathy · karpathy.bearblog.dev · 2025-12-20

作者

Andrej Karpathy

原文链接：karpathy.bearblog.dev/year-in-review-2025/

概览

2025 年对大语言模型（LLM）而言是进展强劲且事件密集的一年。下面列出了一些我个人认为值得注意、且略带意外的“范式变化”——它们改变了行业版图，并在概念层面对我格外突出。

1. 可验证奖励的强化学习（RLVR）

在 2025 年初，各家实验室的 LLM 生产训练栈大致是这样的：

预训练（pretraining，类似 2020 年的 GPT‑2/3）
监督微调（Supervised Finetuning, SFT，类似 2022 年的 InstructGPT）
基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF，类似 2022 年）

这在一段时间里是训练“可用于生产”的 LLM 的稳定且行之有效的配方。到了 2025 年，可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards, RLVR）成为事实上的一个新核心阶段，被加入到这套配方中。

通过在多个环境中，让 LLM 针对“可自动验证”的奖励信号进行训练（例如数学/代码类谜题），LLM 会自发发展出一系列在人类看来像是在“推理”的策略：它们学会把问题拆解为中间计算步骤，也学会多种来回尝试、逐步定位答案的解题策略（示例可见 DeepSeek R1 论文）。在以往范式中，这类策略会很难得到，因为我们并不清楚对 LLM 而言“最优的推理轨迹与纠错恢复”应该长什么样——它必须通过对奖励进行优化，自行找到对它有效的方式。

与 SFT 和 RLHF 这两段相对“薄/短”（从计算角度看是较小的微调）不同，RLVR 是在客观（不可被投机/钻空子）的奖励函数上进行训练，因此允许更长时间的优化。实践中，运行 RLVR 被证明具有很高的“能力/成本”比（capability per dollar），从而吞噬了原本计划用于预训练的算力预算。因此，2025 年的大部分能力进展，来自各家 LLM 实验室消化这一新阶段的“算力积压红利”：我们看到模型规模大体相近，但强化学习（RL）训练的运行时间显著拉长。

这一阶段还带来了一个新的调节旋钮（以及与之相伴的缩放规律）：通过生成更长的推理轨迹、增加“思考时间”，我们可以把能力与测试时计算量直接关联起来并进行调节。OpenAI o1（2024 年末）是 RLVR 模型的首次展示，而 o3（2025 年初）的发布则是明显的拐点——你能够直观地感受到差异。

2. 幽灵与动物 / 锯齿状智能

2025 年是我（我想整个行业也差不多）第一次以更直觉的方式真正“内化”LLM 智能的形状的一年。我们不是在“进化/培育动物”，而是在“召唤幽灵”。LLM 训练栈的一切都不同（神经网络架构、训练数据、训练算法，尤其是优化压力），因此我们得到的是智能空间中非常不同的实体，用“动物”的视角去理解它们并不合适。

从监督信号（bits）层面看，人类的神经网络是为“丛林里部落的生存”而优化；而 LLM 的神经网络是为“模仿人类文本”“在数学谜题里收集奖励”“在 LM Arena 上获得人类点赞”等目标而优化。随着可验证领域使得 RLVR 成为可能，LLM 会在这些领域附近出现能力“尖峰”，并呈现出令人发笑的锯齿状表现：它们可以同时既是博学的天才多面手，又是困惑且认知能力受限的小学生；而且距离被一次越狱（jailbreak）诱骗、进而把你的数据外泄，可能只差几秒钟。

（人类智能：蓝色；AI 智能：红色。我很喜欢这个 meme 的版本——抱歉我丢失了它在 X 上的原始出处——它指出：人类智能也同样是“锯齿状”的，只是锯齿的形状不同。）

与此相关的，是我在 2025 年对基准测试的普遍冷淡与信任流失。核心问题在于：基准几乎在定义上就是“可验证环境”，因此会立刻受到 RLVR 的影响，也会受到通过合成数据生成等更弱形式的影响。在典型的“刷榜（benchmaxxing）”过程中，LLM 实验室的团队不可避免地会围绕基准所在的嵌入空间的小口袋，构造相邻环境，并把“锯齿”长出来覆盖它们。在测试集上训练，正在成为一种新的艺术形式。

把所有基准都碾压了，但仍然得不到 AGI，会是什么样子？

我在下面这些文章里更深入地讨论过本节主题：

3. Cursor / 新一层 LLM 应用

我认为 Cursor 最值得注意之处（除了它今年的爆发式增长）在于：它令人信服地揭示了“LLM 应用（LLM app）”的一层新形态——人们开始讨论“X 领域的 Cursor”。正如我在今年的 Y Combinator 演讲里强调的那样（文字稿与视频），像 Cursor 这样的 LLM 应用会面向特定垂直领域，把 LLM 调用打包并进行编排：

负责“上下文工程（context engineering）”
在后台把多次 LLM 调用串成越来越复杂的 DAG，并谨慎权衡性能与成本
为人类在环（human in the loop）提供应用特定的 GUI
提供“自主性滑杆（autonomy slider）”

2025 年关于这层新应用层到底有多“厚”有很多争论：LLM 实验室会捕获所有应用吗？还是 LLM 应用仍有广阔空间？我个人倾向于认为：LLM 实验室会把“通用能力较强的大学生”培养毕业；而 LLM 应用则会把这类“大学生”组织起来、进行微调，并通过注入私有数据、传感器与执行器、以及反馈回路，把它们真正“动画化”为能在具体垂直领域落地部署的专业团队。

4. Claude Code / 住在你电脑里的 AI

Claude Code（CC）是我今年看到的第一个令人信服的例子，展示了 LLM 智能体（LLM Agent）到底长什么样：它以一种带循环的方式，把工具使用与推理串联起来，从而进行长程问题求解。对我而言，CC 还有一个关键特点：它运行在你的电脑上，能够直接使用你私有的环境、数据与上下文。

我认为 OpenAI 在这一点上走了弯路：他们早期的 codex/agent 更偏向云端容器部署、从 ChatGPT 编排，而不是简单地跑在 localhost 上。尽管“云端运行的智能体蜂群”听起来更像“AGI 终局”，但在我们所处的这个能力锯齿且起飞速度足够慢的中间阶段，把智能体直接运行在开发者电脑上更合理。

需要强调的是，真正关键的差异并不在于“AI 计算”究竟跑在云端还是本地，而在于所有其他因素：那台已经存在并启动的电脑、它的安装环境、上下文、数据、密钥与秘密、配置，以及低延迟的人机交互。Anthropic 把优先级顺序做对了，并把 CC 封装成一个令人愉悦、极简的 CLI 形态，从而改变了 AI 应用应该是什么样：它不再只是你像 Google 一样去访问的网站，而是一个“住在你电脑里”的小精灵/幽灵。这是一种全新的、不同于以往的人机交互范式。

5. 氛围编程（Vibe coding）

2025 年，AI 跨过了一个能力阈值：仅凭英文（自然语言）就能构建各种令人印象深刻的程序，你甚至会忘记“代码”本身的存在。有趣的是，我在这条“想到哪写到哪”的推文里提出了 “vibe coding” 这个词（原推），完全没意识到它会传播到什么程度。

在氛围编程下，编程不再严格地只属于受过高度训练的专业人士——任何人都可以做。某种意义上，这又一次印证了我在《Power to the people: How LLMs flip the script on technology diffusion》里写过的观点：与此前几乎所有技术都相反，普通人从 LLM 中获得的收益，远大于专业人士、公司与政府。

但氛围编程不仅赋能普通人“接近”编程，也会赋能专业人士写出大量原本根本不会被写出来的（氛围编程式）软件。在 nanochat 里，我用氛围编程写了一个自定义的、高效的 Rust BPE 分词器，而不必采用现成库或把 Rust 学到那个层级。今年我还用氛围编程做了不少项目，把我希望存在的东西快速写成小应用/演示（例如 menugen、llm-council、reader3、HN time capsule）。

我甚至会为了定位一个 bug 而写出整个一次性的临时小应用——为什么不呢？代码突然变得“免费”、短暂（ephemeral）、可塑、用完即弃。氛围编程将重塑软件地貌，并改变岗位职责的定义。

6. Nano banana / LLM GUI

Google Gemini Nano banana 是 2025 年最令人难以置信、最具范式冲击力的模型之一。在我的世界观里，LLM 是下一个重要的计算范式，类似于 1970、80 年代的计算机革命。因此，我们会因为本质上相似的原因，看到一系列相似类型的创新：个人计算的对应物、微控制器的对应物（认知核心，cognitive core）、互联网的对应物（智能体之网，internet of agents），等等。

尤其在 UI/UX 层面，与 LLM “聊天”有点像 1980 年代在计算机终端里敲命令：文本是计算机（也包括 LLM）偏好的原始数据表示，但它并不是人类偏好的信息形态，尤其不是输入侧。人们其实并不喜欢阅读文本——慢且费力。相反，人们更喜欢以视觉与空间方式消费信息，这也是传统计算中 GUI 被发明出来的原因。

同样地，LLM 也应该用我们偏好的格式与我们交流——图像、信息图、幻灯片、白板、动画/视频、Web 应用等。早期的、当下版本的雏形当然包括 emoji 与 Markdown：它们用标题、加粗、斜体、列表、表格等方式，把文本“打扮”成更易消费的视觉布局。但真正的 LLM GUI 会由谁来构建？在这一世界观下，nano banana 是一个早期信号，提示它可能会是什么样子。更重要的一点是：它不仅仅关乎图像生成本身，而是来自文本生成、图像生成与世界知识共同构成的联合能力——它们都纠缠在同一套模型权重之中。

TL;DR

TL;DR。2025 年是一个令人兴奋、且略带意外的 LLM 之年。LLM 正在成为一种新型智能：它们同时比我预期的要聪明得多，也比我预期的要愚蠢得多。无论如何，它们极其有用；即便以当下能力水平来看，我也认为整个行业甚至还没有实现其潜力的 10%。与此同时，还有太多想法值得尝试——从概念上看，这个领域仍然是一片广阔的开放空间。

正如我今年早些时候在 Dwarkesh 播客里提到的那样：我同时（表面上看似乎有点矛盾地）相信我们会继续看到快速而持续的进步，并且仍然有大量工作需要完成。系好安全带。