2025 年 LLM 年度回顾
2025 LLM Year in Review
概览
2025 年对大语言模型(LLM)而言是进展强劲且事件密集的一年。下面列出了一些我个人认为值得注意、且略带意外的“范式变化”——它们改变了行业版图,并在概念层面对我格外突出。
1. 可验证奖励的强化学习(RLVR)
在 2025 年初,各家实验室的 LLM 生产训练栈大致是这样的:
- 预训练(pretraining,类似 2020 年的 GPT‑2/3)
- 监督微调(Supervised Finetuning, SFT,类似 2022 年的 InstructGPT)
- 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF,类似 2022 年)
这在一段时间里是训练“可用于生产”的 LLM 的稳定且行之有效的配方。到了 2025 年,可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)成为事实上的一个新核心阶段,被加入到这套配方中。
通过在多个环境中,让 LLM 针对“可自动验证”的奖励信号进行训练(例如数学/代码类谜题),LLM 会自发发展出一系列在人类看来像是在“推理”的策略:它们学会把问题拆解为中间计算步骤,也学会多种来回尝试、逐步定位答案的解题策略(示例可见 DeepSeek R1 论文)。在以往范式中,这类策略会很难得到,因为我们并不清楚对 LLM 而言“最优的推理轨迹与纠错恢复”应该长什么样——它必须通过对奖励进行优化,自行找到对它有效的方式。
与 SFT 和 RLHF 这两段相对“薄/短”(从计算角度看是较小的微调)不同,RLVR 是在客观(不可被投机/钻空子)的奖励函数上进行训练,因此允许更长时间的优化。实践中,运行 RLVR 被证明具有很高的“能力/成本”比(capability per dollar),从而吞噬了原本计划用于预训练的算力预算。因此,2025 年的大部分能力进展,来自各家 LLM 实验室消化这一新阶段的“算力积压红利”:我们看到模型规模大体相近,但强化学习(RL)训练的运行时间显著拉长。
这一阶段还带来了一个新的调节旋钮(以及与之相伴的缩放规律):通过生成更长的推理轨迹、增加“思考时间”,我们可以把能力与测试时计算量直接关联起来并进行调节。OpenAI o1(2024 年末)是 RLVR 模型的首次展示,而 o3(2025 年初)的发布则是明显的拐点——你能够直观地感受到差异。
2. 幽灵与动物 / 锯齿状智能
2025 年是我(我想整个行业也差不多)第一次以更直觉的方式真正“内化”LLM 智能的形状的一年。我们不是在“进化/培育动物”,而是在“召唤幽灵”。LLM 训练栈的一切都不同(神经网络架构、训练数据、训练算法,尤其是优化压力),因此我们得到的是智能空间中非常不同的实体,用“动物”的视角去理解它们并不合适。
从监督信号(bits)层面看,人类的神经网络是为“丛林里部落的生存”而优化;而 LLM 的神经网络是为“模仿人类文本”“在数学谜题里收集奖励”“在 LM Arena 上获得人类点赞”等目标而优化。随着可验证领域使得 RLVR 成为可能,LLM 会在这些领域附近出现能力“尖峰”,并呈现出令人发笑的锯齿状表现:它们可以同时既是博学的天才多面手,又是困惑且认知能力受限的小学生;而且距离被一次越狱(jailbreak)诱骗、进而把你的数据外泄,可能只差几秒钟。
与此相关的,是我在 2025 年对基准测试的普遍冷淡与信任流失。核心问题在于:基准几乎在定义上就是“可验证环境”,因此会立刻受到 RLVR 的影响,也会受到通过合成数据生成等更弱形式的影响。在典型的“刷榜(benchmaxxing)”过程中,LLM 实验室的团队不可避免地会围绕基准所在的嵌入空间的小口袋,构造相邻环境,并把“锯齿”长出来覆盖它们。在测试集上训练,正在成为一种新的艺术形式。
把所有基准都碾压了,但仍然得不到 AGI,会是什么样子?
我在下面这些文章里更深入地讨论过本节主题:
3. Cursor / 新一层 LLM 应用
我认为 Cursor 最值得注意之处(除了它今年的爆发式增长)在于:它令人信服地揭示了“LLM 应用(LLM app)”的一层新形态——人们开始讨论“X 领域的 Cursor”。正如我在今年的 Y Combinator 演讲里强调的那样(文字稿与 视频),像 Cursor 这样的 LLM 应用会面向特定垂直领域,把 LLM 调用打包并进行编排:
- 负责“上下文工程(context engineering)”
- 在后台把多次 LLM 调用串成越来越复杂的 DAG,并谨慎权衡性能与成本
- 为人类在环(human in the loop)提供应用特定的 GUI
- 提供“自主性滑杆(autonomy slider)”
2025 年关于这层新应用层到底有多“厚”有很多争论:LLM 实验室会捕获所有应用吗?还是 LLM 应用仍有广阔空间?我个人倾向于认为:LLM 实验室会把“通用能力较强的大学生”培养毕业;而 LLM 应用则会把这类“大学生”组织起来、进行微调,并通过注入私有数据、传感器与执行器、以及反馈回路,把它们真正“动画化”为能在具体垂直领域落地部署的专业团队。
4. Claude Code / 住在你电脑里的 AI
Claude Code(CC)是我今年看到的第一个令人信服的例子,展示了 LLM 智能体(LLM Agent)到底长什么样:它以一种带循环的方式,把工具使用与推理串联起来,从而进行长程问题求解。对我而言,CC 还有一个关键特点:它运行在你的电脑上,能够直接使用你私有的环境、数据与上下文。
我认为 OpenAI 在这一点上走了弯路:他们早期的 codex/agent 更偏向云端容器部署、从 ChatGPT 编排,而不是简单地跑在 localhost 上。尽管“云端运行的智能体蜂群”听起来更像“AGI 终局”,但在我们所处的这个能力锯齿且起飞速度足够慢的中间阶段,把智能体直接运行在开发者电脑上更合理。
需要强调的是,真正关键的差异并不在于“AI 计算”究竟跑在云端还是本地,而在于所有其他因素:那台已经存在并启动的电脑、它的安装环境、上下文、数据、密钥与秘密、配置,以及低延迟的人机交互。Anthropic 把优先级顺序做对了,并把 CC 封装成一个令人愉悦、极简的 CLI 形态,从而改变了 AI 应用应该是什么样:它不再只是你像 Google 一样去访问的网站,而是一个“住在你电脑里”的小精灵/幽灵。这是一种全新的、不同于以往的人机交互范式。
5. 氛围编程(Vibe coding)
2025 年,AI 跨过了一个能力阈值:仅凭英文(自然语言)就能构建各种令人印象深刻的程序,你甚至会忘记“代码”本身的存在。有趣的是,我在这条“想到哪写到哪”的推文里提出了 “vibe coding” 这个词(原推),完全没意识到它会传播到什么程度。
在氛围编程下,编程不再严格地只属于受过高度训练的专业人士——任何人都可以做。某种意义上,这又一次印证了我在《Power to the people: How LLMs flip the script on technology diffusion》里写过的观点:与此前几乎所有技术都相反,普通人从 LLM 中获得的收益,远大于专业人士、公司与政府。
但氛围编程不仅赋能普通人“接近”编程,也会赋能专业人士写出大量原本根本不会被写出来的(氛围编程式)软件。在 nanochat 里,我用氛围编程写了一个自定义的、高效的 Rust BPE 分词器,而不必采用现成库或把 Rust 学到那个层级。今年我还用氛围编程做了不少项目,把我希望存在的东西快速写成小应用/演示(例如 menugen、llm-council、reader3、HN time capsule)。
我甚至会为了定位一个 bug 而写出整个一次性的临时小应用——为什么不呢?代码突然变得“免费”、短暂(ephemeral)、可塑、用完即弃。氛围编程将重塑软件地貌,并改变岗位职责的定义。
6. Nano banana / LLM GUI
Google Gemini Nano banana 是 2025 年最令人难以置信、最具范式冲击力的模型之一。在我的世界观里,LLM 是下一个重要的计算范式,类似于 1970、80 年代的计算机革命。因此,我们会因为本质上相似的原因,看到一系列相似类型的创新:个人计算的对应物、微控制器的对应物(认知核心,cognitive core)、互联网的对应物(智能体之网,internet of agents),等等。
尤其在 UI/UX 层面,与 LLM “聊天”有点像 1980 年代在计算机终端里敲命令:文本是计算机(也包括 LLM)偏好的原始数据表示,但它并不是人类偏好的信息形态,尤其不是输入侧。人们其实并不喜欢阅读文本——慢且费力。相反,人们更喜欢以视觉与空间方式消费信息,这也是传统计算中 GUI 被发明出来的原因。
同样地,LLM 也应该用我们偏好的格式与我们交流——图像、信息图、幻灯片、白板、动画/视频、Web 应用等。早期的、当下版本的雏形当然包括 emoji 与 Markdown:它们用标题、加粗、斜体、列表、表格等方式,把文本“打扮”成更易消费的视觉布局。但真正的 LLM GUI 会由谁来构建?在这一世界观下,nano banana 是一个早期信号,提示它可能会是什么样子。更重要的一点是:它不仅仅关乎图像生成本身,而是来自文本生成、图像生成与世界知识共同构成的联合能力——它们都纠缠在同一套模型权重之中。
TL;DR
TL;DR。2025 年是一个令人兴奋、且略带意外的 LLM 之年。LLM 正在成为一种新型智能:它们同时比我预期的要聪明得多,也比我预期的要愚蠢得多。无论如何,它们极其有用;即便以当下能力水平来看,我也认为整个行业甚至还没有实现其潜力的 10%。与此同时,还有太多想法值得尝试——从概念上看,这个领域仍然是一片广阔的开放空间。
正如我今年早些时候在 Dwarkesh 播客里提到的那样:我同时(表面上看似乎有点矛盾地)相信我们会继续看到快速而持续的进步,并且仍然有大量工作需要完成。系好安全带。