AI 现状:基于 OpenRouter 的一百万亿 Token 实证研究
摘要
过去一年,大语言模型(LLM)的演化及其在现实世界中的使用方式发生了关键转折。随着 2024 年 12 月 5 日首个被广泛采用的推理模型 o1 发布,领域的重心从单次前向的模式生成转向多步审慎推理式推断,加速了模型部署、实验以及新型应用的涌现。随着这一转变快速推进,我们对这些模型在实际场景中究竟如何被使用的经验性理解却明显滞后。本文基于 OpenRouter 平台——一个面向多种 LLM 的 AI 推理服务提供商——对超过一百万亿个 token 的真实 LLM 交互数据进行分析,覆盖不同任务、地理区域和时间维度。
我们的实证研究表明:开源权重模型被广泛采用;创意角色扮演(而不仅仅是多数人以为占主导地位的生产力任务)以及代码辅助等类别异常受欢迎;同时,智能体式推理的使用正在兴起。此外,我们的留存分析识别出所谓的「基石」用户群:这些早期用户的持续参与时间远远长于后续加入的群体。我们将这一现象称为「灰姑娘水晶鞋效应」。
这些发现表明,开发者和终端用户在真实世界中与 LLM 交互的方式高度复杂且多维。我们进一步讨论了这一结果对模型构建者、AI 开发者和基础设施提供商的启示,并说明对使用行为的数据驱动理解如何反过来指导更优的 LLM 设计与部署。
1. 引言
就在一年前,大语言模型的整体格局还截然不同。在 2024 年底之前,最先进的系统几乎都由单次前向的自回归预测模型主导,其目标是优化对文本序列的续写。多个前驱工作尝试通过更强的指令跟随能力和工具使用来近似实现推理。例如,Anthropic 的 Sonnet 2.1 与 3 模型在复杂工具使用和检索增强生成(RAG)方面表现出色;Cohere 的 Command R 模型则在内部引入了结构化的工具规划 token。与此同时,诸如 Reflection 等开源项目在训练过程中探索了有监督的思维链和自我批判循环。尽管这些先进技术能够生成类似推理的输出并显著提升指令跟随能力,但其核心推断过程仍然基于单次前向传递,输出的是从数据中学习到的表层轨迹,而非真正进行迭代式的内部计算。
这一范式在 2024 年 12 月 5 日发生了演变,当时 OpenAI 发布了其首个完整版本的 o1 推理模型(代号 Strawberry)。2024 年 9 月 12 日发布的预览版已经显示出其背离传统自回归推断路径的迹象。与以往系统不同,o1 在推理时采用了扩展的计算过程,在生成最终输出之前,会在内部执行多步审慎推理、潜在规划以及迭代式改进。从经验结果来看,这带来了在数学推理、逻辑一致性以及多步决策方面的系统性提升,标志着从「模式补全」向「结构化内部认知」的转变。
回过头看,去年可以被视为该领域真正的拐点:先前的方法大多只是对「推理」做出姿态,而 o1 则首次在大规模部署的架构中,通过有意识的多阶段计算来真正执行推理,而不仅仅是对推理过程的描述。
尽管 LLM 能力的最新进展已被广泛记录,但关于这些模型在实践中究竟如何被使用的系统性证据仍然十分有限。现有研究往往侧重于定性的演示示例或基准测试表现,而非大规模的行为数据。为弥补这一空白,我们利用 OpenRouter 平台上的一百万亿 token 数据集展开实证研究。OpenRouter 是一个面向多种 LLM 的 AI 推理平台,充当各类 LLM 查询的汇聚中枢。
OpenRouter 的独特视角为我们提供了一扇观察细粒度使用模式的窗口。由于它同时调度跨越多种模型的请求(涵盖闭源 API 与开源权重部署),OpenRouter 能够捕捉到开发者与终端用户在实际场景中如何调用语言模型的代表性样本。通过分析这一丰富数据集,我们可以观察到:哪些模型被用于哪些任务、使用量如何随地理区域和时间变化,以及定价或新模型发布等外部因素如何影响用户行为。
本文的研究借鉴了此前关于 AI 采纳的实证研究,包括 Anthropic 的经济影响与使用分析以及 OpenAI 的《人们如何使用 ChatGPT》报告,旨在进行中立且以证据为导向的讨论。我们首先描述数据集与方法论,包括如何对任务和模型进行分类;随后深入一系列分析,以揭示使用行为的不同侧面:
- 开源 vs 闭源模型:考察开源模型相对于专有模型的采纳模式,识别趋势并梳理开源生态中的关键参与者。
- 智能体式推理:探究多步、工具辅助推理模式的兴起,捕捉用户如何越来越多地将模型作为更大自动化系统的组件。
- 类别分类体系:按任务类别(如编程、角色扮演、翻译等)拆分使用情况,揭示哪些应用领域驱动了最多的活动。
- 地理分布:分析全球使用模式,比较各大洲的 LLM 采纳情况。
- 有效成本与使用动态:评估使用量与有效成本之间的对应关系,捕捉实践中 LLM 采纳的经济敏感性。
- 留存模式:分析使用量最高模型的长期留存情况,识别定义了持久、高黏性行为的「基石用户群」——我们称之为「灰姑娘水晶鞋效应」。
最后,我们讨论这些发现对真实世界 LLM 使用的启示,重点阐述那些出人意料的模式,以及它们对模型构建者、开发者与基础设施提供方的含义。
2. 数据与方法
2.1 OpenRouter 平台与数据集
我们的分析基于从 OpenRouter 平台收集的元数据。OpenRouter 是一个统一的 AI 推理层,将用户与开发者连接到数百个大语言模型。每一次在 OpenRouter 上的用户请求,都会针对用户选择的某个模型执行,随后记录一条描述该「生成」(generation)事件的结构化元数据。本文使用的数据集由来自全球用户群的、数十亿条提示—回复(prompt–completion)对的匿名化请求级元数据构成,时间跨度约为两年,直至撰写本文时为止。我们也会特别聚焦最近一年的情况。
每条生成记录都包含关于时间、模型及提供方标识、token 使用量以及系统性能指标等信息。token 统计同时涵盖提示(输入)和回复(输出)token,从而使我们能够衡量整体模型负载与成本。元数据还包含与地理路由、延迟和使用上下文相关的字段(例如,请求是否以流式返回、是否被取消,以及是否调用了工具调用功能)。这些属性共同构成了对模型实际使用方式的一幅详细但非文本化的画像。
基于上述元数据的所有分析、聚合以及大部分可视化,均通过 Hex 分析平台完成。该平台为版本化 SQL 查询、数据转换以及最终图表生成提供了一条可复现的处理流水线。
需要强调的是,该数据集具有观察性(observational)特征:它反映的是 OpenRouter 平台上的真实世界行为,而平台本身又受到模型可用性、定价和用户偏好的共同塑造。截至 2025 年,OpenRouter 支持来自 60 多家提供方的 300 余个活跃模型,为数百万开发者和终端用户提供服务,其中超过 50% 的使用量来自美国以外地区。尽管平台之外的某些使用模式未被覆盖,但 OpenRouter 的全球规模与多样性,使其成为观察大规模 LLM 使用动态的一个具有代表性的视角。
2.2 用于内容分类的 GoogleTagClassifier
在本研究中,我们无法直接访问用户提示或模型输出。取而代之的是,OpenRouter 在约占全部提示与回复 0.25% 的随机样本上,使用一个非专有模块 GoogleTagClassifier 进行内部类别标注。尽管这一比例在总体活动中只是极小一部分,但鉴于 OpenRouter 处理的请求体量庞大,其背后的数据规模仍然相当可观。GoogleTagClassifier 通过 Google Cloud Natural Language 的 classifyText 内容分类 API 进行接口调用。该 API 针对文本输入应用一套分层的、与具体语言无关的类别体系,并返回一个或多个类别路径,同时给出位于区间 [0, 1] 的置信度分数。分类器直接作用于提示文本(最多前 1,000 个字符)。分类器部署在 OpenRouter 的内部基础设施之中,确保分类结果是匿名的,并且不会与具体客户个体关联。置信度低于默认阈值 0.5 的类别会被排除在后续分析之外。
为了在大规模分析中有效利用这些细粒度标签,我们将 GoogleTagClassifier 的分类体系映射为一组紧凑的标签桶(buckets)。具有代表性的映射包括:
- 编程(Programming):映射自
/Computers & Electronics/Programming或/Science/Computer Science/* - 角色扮演(Roleplay):映射自
/Games/Roleplaying Games以及/Arts & Entertainment/*下与创意对话相关的叶子类别 - 翻译(Translation):映射自
/Reference/Language Resources/* - 常规问答 / 知识检索:映射自
/Reference/General Reference/*与/News/*,当交互意图表现为事实查询时 - 生产力 / 写作(Productivity/Writing):映射自
/Computers & Electronics/Software/Business & Productivity Software或/Business & Industrial/Business Services/Writing & Editing Services - 教育(Education):映射自
/Jobs & Education/Education/* - 文学 / 创意写作(Literature/Creative Writing):映射自
/Books & Literature/*以及/Arts & Entertainment/*下与叙事相关的叶子类别 - 成人内容(Adult):映射自
/Adult - 其他(Others):当提示内容无法清晰映射到上述任何主导类别时,归入这一长尾类别
这种做法存在内在局限性。例如,对预定义分类体系的依赖会限制我们对新型或跨领域行为的刻画,一些交互类型可能暂时无法自然地归入现有类别。在实际使用中,当提示内容覆盖多个重叠领域时,有时会被赋予多个类别标签。尽管如此,由分类器驱动的归类仍然为我们的后续分析(第 5 节)提供了有效视角,使我们不仅能够量化 LLM 的使用规模,还能更清楚地回答它们被「用来做什么」。
2.3 模型与 Token 变体
有若干值得明确说明的变体:
- 开源 vs 专有:如果模型权重是公开可用的,我们将其标记为开源(open source,本文中简记为 OSS);如果只能通过受限 API(例如 Anthropic 的 Claude)访问,则标记为闭源。该区分使我们能够衡量社区驱动模型与专有模型的采用情况。
- 来源(中国 vs 世界其他地区):鉴于中国 LLM 及其独特生态的崛起,我们根据主要研发地区对模型进行标注。中国模型包括由位于中国大陆、台湾或香港的机构开发的模型(如阿里巴巴的 Qwen、月之暗面的 Kimi、DeepSeek 等)。RoW(Rest-of-World)模型则覆盖北美、欧洲及其他地区的模型。
- 提示 token vs 生成 token:我们区分提示 token(prompt tokens)和生成 token(completion tokens)。提示 token 表示提供给模型的输入文本;生成 token 表示模型生成的输出文本。总 token 数等于提示 token 与生成 token 之和。对于具有原生推理能力的模型,推理 token(reasoning tokens)表示内部推理步骤,它们被计入生成 token 之中。
除非特别说明,本文所述 token 量(token volume)均指提示(输入)与生成(输出)token 之和。
2.4 地理分段
为理解 LLM 使用的区域差异,我们按用户地理位置对请求进行分段。直接的请求元数据(如基于 IP 的位置信息)通常不够精确,或出于隐私原因被匿名化。相应地,我们基于每个账户的计费所在地(billing location)来确定用户地区。由于计费数据反映了与用户支付方式或账户注册信息绑定的国家或地区,这一方法为用户地理位置提供了更可靠的代理。
这一方法并非没有局限。一些用户可能使用第三方支付或共享的机构账户,其计费位置未必与实际所在位置一致。企业账户可能会将多个地区的活动聚合到单一计费实体之下。尽管存在这些不完美之处,但在我们所能使用的元数据范围内,就隐私保护前提下的地理分析而言,计费地仍然是最稳定、最易解释的指标。
2.5 时间范围与覆盖
我们的分析主要覆盖截至 2025 年 11 月的滚动 13 个月区间,但并非所有底层元数据都完整覆盖这一时间窗。多数与模型层面和定价相关的分析集中在 2024 年 11 月 3 日至 2025 年 11 月 30 日这一时间范围。然而,基于 GoogleTagClassifier 分类体系(第 2.2 节)的类别层面分析,则使用了一段更短的区间,自 2025 年 5 月开始,这与 OpenRouter 上稳定标签能力上线的时间相对应。尤其是那些细化任务的分类字段(例如 Programming、Roleplay 或 Technology 等标签),是在 2025 年年中才被引入。因此,第 5 节中的所有结论应被理解为对 2025 年年中使用情况的刻画,而非对此前整整一年的全貌描述。
除非特别说明,所有时间序列的汇总均基于 UTC 归一化时间戳按周计算,并对提示与生成 token 进行求和。这样可以保证不同模型家族之间的可比性,并尽量减少来自短期峰值或地区时区差异所带来的偏差。
3. 开源与闭源模型
在 AI 生态中,一个核心问题是开源权重模型(本文中为简化记为 OSS)与专有模型之间的平衡。图 1 和图 2 展示了过去一年中,这种平衡在 OpenRouter 上是如何演变的。尽管专有模型——尤其是来自北美主要提供方的模型——在 token 服务量上仍占据多数,但 OSS 模型持续增长,到 2025 年底已接近整体使用量的三分之一。
这一扩张并非偶然。使用量的跃升与重要开源模型的发布高度吻合,例如 DeepSeek V3 和 Kimi K2(在图中以竖直虚线标记),这表明 DeepSeek V3 与 GPT OSS 等具有竞争力的开源模型在发布后能够被迅速采纳并保持其增量。更重要的是,这些增长在发布后的数周之外仍能持续,说明其主要来自实际生产使用,而不仅仅是短期的试验性质流量。
关键发现
中国开源模型从 2024 年底几乎可以忽略的起点(某些周的占比低至 1.2%)开始,稳步获得动能,在部分周的所有模型中,其使用量占比接近 30%。在整个一年期时间窗内,中国 OSS 模型的周均 token 占比约为 13.0%,其中强劲的增长主要集中在 2025 年下半年。作为对比,其他地区(RoW)的 OSS 模型周均占比为 13.7%,而 RoW 的专有模型则维持了最大的份额(平均约 70%)。中国 OSS 的扩张不仅反映了模型质量的竞争力,还体现出其快速迭代与高密度发布节奏。Qwen、DeepSeek 等模型保持了频繁的版本更新,使其能够迅速适配新兴工作负载。这一模式实质性地重塑了开源板块,并推动全球 LLM 领域的竞争格局演进。
这些趋势表明,LLM 生态正在形成一种稳固的双元结构。一方面,专有系统持续定义可靠性与性能的上界,尤其是在受监管场景或企业级工作负载中;另一方面,OSS 模型在成本效率、透明度和可定制性方面具备优势,使其在某些工作负载上极具吸引力。当前,这种平衡大致稳定在约 30% 左右。
3.1 关键开源参与者
开源与闭源模型并非互斥,而是在开发者和基础设施提供方日益偏好的多模型技术栈中形成互补。
表 1 按总 token 使用量对我们的数据集中主要模型家族进行了排名。过去一年中,OSS 模型的格局发生了显著变化:尽管 DeepSeek 仍然是按体量计算最大的单一 OSS 贡献者,但随着新入局者的快速追赶,其相对主导地位有所减弱。如今,多支开源模型家族都维持着可观的使用量,表明生态正趋于多元化。
| 模型作者 | 总 Token 量(万亿) |
|---|---|
| DeepSeek | 14.37 |
| Qwen | 5.59 |
| Meta LLaMA | 3.96 |
| Mistral AI | 2.92 |
| OpenAI | 1.65 |
| Minimax | 1.26 |
| Z-AI | 1.18 |
| TNGTech | 1.13 |
| MoonshotAI | 0.92 |
| 0.82 |
图中的曲线按周展示了这一演化过程。在观察期的早期阶段(2024 年底),市场高度集中:DeepSeek 系列中的两个模型(V3 和 R1)持续占据了超过一半的 OSS token 使用量,在图表底部形成了宽阔的深蓝色带。
这一近乎垄断的格局在 2025 年夏季拐点(Summer Inflection)之后被打破。自那以后,市场在广度和深度上都显著扩展,使用更加多样化。Qwen 系列模型、Minimax 的 M2、MoonshotAI 的 Kimi K2 以及 OpenAI 的 GPT-OSS 系列等新入局者迅速成长,在短短几周内就承担了相当大比例的请求量,往往在发布后不久便达到生产级规模的采用。这表明,开源社区和 AI 创业公司只要推出具备新能力或更高效率的模型,就有机会迅速获得广泛使用。
到 2025 年底,竞争格局已从接近垄断转变为多极并存。没有任何单一模型的 OSS token 占比超过 25%,token 份额更均匀地分布在五至七个模型之间。其现实含义是:用户在更广泛的选项中找到了价值,而不再默认只使用一个「最佳」选择。尽管该图展示的是 OSS 模型之间的相对份额(而非绝对使用量),趋势仍然清晰地指向:市场正向碎片化和竞争加剧的方向发展。
总体而言,开源模型生态如今高度动态。关键洞见包括:
- 顶层多样性:过去由单一家族(DeepSeek)主导 OSS 使用,如今我们越来越常见到约半打模型各自保持显著份额。没有任何开源模型能长期稳定占据约 20–25% 以上的 OSS token。
- 新秀的快速扩张:能力突出的新开源模型可以在数周内获得可观的使用量。例如,MoonshotAI 的模型很快成长到可以与早期 OSS 领导者匹敌;即便是像 MiniMax 这样的后来者,也能在一个季度内从零成长到相当规模的流量,这说明切换成本较低,且用户群体对尝试新模型持积极态度。
- 迭代优势:DeepSeek 在榜首位置的长期存在,凸显了持续改进的重要性。DeepSeek 的连续版本(Chat-V3、R1 等)使其在挑战者不断涌现的情况下仍保持竞争力。相反,停止迭代的 OSS 模型往往会将份额拱手让给那些在前沿方向或特定领域保持高频率微调更新的模型。
从今天的视角看,2025 年的开源 LLM 赛道更像一个创新周期快速、更替频繁的竞争生态,领导地位并非板上钉钉。对模型构建者而言,这意味着仅仅发布一个开源模型远远不够,持续迭代与差异化优化才是保持长期竞争力的关键。
在这种环境下,即使是具备最前沿性能的新模型,一经发布也能迅速获得使用量,但若要长期维持份额,就需要在后续研发上持续投入。对于用户和应用开发者而言,这一趋势是积极的:可选的开源模型种类更加丰富,且在某些特定领域(如角色扮演)中,其能力往往可以与专有系统相当,甚至在特定方面更为出色。
3.2 模型规模与市场契合度:中等规模成为新的「小模型」
一年前,开源模型生态仍主要围绕两个极端之间的取舍展开:大量小而快的模型,和少数极其强大的大规模模型。然而,对过去一年的回顾表明,市场已经显著成熟,并出现了一个新的、不断增长的类别:中等规模模型。需要说明的是,我们按参数规模对模型进行如下划分:
我们按参数规模对模型进行如下划分:
- 小型(Small):参数量少于 150 亿
- 中型(Medium):参数量在 150 亿至 700 亿之间
- 大型(Large):参数量在 700 亿及以上
从开发者和用户行为的数据来看,故事要比这更细腻。图 4 和图 5 显示,尽管各类别模型的数量都在增长,但使用模式已发生显著变化:小模型逐渐失宠,而中大型模型正在吸收这部分价值。
对驱动这些趋势的模型进行更深入的观察,可以看到截然不同的市场动态:
- 「小型」市场:整体使用量下滑。尽管新模型源源不断涌现,小型模型这一类别整体的使用份额仍在下降(如图 4 所示)。该类别的典型特征是高度碎片化,没有任何单个模型能够长期占据主导位置,且来自 Meta、Google、Mistral、DeepSeek 等众多提供方的新模型不断加入。例如,Google Gemma 3.12B(于 2025 年 8 月发布)在短时间内获得了快速采用,但其所处赛道竞争异常拥挤,用户不断在其中寻找下一款「更好」的替代品。
- 「中型」市场:寻找「模型—市场契合」(model-market fit)。中型模型类别则清晰地讲述了一个市场被创造出来的过程。在 Qwen2.5 Coder 32B 于 2024 年 11 月发布之前,这一细分几乎可以忽略。Qwen2.5 Coder 32B 实质性地确立了这一类别。随后,随着 Mistral Small 3(2025 年 1 月)和 GPT-OSS 20B(2025 年 8 月)等强劲竞争者的出现,这一板块逐步成熟为一个竞争性生态,并在用户心智中占据了一席之地。这一细分市场清楚地表明,用户正在寻找能力与效率之间的平衡点。
- 「大型」模型板块:多元共存的格局。「向高质量迁移」(flight to quality)并未导致集中度上升,反而带来了多样化。大型模型类别如今包含了一系列高性能竞争者,从 Qwen3 235B A22B Instruct(2025 年 7 月发布)和 Z.AI GLM 4.5 Air,到 OpenAI 的 GPT-OSS-120B(8 月 5 日发布),都获得了显著且持久的使用份额。这种多元格局表明,用户正在多个大型开源模型之间进行积极对比测试,而不是收敛到单一标准。
小模型主导开源生态的时代或许已经过去。市场正在分化:一部分用户转向新出现的、稳健的中等规模模型,另一部分则将工作负载集中到单个能力最强的大模型上。
3.3 开源模型被用来做什么?
当下的开源模型被广泛用于跨创意、技术与信息等多个领域的任务。虽然在结构化的商业任务上,专有模型仍占据主导地位,但 OSS 模型已经在两个方向上取得领先:创意角色扮演(creative roleplay)和编程辅助(programming assistance)。这两类任务合计占据了 OSS token 使用量的大部分(见图 6)。
约 15–20% 的编程使用份额表明,许多开发者会利用 OSS 模型进行代码生成与调试,这很可能得益于诸如 Qwen-Coder、GPT-OSS 系列以及 GLM-4.6 等能力很强的代码模型。其他类别(如 Translation、Knowledge Q&A 和 Education)虽然占比更小,但仍不可忽视,它们分别满足多语种支持、事实查找和教学辅导等特定需求。
图 7 进一步展示了当我们只关注中国 OSS 模型时,不同任务类别随时间的分布情况。这些模型已经不再主要用于纯创意任务。虽然角色扮演依然是最大的单一类别(约占 33%),但编程与技术相关类别合计已经占据了使用量的多数(39%)。这一转变表明,Qwen、DeepSeek 等模型越来越多地被用于代码生成和基础设施相关的工作负载。尽管高体量企业用户可能会对某些细分板块产生更大影响,但整体趋势显示,中国 OSS 模型正在技术与生产力领域中直接参与竞争。
如果我们只聚焦编程这一类别,图 8 表明专有模型在整体代码辅助任务中仍处理了最多的流量(图中的灰色区域),这与 Anthropic 的 Claude 等强势产品相符。然而,在 OSS 部分内部,发生了显著的结构转变:在 2025 年年中,中国 OSS 模型(蓝色)承担了大多数开源代码辅助工作(主要由 Qwen 3 Coder 等早期成功模型驱动)。到 2025 年第四季度,西方 OSS 模型(橙色)如 Meta 的 LLaMA-2 Code 和 OpenAI 的 GPT-OSS 系列迅速崛起,在一段时间内提高了份额,但在最近几周又有所回落。这种此消彼长说明竞争环境极为激烈。实际启示是:开源代码助手的使用模式高度动态,对模型质量变化极为敏感;开发者倾向于选择当前在代码支持上表现最好的那款 OSS 模型。需要指出的是,该图并未展示绝对使用量:开源代码相关使用整体上在增长,因此蓝色带的缩小并不代表中国 OSS 流失了用户,只意味着相对份额下降。
若将视角转向角色扮演流量,我们在图 9 中看到,这一类别如今几乎由 RoW OSS(橙色,最近几周约 43%)和专有模型(灰色,最新约 42%)平分秋色。这与 2025 年早期的格局形成鲜明对比,当时该类别几乎完全由专有模型主导(灰色区域约占 70% 的 token 份额)。彼时(2025 年 5 月),西方 OSS 模型仅占 22% 的流量,而中国 OSS(蓝色)的份额更是只有 8%。在随后的数月里,专有模型的份额稳步下滑。到 2025 年 10 月底,这一趋势进一步加速,西方和中国开源模型都获得了显著的新增份额。
这种份额的收敛表明市场竞争健康:在创意对话和故事生成等场景中,用户可以在开源与专有方案之间做出真正的选择。这反映出开发者已经意识到对角色扮演/聊天模型的需求,并针对性地对模型进行了优化(例如,使用对话数据进行微调、加强角色一致性对齐等)。需要注意的是,「角色扮演」范畴之下包含了从日常聊天到复杂游戏场景的一系列子类型。但从宏观上看,很明显在这一创意领域,OSS 模型已经具备了明显优势。
解读
总体而言,在 OSS 生态中,关键使用场景包括:
- 角色扮演与创意对话:目前的首要类别,很可能是因为开源模型可以在较少限制下使用,或较容易进行定制以适配具体社区与内容需求,用于虚构人物扮演和故事任务。
- 编程辅助:位列第二且仍在增长,随着开源模型在代码能力上的提升,越来越多开发者在本地使用 OSS 模型进行代码生成和调试,以避免 API 成本。
- 翻译与多语支持:一个稳定的用例,特别是在出现高质量双语模型(其中中国 OSS 模型在这方面具有优势)之后。
- 通用知识问答与教育:使用量中等;虽然开源模型可以回答问题,但为了追求最高的事实准确性,用户在此类任务上往往更偏好 GPT-5 等闭源模型。
值得注意的是,这种「以角色扮演为重」的 OSS 使用模式,与许多人心目中「爱好者」或「独立开发者」的用法高度相似——在这些场景中,可定制性和成本效率往往比绝对准确性更重要。不过,两者的界限正在变得模糊:OSS 模型在技术领域快速进步,而专有模型也越来越多地被用于创意用途。
4. 智能体式推理的兴起
在上一节从模型格局(开源 vs 闭源)的视角展开讨论的基础上,本节转向 LLM 使用方式本身的「形态」。在生产环境中,语言模型的使用正在发生根本性转变:从单轮文本补全,走向多步、集成工具、以推理为中心的工作流。我们将这种转变称为智能体式推理(agentic inference)——在这种模式下,模型的角色不只是「生成文本」,而是通过规划、调用工具、在扩展上下文中交互来「行动」。
本节通过几个代理指标来刻画这一变化:推理模型使用占比的上升、工具调用行为的扩张、序列长度分布的改变,以及编程工作负载如何推动复杂度上升。
4.1 推理模型已占据一半以上使用量
如图 10 所示,2025 年期间,路由到推理优化模型的总 token 占比显著攀升。在 2025 年第一季度之初,这一占比几乎可以忽略不计,如今已超过 50%。这一变化同时反映了供给侧与需求侧的演进:在供给侧,GPT-5、Claude 4.5、Gemini 3 等高能力系统的发布,提升了用户对「逐步推理」能力的预期;在需求侧,用户越来越偏好那些能够管理任务状态、遵循多步逻辑并支撑智能体式工作流的模型,而不再满足于简单文本生成。
图 11 展示了驱动这一变化的主要模型。在最新数据中,xAI 的 Grok Code Fast 1(不含免费首发流量)已经在推理流量中占据首位,超过了 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。这与数周前的状况形成鲜明对比:彼时由 Gemini 2.5 Pro 领跑,而 DeepSeek R1 与 Qwen3 也位列前列。Grok Code Fast 1 与 Grok 4 Fast 的份额快速上升,得益于 xAI 积极的产品发布节奏、具有竞争力的定价以及围绕其代码向变体的开发者关注。与此同时,OpenAI 的 gpt-oss-120b 等开源模型依然保持存在感,说明在可能的情况下,开发者仍会选择 OSS 模型。
总体来看,推理模型格局高度动态,模型轮换速度快,哪一款系统在真实工作负载中占主导地位会随时间发生明显变化。数据指向一个清晰结论:以推理为导向的模型正在成为真实工作负载的默认选项,流经这些模型的 token 占比,已经成为衡量用户希望如何与 AI 系统交互的领先指标。
4.2 工具调用采用率上升
在图 12 中,我们统计了所有请求中,其结束原因被标记为 Tool Call 的那部分 token 占比。该指标经过归一化,仅覆盖在交互过程中确实调用了工具的请求。
这与「Input Tool」信号形成对比,后者记录的是请求中是否向模型提供了工具(无论是否实际调用)。按照定义,Input Tool 的计数必然高于以 Tool Call 为结束原因的请求,因为前者是「提供」,后者是「成功执行」的子集。结束原因指标衡量的是已实现的工具使用,而 Input Tool 反映的是潜在可用性而非实际调用。由于 Input Tool 指标仅在 2025 年 9 月引入,因此本文不对其进行系统报告。
图 12 中 5 月份出现的显著尖峰,主要是由于某一个大型账户在短时期内的活动抬高了整体体量。除去这一异常之外,工具采用率在全年呈现持续向上的趋势。
如图 13 所示,工具调用最初集中在一小部分模型身上:OpenAI 的 gpt-4o-mini 和 Anthropic 的 Claude 3.5 与 3.7 系列,在 2025 年初处理了大多数开启工具能力的 token。到了年中,更广泛的模型开始支持工具提供,反映出生态在朝着更具竞争性和多样化的方向发展。从 9 月底开始,更新的 Claude 4.5 Sonnet 模型迅速提升了份额;同时,Grok Code Fast 与 GLM 4.5 等新入局模型也取得了可见进展,说明在支持工具能力的部署上,实验与多样化正在扩大。
对平台运营者而言,含义非常明确:在高价值工作流中启用工具使用的趋势正在加强。缺乏可靠工具格式支持的模型,在企业采纳与编排环境中存在落后的风险。
4.3 提示与回复结构的变化
在过去一年里,模型工作负载的结构发生了显著变化。提示(输入)与回复(输出)的 token 量都大幅增加,但增幅与基数有所不同:单次请求的平均提示 token 数从约 1500 个增加到 6000 多个,而回复 token 则从约 150 个增长到接近 400 个。相对增幅的差异凸显了一个趋势:工作负载正向更加复杂、更加依赖上下文的方向转移。
这一模式反映出模型使用的新均衡。如今的典型请求不再是「写一篇文章」这类开放式生成,而是围绕用户提供的大体量材料(例如代码库、文档、转录文本或长对话)进行推理,并给出简洁但高价值的洞见。模型越来越多地扮演「分析引擎」的角色,而非单纯的「创意生成器」。
按类别拆分的数据(根据第 2.5 节,仅自 2025 年春季开始可用)提供了更细腻的视角:编程工作负载是推动提示 token 增长的主要驱动力。涉及代码理解、调试与生成的请求,输入 token 常常超过 2 万,而其他类别则相对平稳且量级更低。这种不对称贡献表明,近期提示长度的扩展并非各类任务普遍增长,而是集中体现在软件开发与技术推理等特定用例上。
4.4 更长序列,更复杂交互
序列长度可以看作任务复杂度与交互深度的代理指标。图 17 显示,在过去 20 个月中,平均序列长度(提示 + 回复 token 数)从 2023 年底的不足 2000 个,增长到 2025 年底的超过 5400 个。这一增长反映出结构性转变:上下文窗口更长、任务历史更深、输出内容更为复杂。
与上一小节一致,图 18 进一步澄清了这一点:编程相关的提示,其平均长度现在是通用提示的 3–4 倍。这一差异表明,软件开发工作流是推动长交互的主要动力。长序列并不仅仅是用户「话多」的表现,而是更复杂、更具嵌入性的智能体式工作流的特征。
4.5 含义:智能体式推理成为新默认
综合来看,上述趋势(推理模型占比上升、工具使用扩展、更长的序列长度以及编程任务的超高复杂度)表明,LLM 使用的重心已经发生转移。典型的 LLM 请求不再是简单问题或孤立指令,而是某个结构化、近似智能体循环的一部分:调用外部工具、在状态上进行推理,并在更长的上下文中持续推进。
对于模型提供方而言,这显著提高了默认能力的要求:延迟表现、工具协议处理能力、上下文支持能力,以及面对损坏或对抗性工具链时的鲁棒性都变得愈发关键。对基础设施运营方来说,推理平台不再只是处理无状态请求,而是需要管理长时间对话、执行轨迹以及具备访问权限约束的工具集成。
5. 类别:人们如何使用 LLM?
理解用户使用 LLM 完成的任务分布,是评估真实需求与「模型—市场契合度(model–market fit)」的核心。正如第 2.2 节所述,我们将数十亿次模型交互按照高层应用类别进行了归类。在第 3.3 节,我们重点关注开源模型,以观察社区驱动的使用模式。本节则将视角扩展到 OpenRouter 上所有 LLM 使用(包括闭源与开源模型),以全面刻画人们在实践中如何使用 LLM。
5.1 主导类别
在所有模型中,编程已成为最持续扩张的类别。2025 年期间,编程相关请求的占比不断提升,与 LLM 辅助开发环境和工具集成的兴起保持同步。正如图 19 所示,编程查询在 2025 年初约占总 token 体量的 11%,而在最近几周已超过 50%。这一趋势反映出使用重心正从探索性或纯对话式交互,转向诸如代码生成、调试和数据脚本等应用型任务。随着 LLM 更深入嵌入开发者工作流,其作为编程工具的角色正在被「常态化」。
这一演进对模型开发产生了多重影响:包括更加重视以代码为中心的训练数据、更深层次的多步推理能力以支持复杂编程任务,以及模型与集成开发环境(IDE)之间更紧密的反馈循环等。
不断增长的编程支持需求也在重塑不同模型提供方之间的竞争格局。如图 20 所示,Anthropic 的 Claude 系列在很长一段时间内一直主导这一类别,在多数观测期内承担了超过 60% 的编程相关支出。尽管如此,整体格局仍在显著演化:在 11 月 17 日这一周,Anthropic 的份额首次跌破 60%。自 7 月以来,OpenAI 的份额从大约 2% 提升到最近的约 8%,这很可能反映出其对开发者工作负载重新加码的战略;同一时期,Google 的份额则保持在约 15% 左右相对稳定。中腰部阵营也在发生变化:Z.AI、Qwen、Mistral AI 等开源提供方正在稳步提升心智份额,其中 MiniMax 尤为突出,在最近几周实现了显著增量。
总体而言,编程已经成为最具竞争性、也是战略意义最重大的模型类别之一。它持续吸引头部实验室的关注,哪怕是模型质量或延迟上的微小变化,也会在一周范围内带来份额的波动。对基础设施提供方与开发者而言,这凸显了持续基准测试(benchmarking)与评测(eval)的必要性,尤其是在前沿不断演进的背景下。
5.2 各类别内部的标签构成
图 21 将 LLM 使用拆分为 12 个最常见内容类别,揭示了各类别内部的子主题结构。一个关键结论是:大多数类别内部并非均匀分布,而是由一两个反复出现的使用模式主导,这往往反映了高度集中的用户意图或与 LLM 优势的高度对齐。
在高体量类别中,角色扮演(roleplay)的稳定性与专门化格外突出。近 60% 的角色扮演 token 被标记为 Games/Roleplaying Games,这表明用户更多是将 LLM 视作结构化的角色扮演或人物引擎,而非简单的闲聊机器人。Writers Resources(15.6%)与 Adult(15.4%)标签的存在进一步强化了这一点,指向一种融合了互动小说、情景生成与个人幻想的复合用例。与「角色扮演大多只是非正式对话」的直觉相反,数据表明这一领域已经形成了清晰且可复现的、以题材为中心的使用模式。
编程(programming)同样呈现强偏斜结构,其中超过三分之二的流量被标记为 Programming/Other。这说明代码相关提示整体上具有广泛且通用的特征:用户并非只围绕某个具体工具或单一语言,而是会向 LLM 询问从逻辑调试到脚本草拟的各种问题。与此同时,Development Tools(26.4%)以及来自脚本语言的小份额标签,暗示出逐渐出现的专业化方向。这种碎片化也提示模型构建者:可以通过改进标签体系或针对结构化编程工作流的训练来进一步优化。
在角色扮演与编程这两个主导类别之外,其余领域构成了一个多样但体量较小的「长尾」。虽然单个类别的占比并不突出,但它们揭示了用户在专门与新兴任务上的使用模式。例如,翻译(translation)、科学(science)与健康(health)等类别内部结构相对平缓。在翻译中,使用几乎平均分布在 Foreign Language Resources(51.1%)与 Other 之间,说明需求更多集中在多语种查询与改写,而不是持续的长文档级翻译;科学类别则由单一标签 Machine Learning & AI(80.4%)主导,表明大部分科学相关查询其实是关于「AI 本身」的元问题,而不是传统 STEM 主题(如物理、生物等);健康类别则是高体量类别中内部最为碎片化的一个,没有任何子标签占比超过 25%,token 分散在医学研究、咨询服务、治疗建议与诊断查询等多种场景之间。这既揭示了该领域本身的复杂性,也标示了在安全建模方面的挑战:LLM 需要覆盖高方差的用户意图,且很多场景具备高度敏感性,却缺乏清晰集中于某个单一用例的流量。
这些长尾类别的共同点在于其广泛性:用户更多是将 LLM 用于探索性、结构较松散或寻求辅助的交互,而不像编程或个人助理那样围绕高度聚焦的工作流。整体来看,这些次级类别虽然没有在体量上占据主导,但隐含了重要的潜在需求——它们表明用户正在将 LLM 应用于诸多边缘领域,从翻译到医疗建议再到 AI 自省。随着模型在领域鲁棒性与工具集成方面不断提升,这些零散意图很可能会逐渐收敛,形成更清晰、更高体量的应用。
相比之下,金融(finance)、学术(academia)与法律(legal)等类别内部更加离散。金融流量在外汇、社会责任投资以及审计/会计等多个子标签之间分散,没有任何子标签占比超过 20%;法律类别则呈现类似的高熵结构,使用在 Government/Other(43.0%)与 Legal/Other(17.8%)之间分布。这种碎片化可能来源于这些领域本身的复杂性,也可能反映出相较于编码和聊天等更成熟的类别,当前针对这些场景的 LLM 工作流仍然较缺乏。
总体而言,数据表明真实世界中的 LLM 使用并不是「平均探索式」的,而是紧密聚集在少数可重复、高体量的任务上:角色扮演、编程与个人助理等类别均呈现出清晰的结构与主导标签;而科学、健康与法律等领域则更加分散且可能尚未充分优化。这些内部结构可以为模型设计、领域特定微调以及应用层接口提供指导,尤其是在围绕用户目标定制 LLM 行为时。
5.3 按模型作者划分的类别洞见
不同模型提供方在使用模式上呈现出明显差异。图 22a–23c 展示了主要模型家族(Anthropic 的 Claude、Google 的模型、xAI、OpenAI 的 GPT 系列、DeepSeek 和 Qwen)的内容类别分布。每根条形代表该提供方 100% 的 token 使用量,并按主要标签拆分。
Anthropic 的 Claude(图 22a)在使用上高度偏向编程 + 技术任务,两者合计占比超过 80%,角色扮演与通用问答仅占极小一部分。这验证了 Claude 被定位为「面向复杂推理、编码与结构化任务」模型的事实:开发者与企业似乎主要将 Claude 用作代码助手与问题求解器。
Google 的模型使用(图 22b)则更加多元。我们观察到翻译、科学、技术以及部分通用知识等显著板块。例如,约 5% 的 Google 使用落在法律或政策内容上,另有 10% 与科学相关,这可能暗示了 Gemini 在训练上更广泛的覆盖。与其他提供方相比,Google 在编码上的占比较小,并且在 2025 年末呈现下降趋势(降至约 18%),同时尾部类别更加丰富,这表明 Google 的模型更多被用作通用信息引擎。
xAI 的使用画像(图 22c)与其他提供方截然不同。在观察期的大部分时间里,其使用几乎完全集中在编程任务上,经常超过所有 token 的 80%;直到 11 月下旬,类别分布才显著拓宽,技术、角色扮演与学术类别出现明显增长。这一剧烈变化与 xAI 模型通过部分面向消费者的应用「免费分发」的时间高度吻合,很可能带来了大量非开发者流量的涌入。结果是其使用构成呈现出「早期开发者为主」与「后期泛用户爆发」叠加的结构。
OpenAI 的使用画像(图 23a)在 2025 年经历了明显变化。年初时,科学任务占据了 OpenAI token 的一半以上;到 2025 年底,这一占比降至 15% 以下。与此同时,编程与技术相关使用现已占到总量的一半以上(各约 29%),反映出 OpenAI 模型在开发者工作流、生产力工具和专业应用中的整合更为深入。总体来看,OpenAI 的使用构成介于 Anthropic 的「高度专注」与 Google 的「广泛分布」之间,既保持了广泛的通用价值,又逐步向高价值、结构化任务倾斜。
DeepSeek 的 token 分布被角色扮演、日常聊天与娱乐型交互所主导,常常占据其总使用量的三分之二以上,结构化任务(如编程或科学)的占比较小。这与 DeepSeek 面向消费者定位、强调高互动性的对话模型形象相吻合。值得注意的是,DeepSeek 在夏末前后编程相关使用有小幅但稳定的上升,暗示其在轻量级开发工作流中的采用逐步增加。
Qwen 则呈现几乎相反的画像。在图 23c 所覆盖的整个时间范围内,编程持续占据其 40–60% 的 token,明确表明其聚焦技术与开发者任务。与 Anthropic 相对稳定的「工程重度」构成相比,Qwen 在科学、技术与角色扮演等相邻类别上的波动更为剧烈,这些周度变化可能反映出其用户群体的多样性以及在应用场景上快速迭代的特征。
综上,每个提供方都呈现出与其战略重点相契合的独特画像。这些差异解释了为何没有任何单一模型或提供方可以在所有用例上「一统天下」,也凸显了多模型生态的潜在价值。
6. 地理:不同地区的 LLM 使用差异
全球 LLM 使用在地区之间呈现出显著差异。通过地理维度的拆分,我们可以推断本地使用与支出是如何塑造 LLM 使用模式的。尽管下文图表反映的是 OpenRouter 的用户基数,但它们提供了关于区域参与度的一幅快照。
6.1 使用的区域分布
如图 24 所示,不同地区的支出分布凸显出 AI 推理市场日益全球化的特征。北美仍然是单一体量最大的地区,但在观测期的大多数时间里,其支出份额已经降至总量的一半以下。欧洲的贡献则稳定而持久,其每周支出占比在整个时间轴上相对平稳,通常位于十几到二十几个百分点的区间内。值得注意的发展是亚洲的崛起:不仅在前沿模型的生产上扮演越来越重要的角色,也在消费端迅速扩张。在数据集最初的几周,亚洲大约占据全球支出的 13%;随着时间推移,这一份额翻倍以上,在最近一段时间达到了约 31%。
按大洲划分的使用占比
| 大洲 | 占比 (%) |
|---|---|
| 北美洲 | 47.22 |
| 亚洲 | 28.61 |
| 欧洲 | 21.32 |
| 大洋洲 | 1.18 |
| 南美洲 | 1.21 |
| 非洲 | 0.46 |
按国家划分的 Token 使用量前 10 名
| 国家 | 占比 (%) |
|---|---|
| 美国 | 47.17 |
| 新加坡 | 9.21 |
| 德国 | 7.51 |
| 中国 | 6.01 |
| 韩国 | 2.88 |
| 荷兰 | 2.65 |
| 英国 | 2.52 |
| 加拿大 | 1.90 |
| 日本 | 1.77 |
| 印度 | 1.62 |
6.2 语言分布
正如表 2 所示,英语在使用中占据绝对优势,超过 80% 的 token 为英文。这既反映了英文模型的普遍性,也与 OpenRouter 用户基数中开发者占比较高有关。然而,其他语言——尤其是中文、俄语与西班牙语——构成了一个具有意义的长尾。仅简体中文一项就占全球 token 的近 5%,这表明在双语或以中文为主的环境中存在持续活跃的使用,尤其是在 DeepSeek、Qwen 等中国 OSS 模型增长的背景下。
表 2:按语言划分的 token 使用量。基于对全部 OpenRouter 流量中提示语言的检测结果统计。
| 语言 | Token 占比 (%) |
|---|---|
| 英语(English) | 82.87 |
| 中文(简体) | 4.95 |
| 俄语(Russian) | 2.47 |
| 西班牙语(Spanish) | 1.43 |
| 泰语(Thai) | 1.03 |
| 其他(合并统计) | 7.25 |
对于模型构建者与基础设施运营方而言,在一个 LLM 采用同时呈现全球化与本地化优化特点的世界里,跨地区的可用性——包括语言、合规环境以及部署环境的适配——已经逐渐成为「入场门槛」。
7. LLM 用户留存分析
7.1 「灰姑娘水晶鞋」现象
这一组留存图(图 25)描绘了多个主流模型下,LLM 用户市场的动态。在第一眼看来,数据主要呈现出高流失率与 cohort[注] 的快速衰减。然而,在这种波动之下,还隐藏着一个更细腻且更关键的信号:一小部分早期用户 cohort 展现出显著更持久的留存。我们将这些 cohort 称为基石用户群(foundational cohorts)。
这些 cohort 并不仅仅是「早期尝鲜者」,而是那些其工作负载与模型之间达成了深度且持久的工作负载—模型契合(workload–model fit)的用户。一旦建立,这种契合会同时在经济与认知层面产生惰性:即便有更新模型出现,也会显著抑制用户迁移的意愿。
我们引入「灰姑娘水晶鞋效应(Cinderella Glass Slipper effect)」这一框架来描述上述现象。该假说认为,在快速演进的 AI 生态中,存在一系列尚未被各代模型解决的高价值工作负载。每一代新的前沿模型都像「试鞋」一样,被用户拿来尝试能否匹配这些尚未满足的需求。当某个新发布模型恰好满足了此前未被满足的技术与经济约束时,就达成了精确的契合——也就是比喻意义上的「水晶鞋」。
对于那些负载终于「匹配上」的开发者与组织而言,这种契合会产生强烈的锁定效应:他们的系统、数据管道与用户体验会围绕首个解决问题的模型进行构建。随着成本下降与可靠性提升,重新迁移平台的激励显著减弱;相反,那些尚未找到这种契合的工作负载则会持续处于探索状态,在多个模型间漂移以寻找自己的解法。
在数据中,这一模式可以在 Gemini 2.5 Pro 的 2025 年 6 月 cohort(图 25b)以及 Claude 4 Sonnet 的 2025 年 5 月 cohort(图 25a)中观察到:在第 5 个月,这些 cohort 的留存率仍接近 40%,远高于后续 cohort。看起来,这些 cohort 对应的正是某些关键技术突破(例如推理稳定性或工具使用能力),首次使得此前无法落地的工作负载成为可能。
作者据此提出了几个要点:
- 「率先解决」即长期优势:当一个模型率先解决某个关键工作负载时,传统意义上的「先发优势」变得尤为重要。早期用户会在流水线、基础设施与使用习惯上深度嵌入该模型,从而形成高切换成本;即使之后出现新模型,这一基石 cohort 仍会长期留在原模型上。
- 留存是能力拐点的指标:在 cohort 维度上,如果某一或若干早期 cohort 展现出异常持久的留存,这通常意味着模型在某个工作负载上实现了真实的能力拐点,使得某一类任务从「不可行」变为「可行」。反之,如果各 cohort 留存曲线整体类似且迅速衰减,则说明模型之间在能力上大体同质化,缺乏深度差异。
- 前沿窗口的时间约束:竞争格局带来了一个狭窄的时间窗口,使得模型能否在其中捕获基石用户变得至关重要。随着后续模型缩小能力差距,新模型形成新的基石 cohort 的概率会急剧下降。「灰姑娘时刻」——即模型与特定工作负载精确对齐的瞬间——虽然短暂,却在长期采纳动态中具有决定性作用。
图 25:不同模型的用户 cohort 留存曲线。留存以「活动留存」衡量:只要用户在后续月份出现活动即计入留存,因此曲线可能出现小幅的非单调上升。
主导性首发异常(The Dominant Launch Anomaly)。OpenAI GPT-4o Mini 的留存图展示了这一现象的极端形态。一个单独的基石 cohort(2024 年 7 月,图中橙色线条)在首发时便建立了主导性的、高黏性的工作负载—模型契合。此后加入的所有 cohort,由于契合已经建立且市场已向前移动,表现完全一致:它们迅速流失并聚集在底部。这表明,建立基石契合的窗口是唯一的,只存在于模型被感知为「前沿」的那一刻。
未匹配的后果(The Consequence of No-Fit)。Gemini 2.0 Flash 与 Llama 4 Maverick 的图表展示了当这种初始契合从未建立时会发生什么:与其他模型不同,它们没有出现任何高表现的基石 cohort,所有 cohort 的表现同样糟糕,最终在底部汇聚。这表明,在这些模型从未被视为高价值、黏性工作负载的「前沿」选项的情况下,它们更多是直接落入了「够用即可(good enough)」市场,因此难以锁定稳定的用户基础。类似地,尽管 DeepSeek 整体上极为成功,其留存图表却难以呈现出稳定的基石 cohort。
回旋镖效应(Boomerang Effect)。DeepSeek 模型(图 25g 和 25h)展现出更加复杂的模式。其留存曲线中出现了罕见的「复活跳跃」现象:不同于典型的单调递减曲线,一些 DeepSeek cohort 在经历一段时间的流失后,留存率反而出现回升(例如 DeepSeek R1 的 2025 年 4 月 cohort 在第 3 个月附近,以及 DeepSeek Chat V3-0324 的 7 月 cohort 在第 2 个月附近)。这表明部分流失用户重新回到了该模型。这一「回旋镖效应」暗示:用户在尝试其他替代模型并通过对比测试后,发现 DeepSeek 在特定工作负载上依然提供了更优甚至最佳的契合,可能得益于其在技术性能、成本效率或其他特定特性上的组合优势。
启示(Implications)。「水晶鞋」现象将留存从「结果指标」转变为理解能力突破的分析透镜:基石 cohort 就是真实技术进步的「指纹」,它们标记出模型从「新奇」走向「刚需」的节点。对构建者与投资者而言,及早识别这些 cohort,可能是判断某一模型能否形成持久「模型—市场优势」的最具预测性的信号。
总体而言,基础模型能力的快速变迁,使得对用户留存的重新定义成为必要。每一代新模型的发布都会带来一个短暂的窗口期,为解决此前未被满足的工作负载提供机会。当这种匹配发生时,受影响的用户便形成了基石 cohort:即便后续有新模型推出,这些用户群体的留存轨迹仍然保持稳定。
8. 成本与使用动态
模型使用成本是影响用户行为的关键因素之一。本节重点关注不同 AI 工作负载类别在「成本—使用」空间中的分布。通过观察各类别在对数—对数坐标的成本 vs 使用图中的聚类,我们可以识别出哪些工作负载集中在低成本、高体量区域,哪些则位于高成本、专业化区域。作者也提及了与「朱文斯悖论(Jevons paradox)」相似的现象:成本更低的类别往往对应更高的总使用量,尽管本文并未试图对这一悖论或因果关系进行严格分析。
8.1 按类别划分的 AI 工作负载
图 26 所示散点图揭示了 AI 用例的明显分层:横、纵轴分别为单位成本与总使用量,两轴均为对数刻度,这意味着图上很小的视觉距离,对应现实世界中体量与成本的数量级差异。图中以每百万 token 成本的中位数 0.73 美元为界,将整个图划分为四个象限,用以简化不同类别的市场结构。
需要注意的是,这里的最终成本(end cost)与公开标价并不相同。高频工作负载受益于缓存等机制,会显著压低实际支出,使得有效价格远低于挂出的价格。图中成本指标反映的是提示与回复 token 的加权平均成本,更准确地刻画了用户在总体上实际支付的价格。数据集中排除了 BYOK(Bring Your Own Key)活动,以隔离标准化、由平台调度的使用,并避免自建基础设施导致的干扰。
作者将四个象限作了如下划分:
- 高端工作负载(右上象限,Premium Workloads):该象限包含高成本、高使用量的应用,目前包括位于交叉附近的「technology」与「science」等类别。这些通常是高价值且频繁使用的专业工作负载,用户愿意为性能或专门能力支付溢价。其中,「technology」是一个显著的离群点:其成本远高于其他任何类别,却仍然维持较高使用量。这暗示「technology」用例(可能涉及复杂系统设计或架构)需要更强大、更昂贵的模型进行推理,但其重要性又足以支撑高频使用。
- 大众市场体量驱动者(左上象限,Mass-Market Volume Drivers):该象限特征为高使用量与低或中等偏低成本。这里由两个极大体量用例主导:roleplay 与 programming(以及 science)。其中,programming 被视为「终极专业类别」,兼具最高使用体量与高度优化的中位成本;roleplay 的使用体量同样巨大,几乎可以与 programming 相媲美,这是一个颇为醒目的发现:面向消费者的角色扮演应用,其参与度几乎与顶级专业应用不相上下。
- 专业专家(右下象限,Specialized Experts):此处聚集的是低体量、高成本应用,包括 finance、academia、health 与 marketing 等。这些大多是高风险、利基化的专业领域。其总体体量较低也合情合理:人们求助 AI 解决「健康」或「金融」问题的频率显然远低于「编程」。然而,由于在这些任务中对准确性、可靠性与领域知识的要求极高,用户愿意为之支付可观溢价。
- 利基工具(左下象限,Niche Utilities):该象限包括低成本、低体量任务,如 translation、legal 与 trivia。这些任务更像高度优化的功能性工具:翻译在其中体量最高,而 trivia 体量最低。它们的低成本与相对较低的总体使用,表明这类任务或已高度成熟、甚至被「商品化」,存在成本极低的「够好」替代方案。
如前所述,最显著的离群点是 technology:其单位 token 成本远高于图中其他类别,却仍位于高使用量区域。这强烈表明该市场具有极高的支付意愿(例如系统架构设计、高级技术问题求解等)。值得探讨的问题是,这一高价更多是由用户价值驱动(需求侧机会),还是由推理成本驱动(供给侧挑战)——毕竟此类查询往往需要最强的前沿模型。在「technology」这一板块中,潜在的机会是:谁能以高效方式服务这一高价值市场,谁就有望依托高度优化、专门化模型获得高利润率。
8.2 模型的有效成本与使用量
图 27 将模型使用量映射到每百万 token 成本(对数—对数坐标),整体显示出较弱的相关性。趋势线几乎水平,表明总体需求对价格的敏感度很低:价格下调 10%,使用量平均只增加约 0.5–0.7%。然而,散点在图中分布广泛,反映了强烈的市场分层:OpenAI 与 Anthropic 等闭源模型集中在高成本、高使用区域,而 DeepSeek、Mistral、Qwen 等开源模型则主要分布在低成本但高体量的区域。
图 28 与表 3 进一步展示了按模型作者划分时的典型「成本—使用」原型:
- 高效巨头(Efficient giants):如 Google 的
gemini-2.0-flash(约 $0.147/百万 token,Usage≈10^6.68)与 DeepSeek 的deepseek-v3-0324(约 $0.394/百万 token,Usage≈10^6.55),在保持较强能力的同时提供低价,因此成为高体量、长上下文工作负载的默认选择。 - 高端领导者(Premium leaders):如 Anthropic 的
claude-3.7-sonnet与claude-sonnet-4(约 $1.9–$2/百万 token,Usage≈10^6.8+),尽管价格较高,仍获得极高使用量,说明用户愿意为高质量推理与可靠性买单。 - 长尾模型(Long tail):如
qwen-2-7b-instruct与ibm/granite-4.0-micro等,价格仅为每百万 token 几美分,但总使用量仅在 10^2.9 左右,反映出受限的模型—市场契合、可见度不足或集成场景有限。 - 高端专家(Premium specialists):如 OpenAI 的
gpt-4与gpt-5-pro,成本约为 $35/百万 token,而使用量仅在 10^3.4 量级。它们主要被用于少量高风险、结果价值远高于 token 成本的任务中。
整体来看,该散点图强调了 LLM 市场中的定价权并非均匀分布:更便宜的模型可以通过效率与集成驱动规模,而高端产品仍在高风险场景中保持强劲需求。这种分化表明市场尚未被「商品化」,在延迟、上下文长度与输出质量等维度上的差异,仍然是重要的战略优势来源。
战略观察
作者据此总结了一些观察:
- 宏观层面需求缺乏价格弹性,但掩盖了微观行为差异。 企业在关键任务上愿意支付高价,因此这些模型的使用量仍然很高;而爱好者与开发流水线则拥有极高的成本敏感度,并会转向更便宜的模型,从而推高高效模型的总体使用量。
- 存在一定的「朱文斯悖论」迹象。 当某些模型变得极其便宜(且更快)时,人们会在更多场景下使用它们,最终消耗更多 token。我们在高效巨头组中看到了这一点:随着单位成本下降,这些模型被集成到各种场景中,总体消耗暴涨(用户运行更长的上下文、更多迭代等)。
- 质量与能力往往比成本更重要。 昂贵模型(例如 Claude Sonnet 系列、GPT-4)的高使用量表明,如果模型在能力上显著更好、或在可信度上具备优势,用户愿意承担更高成本。通常这些模型被嵌入在工作流中,在这些工作流里,API 成本相对于所创造的价值几乎可以忽略不计(例如,能节省一小时开发者时间的代码,其价值远超几美元的 API 调用)。
- 仅仅便宜远远不够,模型还必须足够有差异化且足够能打。 很多价格接近零的开源模型,若只是「刚刚够用」,却找不到清晰的工作负载—模型契合点,或可靠性稍显不足,开发者就会犹豫是否进行深度集成。
从运营者视角来看,几个战略模式也随之浮现。Google 等提供方大量采用分层产品策略(典型如 Gemini Flash 与 Pro),在速度、成本与能力之间进行显式权衡。这种分层支持按价格敏感度与任务关键程度进行市场细分:轻量任务路由到更便宜、更快的模型,复杂或对延迟不敏感的任务则交给高端模型。
在很多场景中,「针对用例与可靠性进行优化」与「降价」同样重要,甚至更重要。更快且针对特定用途构建的模型,往往比更便宜却不够稳定的模型更受青睐,尤其在生产环境下。这一趋势将关注点从「每个 token 成本」转移到「每次成功完成任务的成本」。相对平坦的需求弹性说明 LLM 目前尚未变成完全同质化的商品——很多用户仍然愿意为质量、能力或稳定性支付溢价。只要任务结果本身的重要性远高于 token 成本,差异化就仍然具备价值。
9. 讨论
本实证研究从数据角度呈现了 LLM 在真实世界中的使用方式,为关于 AI 部署的「常识性看法」添加了若干重要修正。作者归纳出若干主题:
1. 多模型生态
分析结果表明,没有任何单一模型主导所有使用场景。相反,我们观察到一个丰富的多模型生态:闭源与开源模型都占据了相当的份额。例如,尽管 OpenAI 与 Anthropic 模型在许多编程和知识任务上处于领先地位,DeepSeek 与 Qwen 等开源模型合计在某些时间段承担了超过 30% 的总 token。这说明 LLM 的未来很可能是模型不可知(model-agnostic)且高度异质的。对开发者而言,这意味着需要保持技术栈的灵活性,集成多种模型并为不同任务选择最合适的一个,而不是把全部赌注压在某一个「赢家通吃」模型上。对模型提供方而言,这也提醒他们:竞争可能来自出人意料的方向(例如社区模型),除非持续改进并保持差异化,否则原有市场份额随时可能被侵蚀。
2. 超越生产力的使用多样性
一个颇为意外的发现是,角色扮演与娱乐型使用的体量极其庞大。超过一半的开源模型使用来自角色扮演与故事创作;即便在专有平台上,早期 ChatGPT 使用中也有相当一部分属于休闲与创意用途,随后才逐渐被专业场景赶超。这与「LLM 主要用于写代码、处理邮件或生成摘要」的直觉相矛盾。实际上,很多用户使用这些模型来获得陪伴或探索性体验。
这带来了重要启示:它凸显了面向消费者的应用机会——将叙事设计、情绪共鸣与交互性结合在一起;也预示了个性化的新前沿:能够演化人格、记住偏好并维持长时交互的智能体。同时,它也会重塑模型评估标准:成功与否可能不再取决于事实准确性,而更多取决于连贯性、一致性以及维持吸引人对话的能力。最后,它为 AI 与娱乐 IP 的交汇打开了空间,例如互动叙事、游戏以及由创作者驱动的虚拟角色。
3. 智能体 vs 人类:智能体式推理的崛起
LLM 使用正从单轮交互转向智能体式推理:模型不再只生成一次性回复,而是在多个步骤中进行规划、推理与执行。它们会协调工具调用、访问外部数据并迭代改进输出以实现目标。早期证据显示,多步查询与链式工具使用正在上升,我们可以将其视作智能体用法的代理。随着这一范式扩张,评估将从「语言质量」转向「任务完成度与效率」。下一个竞争前沿是:模型在多步推理上的持续表现——这可能最终重塑我们对大规模智能体式推理的实际含义的理解。
4. 地理视角
LLM 使用正变得愈发全球化与去中心化,北美之外的增长异常迅速。亚洲在总 token 需求中的份额从约 13% 增长到 31%,反映出更强的企业采用与创新动力。同时,中国已成为重要力量,不仅在本地消费上表现突出,也通过 Moonshot AI、DeepSeek、Qwen 等模型向全球输出具有竞争力的系统。更广泛的结论是:LLM 必须在全球范围内都具有实用性——能够在不同语言、语境与市场中表现良好。下一阶段的竞争将更多取决于文化适应性与多语能力,而不仅仅是模型规模。
5. 成本与使用动态
目前 LLM 市场尚未完全表现为典型「商品市场」:价格本身对使用量的解释力有限。用户在决策时,会将成本与推理质量、可靠性以及能力广度综合权衡。闭源模型继续占据高价值、与收入高度相关的工作负载,而开源模型则在成本更敏感、体量更大的任务上占据优势。这形成了一种动态均衡:并非由稳定性定义,而是由开源模型从下方持续施加的压力所塑造。开源模型不断推动效率前沿(efficient frontier),尤其是在推理与编码领域(例如 Kimi K2 Thinking),通过快速迭代与 OSS 创新缩小与闭源前沿的差距。每一次开源模型能力的提升,都会压缩专有系统的定价空间,迫使它们通过更强的集成能力、一致性与企业支持来证明溢价合理性。这种竞争快速、非对称且持续变化。随着质量收敛加速,价格弹性很可能会逐渐增加,使原本高度差异化的市场变得更加流动。
6. 留存与「灰姑娘水晶鞋」现象
随着基础模型的能力以「跃迁」而非「渐进」方式提升,留存已成为衡量护城河的真正指标。每一次能力突破都会创造一个短暂的发布窗口,使得模型可以完美匹配某个高价值工作负载(即「灰姑娘水晶鞋」时刻),一旦用户找到这种契合便会长期停留。在这一范式下,产品—市场契合实质上就是工作负载—模型契合:率先解决真实痛点的模型,将驱动深入且黏性的采纳,用户会在其之上建立工作流与习惯,迁移成本因此在技术与行为层面双双升高。对构建者与投资者而言,需要关注的不是单纯的增长曲线,而是留存曲线——尤其是那些在模型迭代中仍然留存的基石 cohort。在一个高度快速演进的市场中,谁能及早捕获这些尚未被满足的重要需求,往往决定了谁能在下一轮能力飞跃后继续屹立不倒。
总体来看,LLM 正在成为跨领域类推任务的基础计算基底,从编程到创意写作皆是如此。随着模型不断进步与部署规模持续扩大,对真实使用动态的准确洞察将成为决策的关键依据。人们使用 LLM 的方式并不总是符合直觉预期,而且在国家、地区与用例之间存在显著差异。通过大规模观测使用行为,我们可以将对 LLM 影响的理解扎根于现实,从而确保后续的技术改进、产品功能或监管措施能够与实际使用模式与需求保持一致。作者希望本研究为更多实证工作打下基础,并鼓励 AI 社区在构建下一代前沿模型的同时,持续从真实世界使用中进行测量与学习。
10. 局限性
本研究反映的是在单一平台(OpenRouter)以及有限时间窗口内观察到的模式,因此仅能提供对更广泛生态的部分视角。一些维度,如企业内部使用、本地私有部署或封闭的内部系统,超出了我们的数据覆盖范围。此外,多数分析依赖于代理指标:例如通过多步交互或工具调用来推断智能体式推理,或通过计费信息而非精确定位数据来推断用户地理位置。因此,本文结果更适合作为行为模式的指示性信号,而非对底层现象的精确测量。
11. 结论
本研究从实证角度呈现了大语言模型如何逐步嵌入全球计算基础设施:它们已成为各类工作流、应用与智能体系统的核心组成部分,正在重塑信息生成、传递与消费的方式。
过去一年在「推理」观念上带来了质的飞跃。o1 级别模型的出现,使扩展式审慎推理与工具使用成为「新常态」,评估关注点从单轮基准测试转向以过程为中心的指标、在编排框架下的时延—成本权衡,以及任务完成质量。推理逐渐成为衡量模型如何通过规划与校验来交付更可靠结果的重要指标。
数据表明,LLM 生态在结构上是多元的。没有任何单一模型或提供方占据绝对主导;相反,用户会根据能力、延迟、价格与信任等维度,在不同情境下选择不同系统。这种异质性并非过渡阶段,而是市场的基本属性:它促进了快速迭代,并降低了生态对任何单一模型或技术栈的系统性依赖。
同时,推理本身也在发生变化。多步、工具联动的交互兴起,标志着从静态补全向动态编排的转变。用户正在将模型、API 与工具串联起来以完成复合目标,由此形成可以被称为「智能体式推理」的新范式。从诸多迹象来看,智能体式推理在推理总量中的占比将会、如果还没有的话,很快超过传统的人类主导推理。
在地理层面,格局也在朝着更加分布式的方向演进。亚洲使用份额持续扩张,而中国已同时成为模型的开发者与输出者,Moonshot AI、DeepSeek 与 Qwen 等玩家的崛起便是例证。非西方开源权重模型的成功表明,LLM 正在成为真正意义上的全球计算资源。
总的来说,o1 并没有终结竞争——恰恰相反,它拓展了设计空间。整个领域正在从单一大模型赌注转向系统化思维,从经验主义直觉转向可观测的度量,从榜单排名转向基于使用行为的实证分析。如果说过去一年证明了智能体式推理在大规模场景下是可行的,那么下一阶段的重点将是运营卓越:衡量真实任务完成情况、降低在分布漂移下的结果方差,以及让模型行为与生产级工作负载的实际需求更好地对齐。
译注
[注] Cohort(同期群):指在同一时间段内开始使用某个模型的用户群体。例如「2025 年 6 月 cohort」指的是 2025 年 6 月首次开始使用该模型的所有用户。Cohort 分析是追踪用户留存的标准方法,通过对比不同时期加入的用户群体的留存曲线,可以识别出哪些时期的用户具有更高的黏性。
参考文献
- R. Appel, J. Zhao, C. Noll, O. K. Cheche, and W. E. Brown Jr. Anthropic economic index report: Uneven geographic and enterprise AI adoption. arXiv preprint arXiv:2511.15080, 2025. https://arxiv.org/abs/2511.15080
- A. Chatterji, T. Cunningham, D. J. Deming, Z. Hitzig, C. Ong, C. Y. Shan, and K. Wadman. How people use ChatGPT. NBER Working Paper 34255, 2025. OpenAI
- W. Zhao, X. Ren, J. Hessel, C. Cardie, Y. Choi, and Y. Deng. WildChat: 1M ChatGPT interaction logs in the wild. arXiv preprint arXiv:2405.01470, 2024. https://arxiv.org/abs/2405.01470
- OpenAI. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024. https://arxiv.org/abs/2412.16720
- W. L. Chiang et al. Chatbot Arena: An open platform for evaluating LLMs by human preference. arXiv preprint arXiv:2403.04132, 2024. https://arxiv.org/abs/2403.04132
- J. Wei et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS, 35:24824–24837, 2022.
- S. Yao et al. ReAct: Synergizing reasoning and acting in language models. ICLR, 2023. https://arxiv.org/abs/2210.03629
- A. Grattafiori et al. The Llama 3 Herd of Models. arXiv preprint arXiv:2407.21783, 2024. https://arxiv.org/abs/2407.21783
- DeepSeek-AI et al. DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437, 2024. https://arxiv.org/abs/2412.19437
贡献
本工作得益于 OpenRouter 团队在平台、基础设施、数据集与技术愿景方面的基础建设。特别是,Alex Atallah、Chris Clark 与 Louis Vichy 提供了本研究得以展开所依托的工程基础与架构方向。Justin Summerville 在实现、测试与实验改进方面提供了关键支持;Natwar Maheshwari 负责发布支持;Julian Thayn 协助完成设计层面的修改。
Malika Aubakirova(a16z)担任第一作者,负责实验设计、实现、数据分析以及论文的完整撰写工作。Anjney Midha 提供了战略指导,并塑造了整体叙事与研究方向。
Abhi Desai 在其 a16z 实习期间,支持了早期探索性实验与系统搭建。Rajko Radovanovic 与 Tyler Burkett 在其 a16z 全职任期内,提供了多项关键组件上的技术洞见与实践支持。
所有贡献者都参与了讨论、提供反馈并审阅了最终稿件。
附录:各类别的子分类详情
本附录提供了三个主要使用类别的详细子分类分解,揭示了每个高体量领域内部的具体构成。
A.1 角色扮演类别详情
角色扮演类别内部的子标签构成如下:
| 子标签 | 描述 |
|---|---|
| Games/Roleplaying Games | 角色扮演游戏(占比约 50%+,最大子类别) |
| Books & Literature/Writers Resources | 书籍与文学/写作资源 |
| Adult | 成人内容 |
| Online Communities/Other | 在线社区/其他 |
| Arts & Entertainment/Comics & Animation/Anime & Manga | 艺术与娱乐/漫画与动画/动漫 |
| Books & Literature/Fan Fiction | 书籍与文学/同人小说 |
| Online Communities/Dating & Personals/Personals | 在线社区/约会与交友/个人交友 |
| Online Communities/Dating & Personals/Other | 在线社区/约会与交友/其他 |
| People & Society/Family & Relationships/Romance | 人文与社会/家庭与关系/浪漫情感 |
图表显示,角色扮演游戏(Games/Roleplaying Games)始终占据约 50% 的 token 份额(图中标注的虚线),其余份额分布在写作资源、成人内容、动漫、同人小说等创意对话类别之间。
A.2 编程类别详情
编程类别内部的子标签构成如下:
| 子标签 | 描述 |
|---|---|
| Computers & Electronics/Programming/Other | 计算机与电子/编程/其他(占比约 65%,最大子类别) |
| Computers & Electronics/Programming/Development Tools | 计算机与电子/编程/开发工具(占比约 25-30%) |
| Computers & Electronics/Programming/Scripting Languages | 计算机与电子/编程/脚本语言 |
| Computers & Electronics/Programming/Java (Programming Language) | 计算机与电子/编程/Java |
| Computers & Electronics/Programming/C & C++ | 计算机与电子/编程/C 与 C++ |
| Computers & Electronics/Programming/Windows & .NET | 计算机与电子/编程/Windows 与 .NET |
图表显示,「编程/其他」(Programming/Other)占据了约三分之二的份额,表明用户的代码相关查询非常广泛且通用,而不是集中在某个特定的编程语言或工具上。开发工具(Development Tools)是第二大子类别,脚本语言、Java、C/C++ 等特定语言的占比相对较小。
A.3 技术类别详情
技术类别内部的子标签构成如下(按占比排序):
| 子标签 | 描述 |
|---|---|
| Computers & Electronics/Software/Intelligent Personal Assistants | 计算机与电子/软件/智能个人助理 |
| Computers & Electronics/Software/Business & Productivity Software | 计算机与电子/软件/商务与生产力软件 |
| Internet & Telecom/Web Services/Web Design & Development | 互联网与电信/网络服务/网页设计与开发 |
| Computers & Electronics/Software/Multimedia Software | 计算机与电子/软件/多媒体软件 |
| Computers & Electronics/Enterprise Technology/Data Management | 计算机与电子/企业技术/数据管理 |
| Computers & Electronics/Enterprise Technology/Helpdesk & Customer Support Systems | 计算机与电子/企业技术/帮助台与客户支持系统 |
| Internet & Telecom/Web Services/Web Stats & Analytics | 互联网与电信/网络服务/网站统计与分析 |
| Computers & Electronics/Software/Operating Systems | 计算机与电子/软件/操作系统 |
| Internet & Telecom/Other | 互联网与电信/其他 |
| Computers & Electronics/Computer Security/Network Security | 计算机与电子/计算机安全/网络安全 |
| Other | 其他 |
图表显示,智能个人助理(Intelligent Personal Assistants)和商务与生产力软件(Business & Productivity Software)是技术类别中最大的两个子类别,合计约占 40-50%。其余份额分布在网页开发、多媒体软件、数据管理、客户支持、网站分析、操作系统和网络安全等子类别之间。