AI agent 能算清自己的账单吗？一次关于token 消耗的系统分析

日期：2026-06-12 17:26:45 / 人气：3

论文题目：How Do AI Agents Spend Your Money?Analyzing and Predicting Token Consumption in Agentic Coding Tasks
论文地址：https://arxiv.org/pdf/2604.22750
发表时间：2026年4月24日
论文来源：arXiv
引子：一笔看不见的账单
想象这样一个场景：你雇了一位助理帮你修复一个软件bug。他埋头工作，翻阅文档、反复试错、运行测试，几个小时后交出成果，而你全程对本次服务的成本、耗时、成功率一无所知。更被动的是，即便最终问题没能解决，你依然需要为他所有的工作付出酬劳。
这正是当下AI编码智能体的真实使用困境。如今，Claude Code、Codex、Cursor等可自主读取代码库、调用工具、迭代修改问题的AI智能体，已深度融入软件工程落地流程，在SWE-bench Verified权威评测中，其准确率已突破78%，技术迭代速度十分惊人。但与能力同步攀升的，是愈发模糊、沉重的使用成本，无数用户都深陷相似的困惑：简单的编码任务为何需要多轮调试、频繁调用工具？更换底层模型后，效率与成本为何出现巨大落差？AI额度总是莫名耗尽？
这些行业普遍痛点，指向了三个核心且长期未被系统解答的问题：AI智能体的Token究竟消耗在哪些环节？不同底层模型的成本效率有何差异？能否在任务执行前精准预判AI的使用开销？
针对以上问题，密歇根大学、斯坦福大学、谷歌DeepMind、MIT等顶尖机构的研究者，基于OpenHands开源编码智能体框架，对8款前沿大模型在SWE-bench Verified数据集上的完整运行轨迹展开系统性分析，首次全方位拆解了AI智能体的Token消耗来源、模型效率差异与成本可预测性，为AI智能体的成本经济学研究奠定了基础。
一、为什么agent任务如此昂贵？远超常规代码任务的成本壁垒
想要破解AI智能体的高成本难题，首先需要厘清其与传统代码类AI任务的本质差异。研究者将代码相关AI任务划分为三个层级，分别是代码推理（无工具交互的单轮问题求解）、代码聊天（围绕编码问题的多轮对话交互）、智能体编码任务（AI自主操作代码库、工具迭代、闭环解决真实工程问题）。三者能力逐级进阶，成本开销也呈现出断崖式的指数级差距。
数据显示，典型的智能体编码任务平均消耗高达417万Token，而单次代码推理任务仅需1200Token左右，二者相差近千倍；对比多轮代码聊天任务，Token消耗也高出1200倍以上。对应的资金成本同样差距悬殊，智能体编码任务平均单次成本可达1.857美元，而代码推理、代码聊天的成本仅为0.016美元、0.023美元。
大众普遍默认AI成本主要来自模型的输出内容，也就是AI生成的文字、代码等输出Token，但本次研究颠覆了这一认知：智能体编码任务的核心成本来源是输入Token，而非输出Token，二者比例高达154:1，输入Token成为吞噬成本的绝对主力。即便各大厂商普遍上线上下文缓存机制，能够降低重复内容的处理成本，也无法改变输入Token主导整体开销的格局。
这一特殊的成本结构，根源在于AI智能体独特的工作模式。不同于一问一答的常规AI交互，编码智能体采用多轮迭代、长时序的工作逻辑，且当前主流产品均采用“全盘累积”的上下文管理策略。每一次文件读取、代码查询、工具调用、测试运行的结果，都会完整追加到对话历史中，并在每一轮推理中重新输入模型。随着任务推进，上下文内容持续膨胀，Token消耗如同滚雪球般不断增加，直至逼近上下文上限才会启动压缩。这种特殊的运行机制，让智能体编码任务的成本逻辑，与传统聊天、单次推理任务存在本质区别，无法用过往的成本经验评判。
二、花得越多，做得越好吗？Token消耗的无效性悖论
高Token消耗的背后，并未匹配线性提升的任务效果，研究发现彻底打破了“多投入多产出”的朴素认知，揭示了AI智能体成本消耗的随机性与无效性特征。
首先，AI智能体的Token消耗具备极强的不稳定性与内生随机性。研究者对500个真实编码任务的统计显示，开销最高的任务与最低的任务，Token消耗差值可达700万；且高成本任务的运行波动幅度更大，成本可控性极差。更关键的是，完全相同的任务、相同的模型，多次运行的成本差异最高可达2倍。这意味着即便固定任务与模型，也无法预判单次运行的Token开销，为事前成本预估带来了根本性难题。
其次，Token消耗与任务准确率并非正相关，反而呈现出反向规律与边际递减特征。从跨任务维度来看，平均Token消耗越高的任务组别，整体准确率越低，直观体现了高成本与低效率的错配。从同一任务的多次运行维度来看，研究者将单次任务的四次重复运行按开销分为四档后发现：准确率仅在中低开销区间达到峰值，后续随着Token消耗持续攀升，准确率不再增长，甚至在最高开销区间明显回落。
研究者进一步拆解行为逻辑，找到了无效消耗的核心原因：高成本运行的背后，是大量冗余、重复的操作。数据显示，Token开销越高，AI重复查看、重复修改同一文件的频率越高。这些反复的无效操作不断堆砌上下文长度，持续消耗Token，却没有推动任务实质进展，最终形成“消耗越高、效率越低”的恶性循环。
该结论与近期测试时缩放研究成果高度契合：单纯增加模型计算量、延长思维链长度，并不会持续提升AI输出质量，反而容易放大干扰信息、催生无效推理循环。对AI编码智能体而言，盲目堆砌Token，绝非提升任务效果的有效路径。
三、哪些模型贵，哪些模型省？模型效率的固有差异
在统一的智能体框架与500个标准化任务下，研究者对8款主流前沿大模型的成本效率展开横向对比，涵盖闭源与开源两大品类：OpenAI的GPT-5、GPT-5.2，Anthropic的Claude Sonnet-3.7、Sonnet-4、Sonnet-4.5，Google的Gemini-3-Pro Preview，月之暗面的开源模型Kimi-K2，阿里的开源模型Qwen3-Coder-480B。
实验得出了极具参考价值的模型效率差异：Token效率是模型的固有属性，与任务难度无关。整体来看，GPT-5、GPT-5.2实现了低成本、高准确率的最优平衡，是综合效率最高的模型；而Kimi-K2、Claude Sonnet-4.5的成本开销显著更高，同任务下平均比GPT-5多消耗150万Token，且Kimi-K2呈现出“高消耗、低准确率”的最差表现。
为排除任务难度的干扰，研究者设置了双重对照子集：所有模型均成功解决的简单任务子集、所有模型均无法解决的高难度任务子集。结果显示，各模型的Token消耗排序在两个子集中完全一致，充分证明模型的成本差异来源于自身的搜索、阅读、决策策略，而非任务本身的难度。
同时，所有模型在失败任务中的消耗均高于成功任务，但超额消耗的幅度差异巨大。GPT-5系列在无解任务中仅出现小幅Token上涨，具备一定的“止损能力”；而Kimi-K2在失败任务中Token消耗暴涨近200万，核心缺陷是无法识别任务无解状态，不会主动终止无效探索，只会持续重试、反复读取上下文，造成大量无意义的成本损耗。
四、能不能在动手前准确报价？成本预测的双重困境
成本波动大、无效消耗多、模型差异大的现状，让事前成本预估成为行业刚需。研究者分别从“人类专家预判”和“AI自我预判”两个维度，测试了Token消耗的可预测性，最终发现当前阶段精准事前报价几乎无法实现。
首先，人类专家的难度判断无法匹配AI的成本消耗。SWE-bench Verified数据集依托资深工程师，将任务按人工耗时分为三档：<15分钟、15分钟–1小时、>1小时。行业普遍认为，人类感知的任务复杂度，应该与AI的Token消耗正相关，但数据显示二者相关性仅为0.32（Kendall τ系数），属于微弱关联。具体来看，6.7%的人工判定“简单任务”，Token消耗超过困难任务均值；11.1%的人工判定“困难任务”，消耗低于简单任务均值。这充分说明，人类认知中的编码难度，与AI实际的计算开销，是完全独立的两个维度。
既然外部人工判断失效，研究者进一步测试了AI的自我预估能力。实验保留AI智能体的全部工具与运行架构，仅将任务目标从“解决问题”改为“预估本次任务的Token消耗”，让AI自主探索代码库、评估任务复杂度，输出输入Token、输出Token、总Token的预估数值。
实验结果暴露了当前大模型的普遍短板：AI的自我成本预估能力极其有限。其一，预测精度极低，所有模型的预估与实际消耗仅为弱至中等相关，最高相关系数仅0.39（Claude Sonnet-4.5的输出Token预测），多数模型相关系数不足0.3；且输出Token预测难度更低、精度更高，输入Token受上下文累积、工具探索不确定性影响，几乎无法精准预判。其二，所有模型均存在系统性低估偏差，对输入Token的低估尤为严重，模型普遍无法预判长时序任务中上下文的膨胀幅度，始终过度乐观预估自身资源消耗。
从预测成本来看，新旧模型差距显著。早期的Claude Sonnet-3.7、Sonnet-4，预测所需Token成本甚至超过实际任务执行成本的2倍，完全得不偿失；新一代模型优化明显，多数预测开销低于实际任务的50%，但依旧无法实现精准预估。整体而言，当前AI自我预测仅能提供粗粒度的成本趋势参考，距离精准事前报价还有极大差距。
延伸讨论：账单背后，是AI的透明化、高效化与自我认知难题
本次研究的结论，不仅解释了AI智能体的成本乱象，更直指当前AI商业模式与技术能力的核心短板。在ChatGPT等通用对话模型中，订阅制、固定额度模式能够落地，核心原因是用户Token消耗可预判、波动小。但智能体编码任务彻底打破了这一逻辑，高度随机、难以预测的Token消耗，让固定定价、事前精准定价难以落地，按量计费仍是现阶段最可行的商业模式。
但这并不意味着用户只能被动承担未知成本。依托粗粒度的AI自我预测能力，可落地轻量化的成本管控方案：在任务执行前识别高开销风险任务，触发成本预警、用户二次确认机制，同时提供更经济的执行方案；搭配预算感知的工具调用策略，在运行中动态约束Token膨胀，减少无效消耗，逐步实现成本透明化、可控化。
更深层次来看，Token自我预估的本质，是AI智能体的行为自我认知能力。能否预判自身资源消耗、能否识别任务无解并及时止损、能否规划合理的执行路径，是自主智能体成熟度的核心标志。当前顶尖大模型普遍缺乏“自知之明”：看不清精准成本、止不住无效探索、做不好资源规划，这也是AI从工具走向自主智能体的核心瓶颈。
随着AI智能体从编码场景渗透到办公、研发、生产等更多领域，Token消耗的管控与预测问题将愈发突出。如何优化模型行为、减少无效计算、搭建精准的成本预估体系、构建可控的资源调度机制，将是未来AI智能体领域的核心研究方向。而终极命题始终清晰：我们能否打造出既高效解决问题、又能清晰认知自身成本与能力边界的AI智能体？
参考文献
arXiv论文：https://arxiv.org/pdf/2604.22750
项目网站：https://longjubai.github.io/agent_token_consumption/

作者：杏耀注册登录测速平台

AI agent 能算清自己的账单吗？一次关于token 消耗的系统分析

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →