AI agent 能算清自己的账单吗?一次关于token 消耗的系统分析

日期:2026-06-12 17:26:45 / 人气:3


论文题目:How Do AI Agents Spend Your Money?Analyzing and Predicting Token Consumption in Agentic Coding Tasks
论文地址:https://arxiv.org/pdf/2604.22750
发表时间:2026年4月24日
论文来源:arXiv
引子:一笔看不见的账单
想象这样一个场景:你雇了一位助理帮你修复一个软件bug。他埋头工作,翻阅文档、反复试错、运行测试,几个小时后交出成果,而你全程对本次服务的成本、耗时、成功率一无所知。更被动的是,即便最终问题没能解决,你依然需要为他所有的工作付出酬劳。
这正是当下AI编码智能体的真实使用困境。如今,Claude Code、Codex、Cursor等可自主读取代码库、调用工具、迭代修改问题的AI智能体,已深度融入软件工程落地流程,在SWE-bench Verified权威评测中,其准确率已突破78%,技术迭代速度十分惊人。但与能力同步攀升的,是愈发模糊、沉重的使用成本,无数用户都深陷相似的困惑:简单的编码任务为何需要多轮调试、频繁调用工具?更换底层模型后,效率与成本为何出现巨大落差?AI额度总是莫名耗尽?
这些行业普遍痛点,指向了三个核心且长期未被系统解答的问题:AI智能体的Token究竟消耗在哪些环节?不同底层模型的成本效率有何差异?能否在任务执行前精准预判AI的使用开销?
针对以上问题,密歇根大学、斯坦福大学、谷歌DeepMind、MIT等顶尖机构的研究者,基于OpenHands开源编码智能体框架,对8款前沿大模型在SWE-bench Verified数据集上的完整运行轨迹展开系统性分析,首次全方位拆解了AI智能体的Token消耗来源、模型效率差异与成本可预测性,为AI智能体的成本经济学研究奠定了基础。
一、为什么agent任务如此昂贵?远超常规代码任务的成本壁垒
想要破解AI智能体的高成本难题,首先需要厘清其与传统代码类AI任务的本质差异。研究者将代码相关AI任务划分为三个层级,分别是代码推理(无工具交互的单轮问题求解)、代码聊天(围绕编码问题的多轮对话交互)、智能体编码任务(AI自主操作代码库、工具迭代、闭环解决真实工程问题)。三者能力逐级进阶,成本开销也呈现出断崖式的指数级差距。
数据显示,典型的智能体编码任务平均消耗高达417万Token,而单次代码推理任务仅需1200Token左右,二者相差近千倍;对比多轮代码聊天任务,Token消耗也高出1200倍以上。对应的资金成本同样差距悬殊,智能体编码任务平均单次成本可达1.857美元,而代码推理、代码聊天的成本仅为0.016美元、0.023美元。
大众普遍默认AI成本主要来自模型的输出内容,也就是AI生成的文字、代码等输出Token,但本次研究颠覆了这一认知:智能体编码任务的核心成本来源是输入Token,而非输出Token,二者比例高达154:1,输入Token成为吞噬成本的绝对主力。即便各大厂商普遍上线上下文缓存机制,能够降低重复内容的处理成本,也无法改变输入Token主导整体开销的格局。
这一特殊的成本结构,根源在于AI智能体独特的工作模式。不同于一问一答的常规AI交互,编码智能体采用多轮迭代、长时序的工作逻辑,且当前主流产品均采用“全盘累积”的上下文管理策略。每一次文件读取、代码查询、工具调用、测试运行的结果,都会完整追加到对话历史中,并在每一轮推理中重新输入模型。随着任务推进,上下文内容持续膨胀,Token消耗如同滚雪球般不断增加,直至逼近上下文上限才会启动压缩。这种特殊的运行机制,让智能体编码任务的成本逻辑,与传统聊天、单次推理任务存在本质区别,无法用过往的成本经验评判。
二、花得越多,做得越好吗?Token消耗的无效性悖论
高Token消耗的背后,并未匹配线性提升的任务效果,研究发现彻底打破了“多投入多产出”的朴素认知,揭示了AI智能体成本消耗的随机性与无效性特征。
首先,AI智能体的Token消耗具备极强的不稳定性与内生随机性。研究者对500个真实编码任务的统计显示,开销最高的任务与最低的任务,Token消耗差值可达700万;且高成本任务的运行波动幅度更大,成本可控性极差。更关键的是,完全相同的任务、相同的模型,多次运行的成本差异最高可达2倍。这意味着即便固定任务与模型,也无法预判单次运行的Token开销,为事前成本预估带来了根本性难题。
其次,Token消耗与任务准确率并非正相关,反而呈现出反向规律与边际递减特征。从跨任务维度来看,平均Token消耗越高的任务组别,整体准确率越低,直观体现了高成本与低效率的错配。从同一任务的多次运行维度来看,研究者将单次任务的四次重复运行按开销分为四档后发现:准确率仅在中低开销区间达到峰值,后续随着Token消耗持续攀升,准确率不再增长,甚至在最高开销区间明显回落。
研究者进一步拆解行为逻辑,找到了无效消耗的核心原因:高成本运行的背后,是大量冗余、重复的操作。数据显示,Token开销越高,AI重复查看、重复修改同一文件的频率越高。这些反复的无效操作不断堆砌上下文长度,持续消耗Token,却没有推动任务实质进展,最终形成“消耗越高、效率越低”的恶性循环。
该结论与近期测试时缩放研究成果高度契合:单纯增加模型计算量、延长思维链长度,并不会持续提升AI输出质量,反而容易放大干扰信息、催生无效推理循环。对AI编码智能体而言,盲目堆砌Token,绝非提升任务效果的有效路径。
三、哪些模型贵,哪些模型省?模型效率的固有差异
在统一的智能体框架与500个标准化任务下,研究者对8款主流前沿大模型的成本效率展开横向对比,涵盖闭源与开源两大品类:OpenAI的GPT-5、GPT-5.2,Anthropic的Claude Sonnet-3.7、Sonnet-4、Sonnet-4.5,Google的Gemini-3-Pro Preview,月之暗面的开源模型Kimi-K2,阿里的开源模型Qwen3-Coder-480B。
实验得出了极具参考价值的模型效率差异:Token效率是模型的固有属性,与任务难度无关。整体来看,GPT-5、GPT-5.2实现了低成本、高准确率的最优平衡,是综合效率最高的模型;而Kimi-K2、Claude Sonnet-4.5的成本开销显著更高,同任务下平均比GPT-5多消耗150万Token,且Kimi-K2呈现出“高消耗、低准确率”的最差表现。
为排除任务难度的干扰,研究者设置了双重对照子集:所有模型均成功解决的简单任务子集、所有模型均无法解决的高难度任务子集。结果显示,各模型的Token消耗排序在两个子集中完全一致,充分证明模型的成本差异来源于自身的搜索、阅读、决策策略,而非任务本身的难度。
同时,所有模型在失败任务中的消耗均高于成功任务,但超额消耗的幅度差异巨大。GPT-5系列在无解任务中仅出现小幅Token上涨,具备一定的“止损能力”;而Kimi-K2在失败任务中Token消耗暴涨近200万,核心缺陷是无法识别任务无解状态,不会主动终止无效探索,只会持续重试、反复读取上下文,造成大量无意义的成本损耗。
四、能不能在动手前准确报价?成本预测的双重困境
成本波动大、无效消耗多、模型差异大的现状,让事前成本预估成为行业刚需。研究者分别从“人类专家预判”和“AI自我预判”两个维度,测试了Token消耗的可预测性,最终发现当前阶段精准事前报价几乎无法实现。
首先,人类专家的难度判断无法匹配AI的成本消耗。SWE-bench Verified数据集依托资深工程师,将任务按人工耗时分为三档:<15分钟、15分钟–1小时、>1小时。行业普遍认为,人类感知的任务复杂度,应该与AI的Token消耗正相关,但数据显示二者相关性仅为0.32(Kendall τ系数),属于微弱关联。具体来看,6.7%的人工判定“简单任务”,Token消耗超过困难任务均值;11.1%的人工判定“困难任务”,消耗低于简单任务均值。这充分说明,人类认知中的编码难度,与AI实际的计算开销,是完全独立的两个维度。
既然外部人工判断失效,研究者进一步测试了AI的自我预估能力。实验保留AI智能体的全部工具与运行架构,仅将任务目标从“解决问题”改为“预估本次任务的Token消耗”,让AI自主探索代码库、评估任务复杂度,输出输入Token、输出Token、总Token的预估数值。
实验结果暴露了当前大模型的普遍短板:AI的自我成本预估能力极其有限。其一,预测精度极低,所有模型的预估与实际消耗仅为弱至中等相关,最高相关系数仅0.39(Claude Sonnet-4.5的输出Token预测),多数模型相关系数不足0.3;且输出Token预测难度更低、精度更高,输入Token受上下文累积、工具探索不确定性影响,几乎无法精准预判。其二,所有模型均存在系统性低估偏差,对输入Token的低估尤为严重,模型普遍无法预判长时序任务中上下文的膨胀幅度,始终过度乐观预估自身资源消耗。
从预测成本来看,新旧模型差距显著。早期的Claude Sonnet-3.7、Sonnet-4,预测所需Token成本甚至超过实际任务执行成本的2倍,完全得不偿失;新一代模型优化明显,多数预测开销低于实际任务的50%,但依旧无法实现精准预估。整体而言,当前AI自我预测仅能提供粗粒度的成本趋势参考,距离精准事前报价还有极大差距。
延伸讨论:账单背后,是AI的透明化、高效化与自我认知难题
本次研究的结论,不仅解释了AI智能体的成本乱象,更直指当前AI商业模式与技术能力的核心短板。在ChatGPT等通用对话模型中,订阅制、固定额度模式能够落地,核心原因是用户Token消耗可预判、波动小。但智能体编码任务彻底打破了这一逻辑,高度随机、难以预测的Token消耗,让固定定价、事前精准定价难以落地,按量计费仍是现阶段最可行的商业模式。
但这并不意味着用户只能被动承担未知成本。依托粗粒度的AI自我预测能力,可落地轻量化的成本管控方案:在任务执行前识别高开销风险任务,触发成本预警、用户二次确认机制,同时提供更经济的执行方案;搭配预算感知的工具调用策略,在运行中动态约束Token膨胀,减少无效消耗,逐步实现成本透明化、可控化。
更深层次来看,Token自我预估的本质,是AI智能体的行为自我认知能力。能否预判自身资源消耗、能否识别任务无解并及时止损、能否规划合理的执行路径,是自主智能体成熟度的核心标志。当前顶尖大模型普遍缺乏“自知之明”:看不清精准成本、止不住无效探索、做不好资源规划,这也是AI从工具走向自主智能体的核心瓶颈。
随着AI智能体从编码场景渗透到办公、研发、生产等更多领域,Token消耗的管控与预测问题将愈发突出。如何优化模型行为、减少无效计算、搭建精准的成本预估体系、构建可控的资源调度机制,将是未来AI智能体领域的核心研究方向。而终极命题始终清晰:我们能否打造出既高效解决问题、又能清晰认知自身成本与能力边界的AI智能体?
参考文献
arXiv论文:https://arxiv.org/pdf/2604.22750
项目网站:https://longjubai.github.io/agent_token_consumption/

作者:杏耀注册登录测速平台




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT © 杏耀注册登录测速平台 版权所有