Agent挺好,就是推理太贵了...
最近两天在按老板的要求尝试计算 Agent 推理的成本,算下来之后的整体感觉就是推理成本有点贵...
聊 Agent 推理成本之前,我想先简单聊一下模型中token的计费标准。
一般模型中token计费都是按照百万token多少钱这样的单位计算,比如最新的 OpenAI 推出的 gpt-5 输入百万token是 $1.25,输出百万token是$10.00。
问题来了,token 的计价原理是什么?是什么决定了 token的定价?我带着这个问题请教了一下 AI, 回答如下,很标准,我就不赘述了。
🚀 计算成本:定价主要基于模型推理时消耗的 GPU 算力和内存,输出 Token 成本远高于输入。
🧠 模型价值:模型能力越强(参数越多)、上下文越长,其提供的高级价值和高昂的研发成本越高,定价越高。
📉 市场策略:定价受市场竞争、用户定位和商业模式影响,以平衡成本回收和市场占有率。
回到 Agent 推理,本质上 Agent 推理也是在不断调用模型补全上下文,继续调用模型,一直这样循环直到任务完结。如果遇到比较复杂的 Agent 的编排,比如用到 Agent-SubAgent 这种结构,会在 Agent 切换调用的时候消耗很多额外的 Token;以及 Google 的 ADK 提供了 LoopAgent 这种编排 Agent 的结构,如果 Prompt 写的不足够好,循环三四遍调用那 Token 消耗就更多了。举个实际的例子,我们现在用的是 Agent-SubAgent(as tool) 的结构+GPT5 作为推理模型,在实际调用的时候,需要 SubAgent 去触发一个 Tool 执行,我们通过 GoogleADK 实现了对应的功能。在实际调用的时候就这样一个功能需要触发四次模型调用,大概是下面这样的,前两次 tool_call,一次是主 Agent 推理调用 SubAgent Tool,第二次是 SubAgent 调用了自己本身的 Tool 执行。后面两次是结果的回传,因为最终执行权还要回到主 Agent,所以多触发了一次模型的调用。
这样一次简单的推理的成本大概是 $0.04+,而且只是针对一个用户,如果一个用户平均每天推理 20 次(实际业务场景应该不止如此),一个月差不多就是 $0.042030=$24,已经比 GPT Plus 还要贵了... 这还是只是推理不算聊天的模型调用成本。所以就很容易理解当时 Cursor 顶着骂名也要修改token 使用协议,要不然得亏死,也能理解为什么现在做 AI 的产品很少让用户试用之类的,被薅的感觉不好受啊.. 为了降低成本就只能用更差的模型,比如 gpt-5-mini,成本是 gpt-5 的1/5,gpt-5-nana 是 gpt-5 的 1/25。所以就能理解为什么 GPT5.1 要在模型真正开始推理前做一个自动路由的机制,来自动分配到底应该使用什么模型。当然有的问题也确实用不到那么好的模型,但肯定有成本方面的考量。再看上面的图其实token用量并不大,5000 输出token换算成汉字也就差不多 5000 字,似乎也并不是很多,这种级别似乎还谈不上什么自己维护Agent上下文之类的优化技巧。回到我们日常使用 AI 的场景,每天 ChatGPT+Gemini 给我产出的回答+随便来个 DeepResearch 都得几万字,我们开会员不像 API 调用是通过计算token来计算使用费用,ToC 侧基本都是通过包月的方式来使用模型,尽管也有限制,但是重度使用一定是能回本的。再跑个题,像是 Cursor 这种工具,我 Pro 会员开了半个月的消耗就已经超了 $20 的成本价了... 通过计算成本也能理解为什么要限制好模型的使用率。
回到正题,具体到 AI 产品上 Agent 推理和调用是挺方便好用,但是架不住成本太贵了,同事开玩笑说,不会是模型厂商想要割大家吧😂
