Agent挺好，就是推理太贵了...

12/17/25About 4 min

最近两天在按老板的要求尝试计算 Agent 推理的成本，算下来之后的整体感觉就是推理成本有点贵...

聊 Agent 推理成本之前，我想先简单聊一下模型中token的计费标准。

一般模型中token计费都是按照百万token多少钱这样的单位计算，比如最新的 OpenAI 推出的 gpt-5 输入百万token是 $1.25，输出百万token是$10.00。

问题来了，token 的计价原理是什么？是什么决定了 token的定价？我带着这个问题请教了一下 AI, 回答如下，很标准，我就不赘述了。

🚀 计算成本：定价主要基于模型推理时消耗的 GPU 算力和内存，输出 Token 成本远高于输入。

🧠 模型价值：模型能力越强（参数越多）、上下文越长，其提供的高级价值和高昂的研发成本越高，定价越高。

📉 市场策略：定价受市场竞争、用户定位和商业模式影响，以平衡成本回收和市场占有率。

回到 Agent 推理，本质上 Agent 推理也是在不断调用模型补全上下文，继续调用模型，一直这样循环直到任务完结。如果遇到比较复杂的 Agent 的编排，比如用到 Agent-SubAgent 这种结构，会在 Agent 切换调用的时候消耗很多额外的 Token；以及 Google 的 ADK 提供了 LoopAgent 这种编排 Agent 的结构，如果 Prompt 写的不足够好，循环三四遍调用那 Token 消耗就更多了。举个实际的例子，我们现在用的是 Agent-SubAgent(as tool) 的结构+GPT5 作为推理模型，在实际调用的时候，需要 SubAgent 去触发一个 Tool 执行，我们通过 GoogleADK 实现了对应的功能。在实际调用的时候就这样一个功能需要触发四次模型调用，大概是下面这样的，前两次 tool_call，一次是主 Agent 推理调用 SubAgent Tool，第二次是 SubAgent 调用了自己本身的 Tool 执行。后面两次是结果的回传，因为最终执行权还要回到主 Agent，所以多触发了一次模型的调用。

这样一次简单的推理的成本大概是 $0.04+，而且只是针对一个用户，如果一个用户平均每天推理 20 次（实际业务场景应该不止如此），一个月差不多就是 $0.042030=$24，已经比 GPT Plus 还要贵了... 这还是只是推理不算聊天的模型调用成本。所以就很容易理解当时 Cursor 顶着骂名也要修改token 使用协议，要不然得亏死，也能理解为什么现在做 AI 的产品很少让用户试用之类的，被薅的感觉不好受啊.. 为了降低成本就只能用更差的模型，比如 gpt-5-mini，成本是 gpt-5 的1/5，gpt-5-nana 是 gpt-5 的 1/25。所以就能理解为什么 GPT5.1 要在模型真正开始推理前做一个自动路由的机制，来自动分配到底应该使用什么模型。当然有的问题也确实用不到那么好的模型，但肯定有成本方面的考量。再看上面的图其实token用量并不大，5000 输出token换算成汉字也就差不多 5000 字，似乎也并不是很多，这种级别似乎还谈不上什么自己维护Agent上下文之类的优化技巧。回到我们日常使用 AI 的场景，每天 ChatGPT+Gemini 给我产出的回答+随便来个 DeepResearch 都得几万字，我们开会员不像 API 调用是通过计算token来计算使用费用，ToC 侧基本都是通过包月的方式来使用模型，尽管也有限制，但是重度使用一定是能回本的。再跑个题，像是 Cursor 这种工具，我 Pro 会员开了半个月的消耗就已经超了 $20 的成本价了... 通过计算成本也能理解为什么要限制好模型的使用率。

回到正题，具体到 AI 产品上 Agent 推理和调用是挺方便好用，但是架不住成本太贵了，同事开玩笑说，不会是模型厂商想要割大家吧😂