缓存命中到底省了什么:从 KV 缓存到 Agent 里的 token 成本
很多人第一次接触“大模型缓存命中”,脑子里冒出来的直觉是:模型把上一次的内容记住了。
很多人第一次接触“大模型缓存命中”,脑子里冒出来的直觉是:模型把上一次的内容记住了。
我最早把 Thought 看得很重。
前两篇写 Planning 和 ReAct 的时候,我其实一直没把问题说到底。
我最早搭 Planning 模式的时候,觉得它比 ReAct 优雅很多。先花一点时间把任务想清楚,拆成步骤,排好依赖,再一条条往下走。不像 ReAct 那样边想边做,每一步都临场拍脑袋。Planning 看起来更有条理,也更可控。
我最早接触 ReAct 的时候,对它的理解很简单。模型先想一下,再调一个工具,拿到结果以后继续往下走。这个循环本身不复杂,真正难的地方,看起来也很明确:提示词怎么写,工具描述怎么给,示例要不要补,输出格式怎么约束。
用过大语言模型 API 的人大概都见过这两个参数——Temperature 和 Top-p。调一下,输出变了;再调一下,又变了。但到底怎么回事,很多人说不清。
前段时间和一位做 iOS 开发的朋友聊系统 API 的演进,他提到一个很有共鸣的观点:我们平时用得顺手的 API,即便曾经看起来稳定、安全,官方也可能因为底层优化或实现调整,悄悄改变它的运行语义。ImageIO 就是一个非常典型的例子。