上周,来自大模型第一股智谱的一则退款公告,在圈里引起热议。

因为算力紧张、体验不佳,智谱选择给Coding Plan用户限时退款。

有小伙伴开始吐槽智谱不靠谱,其实智谱这个情况不是个案。

最近各大模型服务商都在悄悄调整自家的Coding Plan策略:

有人限购,有人停售,有人直接不开,还有人悄悄更改了套餐配额。

这究竟是为啥?

只因以小龙虾为代表的智能体,烧tokens太凶引发算力荒,服务费们卖包月卖不起了。

小龙虾们有多凶?甚至,你早上只是跟小龙虾说句「你好」,它就烧了大把Tokens。

为啥小龙虾们烧起tokens来这么凶

按人类思维来讲,我说一句:How r u? 小龙虾回一句: I'm fine。最多再来个:thank you,and you?

整个过程,就应该这么简单和直接,看着也就十几个字节。

但是,小龙虾这类智能体的工作原理非常不同,它们干起活来极度内耗。

01 、固定「起步价」就很高

普通AI聊天工具起步价基本是0️⃣,小龙虾起步就10块。

你发给它的只有“你好”两个字,但它发给底层模型的,远远不止两个字。

小龙虾要先给大模型发的是本轮 system prompt,好比是小龙虾的岗位说明书。

这岗位说明书,就是第一笔基础开销,起手先吃掉一大截tokens。

02、工具本身也要占Tokens

OpenClaw不仅要把「可用工具名称」告诉模型,还要把工具的JSON schema一起发过去,这样模型才能知道怎么调用。

所以,工具有两层成本:工具列表文本 + 工具 schema,而且schema也计入上下文。

03、Skills列表也有额外开销

即便还没真正调用某个skill,系统提示词里也会先带一份紧凑版技能清单,告诉模型「有哪些技能,各自干什么」

这又是一笔tokens开销。

工具箱已经不轻了,再背一本员工上岗手册,token不高才怪。

04 、历史对话会反复重带

早上起来问了一句你好,但模型模型看到却是“你好 + 昨天你和我整段聊天历史”。

会话越长,每次新消息就越贵,大多数情况下,模型每次处理新消息,都要把前面的对话历史重新带一遍。

即便你做了压缩和剪裁,仍然要付出相当大的成本。

当你偶尔为小龙虾优秀的举一反三点赞,其实也在为tokens买单。

05 、前序工具输出还会占据窗口

第五笔大头,是旧资料的输出可能一直挂在窗口里,这是隐形大胃王。

如果前面读过网页、文件、日志、终端输出,这些工具调用的结果和附件也都算上下文。

05 、加载记忆文件,也要付出代价

你可能经常为小龙虾失忆烦恼,会在MEMORY.md文件上大费周章。

Memory不是免费外挂,它平时可以存在磁盘里,但只要本轮需要把记忆重新加载进模型窗口,它就会重新占用你的tokens。

除此之外,还有比如智能体会调用多个子智能体组团烧Token,或者你选的模型不够聪明,走弯路额外多烧Token,还有很多Skills还要调用额外的模型API等等。

智能体的工作流就是这种套路,大力出奇迹,肝就一个字,哪怕用户输入很短,系统内部也可能触发多步思考和多次模型调用。

它先把你的消息标准化、路由到当前 session。

然后拼一份系统提示,把工具、技能、工作区文件、身份、时间、运行元数据都塞进去。

再把整个会话历史、之前的工具结果、附件和摘要一起带上。

接下来所有工具 schema 一起发给模型。

模型收到后,还要先判断这句“你好”到底只是寒暄,还是一个任务开始信号。

如果你之前有很长的会话,它还可能读到缓存里的整段大上下文。

所以,你发一句“Thank you”,它会摆开架势,大马金刀的走完整套运行链路。

等他一顿操作猛如虎的完tokens,慢吞吞的回复你:谢谢夸奖,主人。

看到后台汹涌磅礴的tokens数据,你只想说:xxxk u

不要以为只有小龙虾这么肝,刚刚新蹿红的Hermes也一样。

所以,当我们使用这类智能体,应该养成一些好的习惯↓

①少跟龙虾寒暄,培养感情没用,把它当成喂不熟的狗,直接下命令。

②尽量精准完整的提示词,一次把任务说清楚。

③大日志、大代码库、大文档别图省事整个投喂。

④控制输出长度,明确回复的篇幅,减少废话。

⑤不要在一个Session里干到天荒地老,注意不同任务切换会话。

⑥没用的工具和Skills别整太多,不好用的测完及时删除。

⑦尽量选择更聪明的模型,少跑弯路,有些时候,便宜就是贵。

⑧有些免费AI聊天助手就能干的活(比如单步任务:P个图、翻译个文档),就别麻烦小龙虾了,浪费了Tokens效果还不好。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部