据央视报道,截至3月15日,中国AI大模型的周调用量达到4.69万亿Token,连续第二周超越美国,全球调用量排名前三的位置被中国模型包揽。在对中国AI大模型高速发展感到兴奋的同时,也有不少民众对“Token”这个频繁出现在AI相关新闻里的外来词汇感到陌生。
奇安信安全专家张勇在接受采访时表示,Token中文翻译过来是“词元”,是“AI消化文字的最小单位”。为更方便理解,张勇用吃饭做比喻:“就像人吃饺子,不会一口吞下一整盘,而是一个一个吃。AI处理文字时,也先把句子切成一个个它能‘嚼得动’的小块,这些小方块就叫Token。” 对于AI切割长句子的过程,大致分为三种情况:一种是1个词是1个Token,比如“苹果”;另一种是1个字是1个Token,类似“啊”“呀”这种单字;还有一种是有些词会被切成多个Token,比如“deeplink”这个英文单词可能会被切成“deep”和“link”两个Token,生僻字也常被切成好几个Token。
张勇表示,在AI时代,Token有非常高的“含金量”,因为现在的大模型都是按Token收费的,而不是按“字数”或“提问次数”收费。例如,向大模型发问“你好”,可能花掉2个Token;模型回答一大段,花掉500个Token。钱包里扣的就是Token总数。
张勇说,与人类一口气说话一样,大模型一次能处理的内容也有上限,比如128k Token。这个上限不是你提问的字数,而是你的提问加模型回答的总Token数。如果聊的内容太多,模型就会“忘记”最早说的话,因为Token窗口被挤满了。
既然人类与大模型的互动是按Token收费,有没有便宜的窍门?张勇建议,和大模型对话时,尽量精简提示词,去除“礼貌废话”和啰嗦用语,比如“你好”“感谢”等,这样可以显著节省Token,因为大模型不需要礼貌用语来理解任务,每句客套话都在消耗输入和输出的Token。此外,用英文提问通常比中文更省Token,因为英文单词的Token密度更高。
Token调用量被用来衡量AI大模型的活跃度。张勇表示,不管是用户问AI问题,还是AI给出回复,都会被拆成一个个Token来运算,Token调用量越高,说明大模型被用得越多、越普及。Token调用量也是AI应用活跃度的关键指标,Token调用量越高,意味着模型被用得越多,AI的市场热度就越高。
接受采访时的专家表示,中国AI的使用规模越来越大,普及速度会非常快,未来发展潜力巨大。摩根大通预测,中国的AI推理Token消耗量将从2025年的约10千万亿增长至2030年的约3900千万亿,5年间增长数百倍。






