大模型商用格局雏形初现：Tokens用量决高下，火山引擎问鼎2024

明敏发自凹非寺
量子位 | 公众号 QbitAI

大模型应用落地元年，谁家业务更值得关注？

Tokens使用量，正在成为最关键的衡量指标。

量子位结合市场数据观察，2024下半年国内大模型商用落地日均Tokens消耗量翻了近10倍，从1000亿级规模到10000亿规模，只用了6个月，月复合增长率达到45%。其中，10-12月增长进一步提速。

其中，只有1家云厂商商用Tokens日均消耗量的月均复合增长率超过60%

它就是火山引擎

5月份，它还停留在日均百亿级Tokens水平，不及全行业1/5；8月初突破千亿Tokens大关，并在之后保持迅速增长，12月日均Tokens市场份额占比超50%，超过其他玩家份额总和。

（初期市场变化迅速，整体估算会偏小。各厂商数据不包含各家自研模型服务商的应用消耗，比如火山引擎——豆包APP）

什么概念？

这意味着平均每秒并发Token数约为750万。按照一个生成式AI模型单次响应平均需要处理1000个Tokens，每秒就要处理7500个用户请求。

突然拉开差距，背后核心影响因素还是AI原生应用爆发

根据对外披露数据，截至12月中旬，豆包大模型的日均Tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

据AI产品榜应用榜数据，2024年1月至10月，中国AI原生应用（APP）累计下载量排名前5名的总下载量已经达到了1.8亿；11月全球总榜前10名中，国产AI应用占两席，豆包以5998万月活位居第二，并保持着10%以上的增速

这一趋势给To B层面也带来深刻影响，最新披露的商用落地日均Tokens规模就是最直接的证明。

透过这一数据，大模型产业落地情况，在此变得更加清晰了一些。

为什么是Tokens消耗量？

在LLM中，Token是模型理解和生成的最小意义单位。它是将自然语言文本转换成可理解格式的关键步骤。

作为原始文本数据与LLM之间的桥梁，Token能帮助模型确保文本的连贯性和一致性，有效处理各种任务，如写作、翻译和回答查询。

随着趋势发展，下一个Token预测的方式也逐渐来到多模态领域，视觉Tokenizer能将视频和图像转换为离散Token，文本和音频的Token也可以进一步合并为一个多模态联合词汇表……这意味着，文字、图片、视频、语音等不同模态信息都可以经过Token被标准化为统一的符号系统。

在行业落地层面，这一定义也被进一步认可。

阿里集团吴泳铭曾在演讲中提到，生成式AI让世界有了一个统一的语言——Token。它可以是任何文字、图像、视频和声音的代码。大模型可以通过物理世界数据的Token化，理解真实世界的方方面面，有了这样的理解，AI就可以模仿人类去执行物理世界的任务，这将带来新的产业革命。

那么，Token作为单位能衡量什么呢？

预训练语料规模、上下文长度、推理长度……甚至是商业价值。

首先，模型预训练用了多少Token语料，代表了它的基础知识储备含量。目前市面上的通用大模型，预训练语料库规模都在几万亿Tokens水平。

其次，模型能够理解多少Token的输入和输出，反映了它的理解能力。大模型的上下文能力、处理速度，也是以Token为单位衡量。

第三，Token还是大模型推理算力的计量单位。比如底层芯片厂商如今都会通过“每秒生成Token的数量”来证明自家产品的硬件能力。甚至如果有的模型参数未公开，也能通过它的Token生成速度来倒推模型规模（在相同硬件上即可推算）。

最后，几乎顺理成章地，Token也成为大模型API的定价单位。

目前云厂商为大模型的定价模式固定为：千输入Tokens和千输出Tokens。经过1年价格战，现如今大模型的价格已经被打到1元可买百万Tokens。

△OpenAI API部分定价

各家如何降价？背后也是一套学问。

据火山引擎智能算法负责人、火山方舟负责人吴迪透露，大模型API定价是一个科学计算的结果，其中综合了AI Infra承载力、市场未来用量、模型成本下降三个变量

在国内，云厂商也早已用大模型日平均调用量来证明自家云服务能力。包括字节、百度、腾讯在内，都在长期披露此数据。

而日调用量的单位，还是Token。

Tokens消耗量暴增，为何是现在？

大模型趋势开启后，全行业Tokens消耗量与日俱增。

2024下半年开始，几乎到了有史以来最凶猛的增长期。

IDC分享，2023年12月中国生成式AI日均Tokens处理规模（除去自有业务和生成式AI应用）还停留在35亿。4个月后，该数字翻了将近10倍；再过半年后，这个数字已经预计为1.12万亿，一年时间翻了320倍。

结合厂商们近日披露的数据，这种趋势显然还在继续。

不过，为何是现在？

一方面，从技术角度来看，RAG、智能体、多模态兴起进一步拓宽大模型应用落地场景，加速了整体趋势进展。

大模型应用落地，最首要的难题就是如何让它更懂垂直领域、私域问题，让它能帮助某个特定企业解决实际场景问题。

RAG、向量数据库的优势正好可以解决这一问题。它能快速将企业积累的海量数据充分应用，解决大模型落地的“幻觉”问题。与Agent相结合，RAG可以快速落地于企业客服、AI NPC等场景。过去一年中，RAG也是云厂商们主推产品之一。

Agent则开启了新一代智能交互范式，在2024年几乎呈现了爆发式增长。从个人助手到企业级解决方案，Agent开始出现在金融交易、医疗诊断等垂直领域；通用领域，手机、PC等终端拥抱生成式浪潮，也选择将Agent作为切入口，重塑OS以及交互方式。

而多模态AI趋势，则进一步拓宽了大模型应用落地的范畴。人类接收的信息80%来自视觉，视觉将能极大程度拓展大模型的能力便捷。比如以Sora为代表的视频生成技术已经给全球影视行业带来冲击与新思考；AI视频通话成为Apple Intelligence最引人注目的能力之一；此外，以谷歌NotebookLM为代表的AI播客类应用也杀入大众视野，AI应用本身也因为多模态趋势而变得更加丰富。

这都为大模型应用落地打开了更多新思路。