明敏 发自 凹非寺
量子位 | 公众号 QbitAI
大模型应用落地元年,谁家业务更值得关注?
Tokens使用量,正在成为最关键的衡量指标。
量子位结合市场数据观察,2024下半年国内大模型商用落地日均Tokens消耗量翻了近10倍,从1000亿级规模到10000亿规模,只用了6个月,月复合增长率达到45%。其中,10-12月增长进一步提速。
其中,只有1家云厂商商用Tokens日均消耗量的月均复合增长率超过60%
它就是火山引擎
5月份,它还停留在日均百亿级Tokens水平,不及全行业1/5;8月初突破千亿Tokens大关,并在之后保持迅速增长,12月日均Tokens市场份额占比超50%,超过其他玩家份额总和。
(初期市场变化迅速,整体估算会偏小。各厂商数据不包含各家自研模型服务商的应用消耗,比如火山引擎——豆包APP)
什么概念?
这意味着平均每秒并发Token数约为750万。按照一个生成式AI模型单次响应平均需要处理1000个Tokens,每秒就要处理7500个用户请求。
突然拉开差距,背后核心影响因素还是AI原生应用爆发
根据对外披露数据,截至12月中旬,豆包大模型的日均Tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
据AI产品榜应用榜数据,2024年1月至10月,中国AI原生应用(APP)累计下载量排名前5名的总下载量已经达到了1.8亿;11月全球总榜前10名中,国产AI应用占两席,豆包以5998万月活位居第二,并保持着10%以上的增速
这一趋势给To B层面也带来深刻影响,最新披露的商用落地日均Tokens规模就是最直接的证明。
透过这一数据,大模型产业落地情况,在此变得更加清晰了一些。
为什么是Tokens消耗量?
在LLM中,Token是模型理解和生成的最小意义单位。它是将自然语言文本转换成可理解格式的关键步骤。
作为原始文本数据与LLM之间的桥梁,Token能帮助模型确保文本的连贯性和一致性,有效处理各种任务,如写作、翻译和回答查询。
随着趋势发展,下一个Token预测的方式也逐渐来到多模态领域,视觉Tokenizer能将视频和图像转换为离散Token,文本和音频的Token也可以进一步合并为一个多模态联合词汇表……这意味着,文字、图片、视频、语音等不同模态信息都可以经过Token被标准化为统一的符号系统。
在行业落地层面,这一定义也被进一步认可。
阿里集团吴泳铭曾在演讲中提到,生成式AI让世界有了一个统一的语言——Token。它可以是任何文字、图像、视频和声音的代码。大模型可以通过物理世界数据的Token化,理解真实世界的方方面面,有了这样的理解,AI就可以模仿人类去执行物理世界的任务,这将带来新的产业革命。
那么,Token作为单位能衡量什么呢?
预训练语料规模、上下文长度、推理长度……甚至是商业价值。
首先,模型预训练用了多少Token语料,代表了它的基础知识储备含量。目前市面上的通用大模型,预训练语料库规模都在几万亿Tokens水平。
其次,模型能够理解多少Token的输入和输出,反映了它的理解能力。大模型的上下文能力、处理速度,也是以Token为单位衡量。
第三,Token还是大模型推理算力的计量单位。比如底层芯片厂商如今都会通过“每秒生成Token的数量”来证明自家产品的硬件能力。甚至如果有的模型参数未公开,也能通过它的Token生成速度来倒推模型规模(在相同硬件上即可推算)。
最后,几乎顺理成章地,Token也成为大模型API的定价单位。
目前云厂商为大模型的定价模式固定为:千输入Tokens和千输出Tokens。经过1年价格战,现如今大模型的价格已经被打到1元可买百万Tokens。
△OpenAI API部分定价
各家如何降价?背后也是一套学问。
据火山引擎智能算法负责人、火山方舟负责人吴迪透露,大模型API定价是一个科学计算的结果,其中综合了AI Infra承载力、市场未来用量、模型成本下降三个变量
在国内,云厂商也早已用大模型日平均调用量来证明自家云服务能力。包括字节、百度、腾讯在内,都在长期披露此数据。
而日调用量的单位,还是Token。
Tokens消耗量暴增,为何是现在?
大模型趋势开启后,全行业Tokens消耗量与日俱增。
2024下半年开始,几乎到了有史以来最凶猛的增长期。
IDC分享,2023年12月中国生成式AI日均Tokens处理规模(除去自有业务和生成式AI应用)还停留在35亿。4个月后,该数字翻了将近10倍;再过半年后,这个数字已经预计为1.12万亿,一年时间翻了320倍。
结合厂商们近日披露的数据,这种趋势显然还在继续。
不过,为何是现在?
一方面,从技术角度来看,RAG、智能体、多模态兴起进一步拓宽大模型应用落地场景,加速了整体趋势进展。
大模型应用落地,最首要的难题就是如何让它更懂垂直领域、私域问题,让它能帮助某个特定企业解决实际场景问题。
RAG、向量数据库的优势正好可以解决这一问题。它能快速将企业积累的海量数据充分应用,解决大模型落地的“幻觉”问题。与Agent相结合,RAG可以快速落地于企业客服、AI NPC等场景。过去一年中,RAG也是云厂商们主推产品之一。
Agent则开启了新一代智能交互范式,在2024年几乎呈现了爆发式增长。从个人助手到企业级解决方案,Agent开始出现在金融交易、医疗诊断等垂直领域;通用领域,手机、PC等终端拥抱生成式浪潮,也选择将Agent作为切入口,重塑OS以及交互方式。
而多模态AI趋势,则进一步拓宽了大模型应用落地的范畴。人类接收的信息80%来自视觉,视觉将能极大程度拓展大模型的能力便捷。比如以Sora为代表的视频生成技术已经给全球影视行业带来冲击与新思考;AI视频通话成为Apple Intelligence最引人注目的能力之一;此外,以谷歌NotebookLM为代表的AI播客类应用也杀入大众视野,AI应用本身也因为多模态趋势而变得更加丰富。
这都为大模型应用落地打开了更多新思路。
另一方面,随着一些标杆案例出现,大模型红利已经变得不容置疑。它不仅能帮助企业增效,而且落地周期短,千行百业对大模型都有着强烈需求。
IDC调研显示,大模型落地周期多在6-12个月(48.5%)和12-18个月(30.3%)之间。相比于其他IT解决方案可以更快上线,尤其是对于互联网企业或者已有AI应用基础的企业。
预计未来一年,大模型可帮助企业降低18%成本、增加2%收入、缩短24%流程时间,提高17%员工工作效率、提高7%资产利用率、提高19%产品创新水平。
比如互联网行业对于运营成本降低和产品设计创新有很突出需求,搜索问答、广告推送、商品推荐、营销文案生成、教育培训、办公辅助等均已开始规模化应用。
金融、智能终端、游戏、教育科研、汽车等领域的需求也在愈加明确,AI应用场景还在不断深入。
供给侧,行业内基础大模型格局逐渐稳定、大模型产品矩阵日渐完整,千行百业的需求到了可以实现的时刻。
最关键的是,模型费用在不断降低、模型能力在不断丰富,大模型行业在朝着更普惠的方向发展。
比如火山引擎Force冬季大会上,豆包视觉理解模型正式发布,为企业提供极具性价比的多模态大模型处理能力,0.003元/千Tokens输入,一元钱可以处理284张720P图片,比行业价格便宜85%。
两股趋势相融合,也就不难理解为何在2024下半年,市场整体Tokens使用量暴增。
数据增长背后是大模型在各个领域落地结果。
以火山引擎披露数据为例。豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。
Tokens成本还会降,规模化增长未到瓶颈
透过一系列大模型商用落地数据,大模型整体趋势发展脉络也更加清晰。
参考赛迪顾问《2024中国MaaS市场发展研究报告》,MaaS市场发展呈现出4方面特点:
- 第一,Agent加速下AI应用开发门槛持续降低,模型将进一步在场景中深度应用;
- 第二,成本因素影响,大小模型协同将成为主流趋势;
- 第三,模型推理工具链生态的不断完善,将提高MaaS的模型部署效率;
- 第四,“公有云+专有云”的MaaS部署模式将为企业用户提供安全与成本兼顾的解决方案。
MaaS市场内,Tokens成本还会进一步下降,规模化增长没有到瓶颈。
- 第一,大模型训练成本增速放缓。随着o1范式开启,推理侧算力需求将被更加重视。同时以DeepSeek V3为代表的模型还在进一步优化训练成本。
- 第二,算力领域来到“黄氏定律”时代,“GPU将推动AI性能实现逐年翻倍”、“没有任何物理定理可以阻止AI数据中心扩展到一百万芯片”。
- 第三,云厂商内部模式逐渐跑通,渠道进一步打开、生态进一步建立,成本也能进一步优化。
行业内对于未来的预估,也十分有信心。火山引擎智能算法负责人吴迪曾表示,2027年豆包每天Token消耗量预计超过100万亿,是原来的100倍以上。
对应来看,当下Tokens消耗量的暴增,或许还只是大模型应用落地爆发的开始,真正的规模化增长远没有到来。
现在,更像是一个冲出起跑线的时刻。
而谁能成为这场角逐中的引领者,透过Tokens消耗量这个核心指标,可以提前窥见端倪了。
大模型趋势正在进入全新阶段:大规模商用落地。
生产力释放背后,商业机会不断涌现。我们希望通过这一系列栏目提供一种视角,分析大模型应用落地早期阶段浮现出的种种规律变化,从技术维度把握创新浪潮背后的演化路线。
以上是量子位最新原创系列策划栏目「模力熵增」第二期。