AI原生应用蓬勃发展,豆包App以其卓越的表现,成为行业焦点。
QuestMobile2024年AIGC应用发展年度报告数据显示,截至2024年12月,豆包App月活跃用户规模复合增长率达到21.2%,强势突破7500万大关,在综合类AI原生App中以显著优势稳居榜首。
在综合类原生App呈现的二八流量格局中,豆包与另外两家头部应用共同包揽80%流量,凭借庞大的用户基础和高活跃度,成为行业发展的引领者。
1月22日,豆包大模型1.5Pro版本正式发布。此次更新进一步提升了豆包大模型的性价比:32k上下文长度的Doubao-1.5-pro处理100万token仅需8毛钱,输出100万token也只需2元。
然而,豆包并不是一味“卷”价格,而是真正做到在价廉物美的基础上实现收益。报道称,豆包大模型去年大幅降价后,毛利率依然为正。其中,字节跳动最新推出的豆包大模型1.5,在推理成本优化上取得进一步突破。在火山引擎上售卖API的Doubao-1.5-pro,毛利率仍能达到50%。
豆包App的领先,得益于其持续进化的模型能力。
豆包大模型1.5Pro综合能力显著增强,低训练/推理成本和高效模型结构全面提升多模态能力和推理能力,在多项公开评测基准上全球领先。模型训练过程中,豆包大模型1.5Pro未使用任何其他模型生成的数据,扎实不走“捷径”。
智商、情商、听说读写全面提升
豆包大模型pro 1.5在同一模型中融合并提升了视觉、语音等多模态能力,可为用户带来更自然、更丰富的交互体验。
它到底有多强?先看排名。
在多项基准测试里,豆包1.5 Pro的得分达到了全球领先水平
首先,在编程和数学能力方面,豆包1.5 Pro的表现属于行业第一梯队。
其次,在更适合中国人使用的中文理解方面更是明显优于海外模型。
图片来源:豆包技术博客
此外,豆包1.5 pro还是一个多模态模型,具备视觉、语音等多模态能力,而且多模态能力处于世界一流水平。
豆包1.5 pro的视觉推理能力表现优越,在各类评测基准上均取得了优异表现。
漂亮的参数背后是否有真材实料?一一来看。
首先,先看逻辑推理能力。
先来一道经典的爱因斯坦谜题开开胃。
这一问题豆包仅使用不到7秒的时间就解出了正确答案。
Doubao-1.5-pro-AS1-Preview模型能力更是炸裂,连网络梗知识都能给你分析得明明白白。
其次,视觉多模态性能进一步提升,从容应对更复杂场景。相比于上一版本,Doubao-1.5-pro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力,并让模型的回复模式变得更加精简、友好。在同一模型中融入强大的视觉理解能力,使模型可以同时理解虚拟和现实世界的各类视觉信号,更好地辅助人类决策。输入任意分辨率图像,无论是高清大图、低分辨率小图还是极端长宽比图像。豆包大模型都能根据需求,实现精准的特征提取和高效的计算性能,满足提问者对图像内容深度探索的需求。
笔者请求豆包批改图片中的英文作文,豆包很快就给出了评分与理由,并提出了修改意见。豆包对错误的识别异常精准,想来以后老师们改作业就有福了。
之后我们再加大难度,让豆包站在产品设计师的角度来评判一张椅子的产品设计图
这回答专业感爆表,以后做设计又要少熬几个通宵了。
豆包最新更新的语音模式更是一绝。语音多模态理解生成一体化,情商智商双双在线。在语音多模态上,豆包团队提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。这使得豆包语音模型可以理解各种人类情感,并完美的模仿出来。
01:42
除此之外,豆包连方言都能轻松解读。
03:31
豆包1.5 pro如何打破 “低价无高性能” 魔咒
长期以来,AI行业迷信“大力出奇迹”,认为优秀的大模型必定耗费巨大。低价和性能不可兼得。
许多同行为了降低成本,依赖外部数据或蒸馏其他大模型。
此前就有学者指出,蒸馏技术虽能提高效率,但存在巨大缺陷,就是被训练的模型(即“学生模型”)没法真正超越“教师模型”,会产生一种隐性天花板效应。更深层次看,过度依赖蒸馏可能会扼杀AI领域中新颖的、具有变革性的创意。
阿尔特曼也表示:“复制已有的东西容易,但创新却很难。”
图片来源:X
而豆包走的是另外一条路。豆包1.5 pro的训练过程中完全依靠自有数据,不仅保障了数据的独立性和可靠性,还有效避免了外部模型潜在的偏差影响。
其次,豆包1.5 pro采用MoE(混合专家)架构,通过训练-推理一体化设计,在保持强大模型性能的同时,极大地降低了推理成本。
从训练和推理效率的角度来说,豆包1.5 pro所使用的稀疏MoE 架构仅用较小参数激活,性能即可超过Llama3.1-405B等超大稠密预训练模型。
豆包团队通过对稀疏度Scaling Law(缩放定律)的研究,确定了性能和效率比较平衡的稀疏比例,让小参数量激活的模型同样能够达到当前世界一流大模型的性能。
此前的MoE架构普遍只能达到3倍杠杆的水平,而豆包1.5pro就把标准提升到了7倍。
在完全相同的9T tokens数据对比验证下,用激活参数仅为稠密模型参数量1/7的MoE(混合专家)模型,就超过了稠密模型的性能。不仅如此,得益于更优的预训练数据质量和训练超参,Doubao-MoE的性能同样可以超越总参数远大于它的超大规模稠密预训练模型,比如 LLaMA-3.1-405B,其训练数据为 15T tokens。
图片来源:豆包技术博客
另外,算法团队在预训练模型的基础上,设计了一系列模型参数动态调整算法,可以根据不同应用对模型性能的需求,从模型深度、宽度、MoE专家数、激活专家数、隐藏token推理等维度来选择扩增和缩小模型参数,灵活性和适配性拉满,最大程度达成模型能力与推理成本的最优平衡。
豆包大模型携手火山引擎,深度赋能千行百业
当下,人工智能已成为各行业转型升级的核心驱动力。豆包大模型凭借其卓越性能,在火山引擎的强力支撑下,正深度融入汽车、手机等诸多行业,重塑产业格局。
火山引擎作为字节跳动旗下云服务平台,帮助企业和开发者更方便地调用豆包大模型,大幅降低了使用成本,让企业能够以极低的成本获取强大的AI能力,真正实现了AI技术的普惠,为大中小企业在数字化转型过程中减轻了经济负担,加速了AI技术在各领域的广泛应用与深度融合。
据悉,豆包大模型已经与八成主流汽车品牌合作,并接入到荣耀、VIVO等多家手机品牌。此外,豆包视觉理解模型已经接入PC端产品。覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
火山引擎持续深耕技术研发,不断推动豆包大模型迭代升级。从豆包3D生成模型与火山引擎数字孪生平台 veOmniverse 协同打造物理世界仿真模拟器;到对标GPT-4o且价格优势显著的通用模型pro;再到音乐模型、文生图模型等功能的进阶突破,以及即将推出的视频生成模型1.5版和端到端实时语音模型所蕴含的巨大潜力,都彰显了其在AI领域的创新实力与全方位布局。在为企业提供丰富多样、高性能模型选择的同时,火山引擎还通过升级火山方舟、扣子和 HiAgent 等平台产品,助力企业高效构建自身AI能力中心,加速AI应用开发进程,全方位保障企业在智能化转型道路上稳步前行。
随着豆包大模型与火山引擎的深度融合与持续创新,在千行百业的渗透将更为深入,有望解锁更多创新应用场景,创造更大商业价值与社会福祉。
文/丘山