作者 | 黄昱、陈瑛羿
编辑 | 周智宇
过去一年,基础大语言模型能力普遍提升、文生视频大模型崭露头角,在朝着AGI前进的道路上,2025年更多成熟的多模态大模型将进入市场。
多模态的战火愈演愈烈,稳坐全球游戏头把交椅的腾讯,正在瞄准游戏研发需求很大的3D生成持续发力。
1月21日,腾讯正式推出并开源混元3D生成大模型2.0版本,还同步上线了业界首个一站式、低门槛3D内容AI创作平台——混元AI 3D创作引擎。
交流会上,腾讯混元3D负责人郭春超表示,混元AI 3D创作引擎的价值在于,解决3D创作需求多,但普通人不会做,专业人士做的很慢的问题。“这也导致传统3D模型的创作成本是很高的,一个3D模型最便宜要接近百元,贵的话10万。”
早在去年11月,腾讯就发布且开源了混元3D生成大模型1.0,支持企业及开发者精调和部署。
仅仅时隔两个月,腾讯又有大动作,这意味着,腾讯瞄准了AI 3D领域,要在此持续发力,争当行业先锋。
对比1.0版本,混元3D生成大模型2.0版本也依然同时支持文、图生3D的能力,不同的地方在于,通过将几何、纹理解耦生成,2.0版本在生成效果上得到显著提升,在几何结构上更加精细,纹理色彩更加丰富。
据悉,3D生成模型主要包括几何和纹理生成两部分,其中,几何大模型专注于捕捉物体的形状、结构和空间关系,而纹理大模型则专注于颜色、细节和表面特征。这种专注性使得每个模型能在其领域内进行更深入的学习和优化,而几何与纹理解耦生成的方式,让整体生成能力达到更高上限,能够生成更为精细和真实的3D结果。
搭载2.0版本的3D AI创作引擎,可通过一句话、提示词或图片,直接生成3D模型。除了基础模型生成外,该引擎还有3D功能矩阵、3D编辑、3D生成工作流、创作素材库等多种功能。
也就是说,这个3D内容AI创作平台具有“低门槛、高效率”的特征,在助力游戏开发、设计建模等专业领域的3D生产管线的同时,也可以支持普通爱好者生成UGC 3D内容。
与很多大模型厂商不同,腾讯始终以“产业实用”作为发展大模型的核心战略,而腾讯自身也有丰富的业务场景去实践。
腾讯混元大模型已经在腾讯内部超过700个业务场景中落地应用,混元3D生成大模型也已在腾讯的游戏、社交、腾讯地图、腾讯云、机器人等多个业务场景内测。
据悉,混元生成3D质量已能满足部分游戏3D资产标准,包括几何布线合理性、贴图准确性与骨骼蒙皮合理性等,据统计,通过混元3D创作平台的助力,腾讯游戏业务3D资产制作时间成本可从5-10天级别下降到分钟级。
游戏研发无疑是3D模型应用的重要场景,混元3D生成大模型2.0版本则让3D生成能真正应用到游戏研发中去。
腾讯游戏在研项目研发制作人王智刚在交流会上指出,现在市面上AI生成3D模型应用于游戏研发的主要挑战,包括模型面数控制能力、布线合理性、绑定骨骼的能力、蒙皮合理性等,这也导致绝大部分AI生成的3D模型不能应用到游戏中去。
混元3D生成大模型则在这些问题上有了明显改善。就面数控制能力而言,王智刚表示,面数控制能力其实对游戏研发来说是至关重要的,某些游戏项目需要的3D模型可能只有几千面,但一些大模型只能生成几万面,这就会导致游戏跑不起来。
“大家觉得如果不能做更高精度的模型好像显得模型能力不够强,但另一方面,如果在游戏研发里不能做面数控制更低的模型,其实也代表它能力不能行。”
王智刚称,腾讯混元团队能深入扎根来理解游戏整个研发的生产流程,所以能在理解真正痛点的情况下,会很克制的关注游戏研发的需求,而其它一些团队可能不一定有这么深的理解或关注,所以会跟业务应用之间还有脱节。
在王智刚看来,混元3D生成大模型已经基本能满足像微信小游戏这样的3D生成需求了。
多模态是大模型领域下阶段军备赛的焦点,还有很大提升空间。
郭春超指出,从技术而言,3D和视频的成熟度没有到充分的拐点,因为发展的时间相对短一些,但视觉合格率仅用一年时间就从20%提升到60%的水平,发展非常快。但是相比于生文达到95%,生图达到90%以上的合格率,它的成熟度、可用性处在前半赛场。
对于腾讯混元3D未来的发展方向,郭春超表示2.0的上限远远没有达到,所以“技术的方向一定是纵向深挖,横向拓展”,但一年后的形态很难预料,就像大家以前没有想到忽然跳出sora和GPT-4o,所以技术方面,可能会从量变引发一个拐点。
3D生成大模型的发展还面临不小挑战。
郭春超指出,一是数据的不足,只有千万量级的数据,并且没有被充分的利用。二是3D模型本身相对于别的模态约束比较少,比如视频虽然也是横向在时间轴上拓展,但是很少有突变,所以模型本身的技术挑战比较大。
多模态是大势所趋。开源证券指出,国内外AI多模态大模型的持续突破及后续商业化,或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本,提高IP开发、广告营销及教学效率,扩大商业化空间。
3D 生成大模型的战场已然十分火热,前不久李飞飞创业公司World Labs展示了一图生成3D世界的AI系统,字节、美团近日又联手投资了3D 生成大模型公司影眸科技。
可以预见的是,3D 生成大模型将成为2025年的热点之一。