国移动咪咕音乐党委书记、董事长、总经理 朱泓

去年这个时候,见到朱泓,他明显要兴奋很多。

彼时正值Suno V3版本刚发布,引爆了音乐圈,所有人都欢呼,音乐行业的“ChatGPT时刻”来了。

当时,钛媒体APP与中国移动咪咕音乐党委书记、董事长、总经理朱泓聊了聊,他对AI音乐前景满心期待。

他对钛媒体APP说,AI可以让你成为一个神,因为我们可能连五线谱都看不懂,但是没有关系,AI可以让普通人在内容生产上变得更全能,是人类智慧的延伸。

今年,钛媒体APP与他再次谈论起音乐大模型,感受到了多了一些冷静与理智。

“其实任何一个应用从‘好玩’到‘优美’,之间是有距离的。我们现在是‘好玩’的状态,还没有到特别美的状态。”朱泓对钛媒体APP说。

他说,艺术与技术的融合,还是要进一步深入的,还没有融合到特别好的状态。如果AI创作出来歌曲,我们一听,就觉得特别动听的时候,就到了“人人都是创作者”的时代。

“其实音乐让人满意,是最难的一件事。听音乐,叮叮当当的,好像很容易,但它必须打动情绪来加持。它是一个非常抽象的艺术。音乐,什么叫满意?我觉得我不好判断。我只能说,它会越来越让人愉悦。所以我们现在视频上也会投入更多,也是因为看到这个形态的落差。”朱泓说。

现实的确是如此。目前,一首高完成度的AI歌曲,中间饱含了大量人工手搓的成分。

举个例子,去年12月,钛媒体为T-EDGE大会创作了AI主题曲《One the EDGE of Tomorrow》,词、曲和MV,均由“AI工具+人工辅助”完成,让我们更进一步地感受到了AI全流程创作带来的惊喜。

这首曲作者之一,知名音乐人杨樾后来说,当时用AI工具生成了60多版曲谱,才找到那个对的感觉。而这支3分30秒MV诞生的背后,也花了钛媒体视频编辑近两天的时间,用AI生成多个片段,然后人工后期编辑完成。

至于为何Suno当时一度让国内音乐圈兴奋不已?或许,很大程度上,是因为这个产业,处于腾讯音乐和网易云音乐七三分主导的局面久矣。

市场渴望看到一些变化,尤其是在这个需要创意的产业。在两大巨头的夹缝之中,市场其他平台玩家,在以差异化的方式寻找突围路径。

咪咕音乐是离赛场最近的选手。

咪咕音乐的前身是,2006年成立的中国移动无线音乐基地。早期,中国移动依托彩铃业务,积累了大量音乐版权资源。比如,周杰伦和林俊杰等歌手的独家版权,是通过彩铃业务获取的。

很长一段时间,彩铃业务是中国移动的核心增值服务之一,也使得咪咕音乐在版权谈判中获得了不少优势,形成了庞大的曲库基础。这也解释了为何咪咕音乐至今仍保留彩铃功能,并成为其差异化竞争力之一。

当移动互联网开始普及,咪咕音乐逐渐从传统彩铃服务商,转型为综合音乐平台,彩铃仍是其核心功能模块。

随着5G和AI技术的发展,咪咕音乐推出视频彩铃服务。现在,用户可通过AI工具(如“一语成片”“一语成歌”“一图变装”)快速生成个性化的视频彩铃。

钛媒体APP了解到,咪咕音乐已经通过运营商资源,聚焦彩铃业务(尤其是力推视频彩铃)、AI工具和线下演艺,形成了独特的“音乐+智媒”模式。

截至2025年1月,全场景用户有1.63亿,超4.2亿视频彩铃用户,超8500万视频彩铃主叫用户,AI智创彩铃用户超1260万。

据朱泓透露,去年,咪咕音乐把视频彩铃从功能型业务,变成媒体性业务以来,一年之内实现了8000万月活用户,触达了8亿人。

AI大模型的急速进化,也给他带来了很多紧迫感。

“我们也是诚惶诚恐。很快,因为变化太快。”朱泓透露,DeepSeek开源之后,目前已有45%以上的央企接入,“它是一个倒逼机制,别人的效率和体验都提升了,你不做,你就被超越,或者被干掉。”

今年,咪咕音乐重点战略业务之一是,推广AI视频彩铃。

咪咕AI视频彩铃主打15秒的微短视频。朱泓认为,这个时长恰到好处,因为不仅对平台算力的需求量可控,而且,内容生成耗时是用户可接受的,是AIGC总体成本使用的平衡的最佳时长。

这个“15秒”,上一次被这样反复提及的时刻,还是4G和移动互联网普及,张一鸣最开始做短视频的时候。

拿下来“今日头条”这张王牌后,张一鸣宣布“All in短视频”,他当时力推主打“15秒”(而后拓展至更长时长)的抖音,突破了BAT时代巨头的围剿。

朱泓告诉钛媒体APP,把创作门槛降低以后,用户的热情是高涨的。他还用了一个年轻人易懂的词语来形容视频彩铃:通话皮肤,类似“游戏皮肤”的概念。

今年春节一个月期间,咪咕音乐激发了1300万人使用AI智创彩媒进行创作。

但他可能要面临一个问题是,外界普遍印象中,大家都不爱打电话,需要语音沟通的时候,更多的是启用微信的“语音通话”模块。

视频彩铃,还有可能成为一项极具前景的业务吗?

“这个问题是我经常被问到的。”朱泓对钛媒体APP说,他们做过一个全量的大规模调研,已经得出了结论,微信不会替代掉通话。

首先,通讯网络显示,最近三到五年的通话数据是平稳的;其次,在陌生人沟通过场景中,电话还是第一选择,是刚需。

在他看来,更为重要的是,在熟人场域之中,沟通重要事情的时候,电话是第一优先级,主要考虑到不会受到网络不稳定性的影响。

从最初音频彩铃到AI视频彩铃,彩铃始终是咪咕音乐的核心竞争力之一,AI视频彩铃在咪咕音乐新的商业化增量中扮演重要角色。

然而,对大众用户来说,在节衣缩食、减少娱乐消费开支的当下,尝鲜的热情过去之后,究竟还有谁会为视频彩铃额外单独付费?

个体商户,小微商家,以及,有宣传需求的个人可能更会。

基于手机通话场景,去年,咪咕音乐上线了一项“视宣号”的营销产品,依托咪咕音乐4000万正版曲库资源,为商户提供正版的门店公播音乐,解决店铺音乐的版权问题。

简单理解是,消费者拨打商家电话时,能在电话接通前,通过手机屏幕看到商家预先设置好的视频彩铃内容。而商家可以在屏幕中展示店铺最新的产品和活动信息等,并且,开通5G新通话之后,视频内容还可以在通话的过程中循环播放。

截至2024年11月,视宣号已覆盖20多个行业,吸引了150万家商户订购服务,计划在今年扩展超280万家商户。

以下是钛媒体APP与朱泓的对话实录,经编辑:

钛媒体APP:你之前谈到说,今年是智能体的元年,你是如何理解智能体的?

朱泓:我认为智能体的核心,首先解决的是,更高效地链接的问题。连接人的时候,智能体对人的理解力会大幅度提升,因为你老用它去学习,它就了解你的画像,了解你的习惯,大幅提升了对自己的理解。

第二个是多模态。交互的多模态,多种方式,让我们更便捷。智能体的发展,和智能眼镜的发展一体的。智能眼镜一发展,我们的语音交互体验会大幅度提升。

所以,智能体可以更理解你,另外,智能体可以和你自然交互的时候没有障碍,就连接人的这一面,很多问题解决了。

因为智能体能够连接非常多的模型,通过不同的模型解决不同的问题,进行非常方便地组合。智能体的灵活性又非常强,再加上基于大模型的推理和认知等,智能体能够成为每个人的贴身秘书。

钛媒体APP:是哪几个信号出现,让你觉得今年可以定义为智能体元年?

朱泓:信号是有的。第一,各个行业都在做智能体,我们自己也在做,而且做的难度也不高。我们很快就研发出来一些东西,出来之后表现直接就提升,这是最重要的。

还有,像DeepSeek这类大模型的开源,是一个触动。开源之后,很多公司对最新的AI科技应用的成本几乎就没有了,当然,还有硬件成本,软件成本没有了,所以,一下子,全行业立刻就得跟上。

这相当于科技平权带来的另外一个问题,就是你不跑,你就被别人所超越。所以,它是一个倒逼机制,别人的效率和体验都提升了,你不做,你就被超越,或者被干掉。今天跟不上,明年再跟就没有了。

钛媒体APP:我观察到咪咕音乐的智能体,目前以对话的形式呈现,聚焦在音乐的场景,除了这个之外,你对智能体会还会有哪些期待呢?

朱泓:肯定是会从我们的音乐场景慢慢扩展了,扩展到更多的应用场景,但是,我们先要把我们的音乐这个产品做好,只有做透了以后,我们再说其他的有没有机会。

钛媒体APP:去年咪咕音乐重点推出了与音乐大模型相关的应用,今年重点之一是接入了DeepSeek,你怎么看DeepSeek与音乐场景结合的?

朱泓:最近我们听了王兴兴的一个演讲,他谈到,DeepSeek这种推理模型和多模态的模型,是不一样的。多模态的核心是表达,而推理模型的核心是逻辑。你把叙事说出来,是文字,你得把它表达出来,所以,这两者是相辅相成的,非常重要。

他还说到一个是智能硬件的驱动,三类模型推动了整个AI大发展。我认为,在内容领域这两个可以搭配,写剧本可以靠DeepSeek,表达还得要多模态,这是一个并行发展的。

钛媒体APP:你们今年在AI大模型上会有哪些进展呢?

朱泓:我们音乐方面,智能体是重点要推动的,另外,就是AIGC的一些独特能力,比如说,数字人的交互,形象的介入,声音的优化,这些都是我们自己要去重点研发的。然后,对于推理类的模型,我们现在没有做,本来也没有做,就会接入DeepSeek,还有中国移动九天系列模型来做。

钛媒体APP:我看到咪咕音乐APP上的音乐智能体,也在跟一些第三方的模型厂商合作。

朱泓:比如说,天工音乐,是我们生态的一部分。我们一旦涉及文生音乐或者图生音乐,就是调用天工的能力。所以,我们就通过智能体这些模型进行组合,这也是整体好的地方,就很方便自己。

钛媒体APP:你去接触外部的模型商的时候,最看重的是什么?

朱泓:最看重他们在垂类模型上的引领能力。如果足够好,我们就合作。

钛媒体APP:其实讲到音乐大模型话,去年你谈到一点,音乐上,人人都可以创作的时代已经来了。但其实,去年一整年发展下来,AI音乐也没有大爆,没有形成一个全民音乐创作的时刻,你怎么看?

朱泓:对。是啥原因呢?我们也一直在跟进。任何一个应用从“好玩”到“很优美”,这之间是有距离的。我们现在是“好玩”的状态,还没有到特别美的状态。艺术与技术的融合,还要进一步去深入地推进,还没有融合得特别好啊。但是如果创作出来的歌曲,一听就特别动听的时候,那个时候,就到了人人都是创作者的时代。

钛媒体APP:你觉得那一天会来吗?

朱泓:会的,会非常快。

钛媒体APP:到了那一天,职业音乐创作者应该怎么选择?

朱泓:其实我的观点是,你要么被AI驾驭,要么你驾驭AI。那职业音乐人需要知道怎么驾驭它。你车跑那么快,你必须知道怎么去弄方向,AI还是有风险的。

钛媒体APP:对于创作者生态,你们对于AIGC创作也提出了一些分账体系?

朱泓:对,我们正在研究这件事情。我们将拿出5%到10%的收入,给到优秀的AI创作者。我们正在计划的一个方案,近期就会对外公布这个想法,对优秀的AI创作者给予相应的激励,刺激并促进整个生态的繁荣。

钛媒体APP:现在AI音乐创作出来的歌曲,还是有些同质化,刚开始感到新奇,但是不久后就会觉得厌倦,你认为呢?

朱泓:AI音乐模型是这样,用的人越多,它会越聪明。我们的这个大模型,也会不断地根据用户使用提升。所以,为什么我们要去刺激用户去使用,这是有原因的。越用越聪明,是在你既有的一套底层逻辑底层理论体系不变的情况下。

但是,我们现在的问题是,AIGC日新月异。也许某一天,一个新的模型出现,DeepSeek把OpenAI给干掉,是革命性的东西。我们现在是开放态度,你有我们就用。所以,我现在不能说,就慢慢训练它就会越来越动听,还是说,有一个新的模型出来让它越来越动听。我不知道,但是一切都有可能。

钛媒体APP:你觉得什么时候,我们可以真正看到AIGC音乐大爆发?

朱泓:其实音乐让人满意,是最难的一件事。听音乐,叮叮当当的,好像很容易,但它必须打动情绪来加持。它是一个非常抽象的艺术。音乐,什么叫满意?我觉得我不好判断,我只能说,它会越来越让人愉悦。所以我们现在视频上也会投入更多,也是因为看到这个形态的落差。

钛媒体APP:咪咕音乐现在重点打造的业务是AI视频彩铃,看着有点像互联网公司做短视频的早期,我能想象大概它的场景,以及,哪些人会用,但是,我们现在也感觉到一个趋势是,大家好像很少去打电话了,尤其是年轻人,更多是在打微信语音电话,所以,视频彩铃的前景会好吗?

朱泓:对。这个问题是我经常被问到的。其实我们做过一个比较全量的,非常大规模的调研,微信是否会代替通话。这个问题已经被解决掉了,为什么呢?因为从我们通信网的数据来看,最近三到五年基本上是平稳的,没有继续下跌。第二,在陌生人的沟通过程中,语音还是第一选择,陌生人之间没有微信。

还有就是重要的事情,是通话的第一优先级,我们很清楚,它不会受到网络的影响,必须保证重要的事情,一定是通过电话的方式来解决。所以在这些场景下,我们的价值仍然是非常高的,更何况,我们还有很多像5G新通话等其他通讯功能。

人们通过互联网进行的信息交互,也能够实现,就给老百姓一个选择权。通话不会消亡,它永远在一些特别场景是刚需,所以我们要把它做好。

钛媒体APP:AI视频彩铃现在主推15秒,后续这种视频产品会扩大时长,还是更多地提升15秒之内的表达能力?

朱泓:更多是在表达上。为啥呢?现在的短视频越来越短,我们其实是不适应这个潮流的。这既是一个平衡点,其实也是未来的方向,就是那么短的时间内,你怎么做更好地表达?其实非常难,越短越难。

钛媒体APP:如果我们基于音乐场景的话,可能还是要3-5分钟。

朱泓:创作高潮部分,原来也就是30秒或者45秒,就够了。你能记住就这么一些。

钛媒体APP:当年抖音、快手最开始也就是15秒,然后发展成了多元的生态。咪咕的15秒AI视频彩铃,也会遵循这个发展逻辑吗?你觉得它未来更多的想象空间在哪里?

朱泓:其实我们现在已经实现了,不用想象,它正在发生。你接电话以后的视频,把它连起来那就够了。你通一个电话,三五分钟,你打电话一接起来,视频声音断掉,你继续说你的,视频接着播放。

我跟他聊天,然后看视频。这就是我们马上要发生的事儿。这一下视频彩铃所传递的信息量就会非常丰富,表现力就会非常强。

钛媒体APP:在屏幕上不断地在播放视频,是要做下一个抖音?

朱泓:我觉得形态不一样,我们是运营商的形态。我们朝着运营商特色和互联网特点的路上,往前走。

钛媒体APP:那个不断播放通话视频场景,是不是可以承载很多商业化,挂个购物车,带个货什么的?

朱泓:对,可以。技术正在朝这个方向发展,但现在不具备。我们先把这个用户通话过程的视频播放的问题先解决掉。

钛媒体APP:视频彩铃业务一个很大的亮点,是今年春节期间这个用户暴增。

朱泓:对,我们一下就激发了用户参与创作的热情,因为我们春节那拨用户,是小白用户,不是PGC,也不是以前生产过视频的人。所以,从这件事情上,我们很有信心,所以我们才会讲,如果我们提供更多的场景,更好的工具,那会有更多的人参与。

钛媒体APP:你预期视频彩铃业务,将来会在整个咪咕音乐体系中,收入上会扮演一个什么角色?

朱泓:我们当然希望是我们主要的增长业务,因为我们看好这个未来,所以体系中,现在最看好这个。当然,因为每个人的创作热情,还远远没被激发出来,自我表达的热情,远远没有激发出来。

钛媒体APP:AI视频彩铃后续的市场拓展上有什么计划?

朱泓:我们本身就有很强的拓展能力,我们在运营商的渠道上就可以拓展。我们现在需要的是把产品做好,产品还在打磨。

打磨的方向是,让人们更容易去创造出他们想要的内容。就比如说刚才你说音乐这件事情,AI出的歌,你说特别美吗?还不够特别美。那么就怎么样让它更美,或者是,怎么样更好地理解每一个消费者,让他能够很好地去运用我们这个工具,这也是我们持续在做的事情。

整个AIGC肯定是没有到特别成熟的时候,还远远没有。但是我觉得会很快,我们也是诚惶诚恐。很快,因为变化太快。

我们现在是自研加开源合作。因为我们自己只能做一部分,做不了所有。自研这一块,刚刚提到的智能体,音乐类的,我们现在已经突破了音频这个事情,还要做一点音乐MV,这是我们的重点。

我发现其实我们这一套产品,那个商业模式,用户盘子天然就在那,包括模式是音乐,我们的手机要付费。

钛媒体APP:这样大规模投入AI建设,对你们来说,成本是可以覆盖的吗?

朱泓:我们现在是能覆盖。而且在算力成本方面,运营商有独特优势,因为我们提供算力网络,我们是基础设施的建设者。我们有这样一个盘子,就天然地适合我们去做投资,对运营商来说它就比较合理。(本文独家首发于钛媒体APP,作者|李程程)

ad1 webp
ad2 webp
ad1 webp
ad2 webp