昆仑万维并不是一家容易读懂的公司。成立17年,上市整10年,从浏览器、社交、搜索、游戏,到近两年涉足AI音乐、AI短剧等,它从未远离过大厂云集的风口。
但能在巨头卧榻之侧长久生存,昆仑万维总结出了一套独特而实用的“中厂”生存哲学:找准细分市场,不进红海;做好付费赛道,坚持盈利。
更多时候,昆仑万维贴紧大厂的节奏,又将触角伸向其射程外的市场。2023年,乘着AI的东风,昆仑万维股价在几个月时间里飙升了5倍。其实,昆仑万维的生意早已遍布五大洲70多个国家。
“宁为鸡口,不为牛后。”已加入昆仑万维17年的董事长兼CEO方汉言简意赅地对《财经天下》说。他总结,中厂要懂得从终局思考,在当下的大模型军备竞赛中,中厂更需要在自己熟悉的赛道中做到“SOTA”(State-of-the-Art,当前最佳技术或最前沿水平)。
去年4月,昆仑万维发布了第一代音乐生成模型Mureka V1(SkyMusic)。经过一年的改进调试,3月26日,昆仑万维上线了最新版音乐大模型Mureka O1与基座模型Mureka V6。“我们最后用了O1的名字,因为它是真正全面超过Suno的音乐生成模型。”方汉说。
除了新上线的音乐模型,方汉也与《财经天下》分享了他对当下火爆的AI Agent赛道的理解:“一流的企业做协议,二流的企业做产品,三流的企业做市场。现在大家不会再让一个公司去垄断所有,这里面(属于中厂和创业公司的)机会跟空间就非常多。”
▲昆仑万维董事长兼CEO方汉。图源/受访者
01、追逐SOTA红利,节省营销
昆仑万维之所以选择在音乐模型上“单点突破”,有内外因的考虑。“(音乐大模型)是一个比较窄的赛道,不像文本大模型那么热。算力成本低也是一个重要因素。”方汉说。
而在必要的训练数据上,昆仑万维也有不为人知的积累。2017年,K歌软件在国内蔚然成风,昆仑万维创始人周亚辉如法炮制,在海外孵化了音乐平台StarMaker。
他曾直言:最好的商业就是不竞争之地。彼时,昆仑万维便绕开了国内市场,将StarMaker的重心锚定在了中东、非洲、东南亚等地。
同时,为了解决大量歌曲缺少人声伴奏版本的问题,昆仑万维专门组建了AI作曲实验室StarX MusicX Lab,研发将近三年,将AI人声消除技术做到了世界头部水准。
这不仅为StarMaker带来了用户,也打下了日后研发音乐大模型的技术基础。“人类到现在为止,总共只生产了4000万首音乐。在这个过程中,我们对大量音乐进行了处理,也收集了全球各地的公开版权音乐。”
2022年底,StarMaker累计注册用户达3.1亿。“如果说谁家手上的全量音乐数据是最多的?我们可以说跟腾讯、字节一样,都是头部梯队。”方汉说。
2021年开始,昆仑万维便已立项了音乐生成模型。早期模型多采用符号生成技术,2024年4月,昆仑万维发布了第一代采用扩散生成技术的音乐模型Mureka V1(SkyMusic),获得了外界的不少好评。
对于新版Mureka O1,方汉给团队的定位非常明确:要从产品角度、技术角度全面超越Suno,在该赛道上做到SOTA。
为何要执着追求SOTA?源于方汉对昆仑万维“中厂”的定位。“有了SOTA,你可以不用做任何营销,产品红利会迅速地爆。”
他以DeepSeek-R1为例,凭借“推理大模型”的细分赛道SOTA,迅速抢占了中国文本大模型客户端第一的位置。在国外拉到了好多客户,也几乎没有花过PR费用。“我们很清楚,这一波大模型你没有SOTA,就拿不到技术跟产品红利。”
而在音乐大模型的评测中,Mureka O1在人声、BGM(背景音乐)、混音等方面已经领先Suno V4。同时,在海量曲库下,Mureka O1可支持10种语言,几乎覆盖了世界上90%的人群。
▲Mureka O1的多语言选择。来源/官网
Mureka O1在技术层是如何做到SOTA的?方汉表示:Mureka O1的最大突破便是首次将“思维链(Chain of Thought,简称‘CoT’)”技术引入到了音乐模型中。这也是方汉在研读了DeepSeek-R1的技术报告后,得到的启发。
CoT顾名思义,是在推理过程中加入了思考与自我批判。而市场的上一代音乐模型多基于Diffusion in Transformer(扩散模型与Transformer架构相结合的技术),比较随机、无目的。
方汉形容,这会让生成音乐的过程像“一锤子买卖”,一口气来十几首曲子,交给用户人工调整。
在CoT支持下,Mureka O1会更有目的,能在生成之前预测整个音乐结构,通过O1自有的评分模型,挑出最好的结果交给用户,从而让生成质量、歌词旋律契合度、发音唱对率、艺术表现力大幅提高。
“预测的过程,就是MusiCoT框架的核心。”方汉说。而评分模型则是基于StarMaker的用户积累,对Mureka V1生成结果的打分形成。
“这个数据只有在线上大量地跑,跑几千万首歌才能跑出来。我们再把这几千万的数据筛选、清洗、人工标注,最后得到真正用来训练的数据量其实不大——但那是最核心的数据。”
02、AI音乐要向谁收钱?
除了技术作为底座,Mureka O1也添加了多项功能创新。
此前在StarMaker上,昆仑万维观察到K歌产品里最受欢迎的歌手,往往是其音色与某一歌星相近的。因此在Mureka O1里,模型也为用户提供了“音色克隆”功能。
Mureka O1还新开放了“微调API”。例如冬不拉这种小众乐器很少出现在生成器选项中,但在Mureka O1上,用户可以通过上传大量由冬不拉演奏的音乐来微调模型,Mureka O1就能据此来生成高质量的冬不拉音乐。
那么,Mureka O1音乐大模型的用户群体是谁,商业模式又如何?方汉表示,最庞大的用户基础是C端爱好者。过去,生产一首专业音乐的成本要在10万元左右,AI音乐的介入将直接为他们降低创作门槛。
而在付费端,昆仑万维主要瞄准的是影视、游戏、音频等领域的从业者,付费用户可获得更高速度、优先的AI生成机会。
这有些不同于Suno的“走量模式”——目前Suno的免费会员每天最多生成10首歌曲;愿意支付每月8美元、24美元的付费会员,每月分别可生成500首和2000首歌曲。
而昆仑万维除了会员付费,更倾向于为B端客户提供专业功能,通过SaaS或PasS服务收费。2024年,昆仑万维的音乐大模型得到了如中国联通、中国移动,以及一些造车企业的大客户,和海外小B客户的合作。
方汉坦言,在国内靠用户订阅付费的商业模式还很难成立,坚持服务于有付费习惯的B端和C端用户,也是昆仑万维坚持出海的原因之一。“作为一个中厂,不赚钱就活不下去,这是很实际的问题。”
从商业模式上,昆仑万维认为Mureka O1更适合“平替”的是数字音乐工作站(Digital Music Workstation)。
这个市场原来更多服务于专业人士,“大概一年40亿美元规模,已经比较成熟了。而我们就好比为他们提供了一个平民化工具,类似给视频平台提供了‘剪映’。”
未来音乐大模型的发展方向会是怎样?中厂又该如何选择赛道?“这就要对终局反复思考”,方汉说。
“AGI是梦想,但AIGC更容易赚钱,AIGC皇冠上的明珠一定是视频生成。”而在视频生成中,还需要音乐、音效、音频来配合。
在整个视频生成生态中,昆仑万维又要如何卡位?“我们有音乐数据,先卡音乐的位置。有短剧方面的经验和渠道,再去卡短剧这个位置,不断地缩小我们的卡位。”
2月18日,昆仑万维在Hugging Face上开源发布了视频生成模型SkyReels-V1,两个星期左右,下载量超过了10万。
作为中国首个面向AI短剧创作的视频生成模型,SkyReels-V1不仅支持文生视频(T2V)、还能支持图生视频(I2V),是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标同样实现了开源SOTA。
方汉表示,SkyReels-V1定位是在短剧场景,而非一般视频生成。“更准确地说,这是一个表演大模型,专门为使用者和观众生产最高质量的短剧以及影视剧。”
03、中厂的卡位之路
在方汉的判断中,音乐和短剧市场的上限还极大。
例如,视频生成后,没有音乐,用各种各样的AI工具去匹配,让人去卡时间轴,还要卡得很准,是很困难的。而借助于音乐大模型,可以一揽子将视频、配音、配乐全部生成,“保证你的点是准的,这对于影视制作是非常强的协同”。
虽然与渠道之间的商业生态,仍会存在漫长的磨合过程,但对于广大MCN,尤其是短视频作者来说,AI音乐会让素人创作型歌手更容易冒出来,是确凿无疑的。
对于很多音乐创作者认为“AI音乐没有灵魂”的疑问,方汉认为,偏见需要时间去消除。“国内已经有顶尖创作者,比如郭帆导演与我们联系。2024年的春晚,也已经出现了AIGC的内容。比如任素汐跳舞的背景就是由AI生成的。”
作为“中厂”要如何处理与巨头的竞争关系,昆仑万维已习惯淡然处之。
“在AIGC上,中厂还是大有可为的。大厂本质上是to C基因,就像字节做剪映一样,它终归是为自己的平台去服务。对于其他客户的需求,响应得不会有那么多。”而昆仑万维正因为是“小厂”,从而更加开放,“什么样的视频生成模型我们都会去适配。”
特别是在DeepSeek引发了新一轮技术创新之后,AIGC技术将更多落实到产品上,也让中小厂的机会更多闪现出来。
方汉分享了一个行业观察:2023年创业的AI企业CEO几乎全是算法工程师,2024年开始有一些CEO是产品出身。“2025年往后,我觉得会有更多产品出身的人会去做AI产品。”
他表示:互联网行业人士常说,一流的企业做协议,二流的企业做产品,三流的企业做市场,在大模型领域也是如此。
例如,Anthropic做的MCP协议(模型上下文协议)在Agent领域应用非常广。“基于MCP协议开发的Agent,我们看到的已经有上万个了。”近日,OpenAI、谷歌、阿里也都纷纷仿效Anthropic,宣布拥抱MCP,上线了新的服务平台。
“Agent最后会都捆在一个模型当中吗?不可能,一定是所有的模型都适配。而从协议到生态,还有很长的路要走。”
方汉透露,有中国公司正在尝试做Agent的工作流生态。接下来,Agent要适配所有模型,要用什么协议来适配?千奇百怪的长尾需求谁来响应?要用什么样的工具去完成Agent Marketplace(用于展示和销售各种AI Agents)?在上层如何去管理Agent Marketplace?“这就涉及很多路径,有开源路径,有闭源路径。”
而AI生态的发展路径势必不会重复移动互联网的老路。“像安卓或者iOS商店那样,是所有人都不想看到的,因为大家在上面吃的苦头已经够多了。”
如何用更开放的生态来做Agent Marketplace,又要如何找用户去收费?类似Manus这样的Agent只是刚冒出来的事物,走到通用Agent市场将是漫长的过程。“大家不会再让一个公司去垄断所有,这里面的机会跟空间就非常多。”
作者 |林小葵,编辑 |李不清,图片来源 | 视觉中国,本内容来自财经天下WEEKLY