智东西(公众号:zhidxcom)
作者程茜
编辑云鹏
智东西3月6日报道,今日下午,声网对话式AI引擎正式发布,其拥有650ms超低延时响应、优雅打断、全模型适配等五大能力,可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。
在价格方面,经声网内部测算,对话式AI引擎1分钟不到1毛钱,每分钟价格为0.098元。
一、现场对话丝滑,对话式AI引擎四大优势:多快好省
现场,声网生成式AI产品负责人毛玉杰和对话式AI引擎对话,主要进行了中英文翻译、优雅打断、餐厅推荐等演示。
//oss.zhidx.com/uploads/2025/03/67c9647644121_67c964763beff_67c964763bed1_ScreenRecording_03-06-2025-16-50-57_1.mp4
这一对话式AI引擎的优势,声网AI RTE产品线负责人姚光华用四个字进行了概括:多、快、好、省。
具体来看,多指的是智能多、音色多,包括模型都能选、语音合成自由选择和定制。
声网对话式AI引擎支持全球几乎所有大模型厂商,只要与OpenAI接口协议兼容的模型厂商,全部原生支持,同时支持全球主流语音合成供应商任意切换,客户在供应商处定制、克隆等自定义音色也能上线。
快指响应快、打断快。也就是超低响应延时和超低打断延时。
声网对话式AI引擎的响应延迟中位数为650ms,打断延时中位数为340ms。
好是情商高、真拟人、无惧燥声弱网。
声网对话式AI引擎可以做到优雅打断,同时在周围人声很多时,基于选择性注意力锁定,锁定对话人声,准确识别谁在说。人模对话场景下,该产品可以实现抗丢包80%以上,断网3-5秒能流畅对话。
省是指开发省心,姚光华透露,从对话时AI引擎Console到任意模型开口说话,需要2行代码+15分钟。
价格方面,智能体通话价格0.098元每分钟,免费额度1000分钟(一次赠予)。
经声网内部测算,用户与AI每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。
二、全球首个对话式AI产品,横跨模态感知+模态融合
声网AI RTE产品线负责人姚光华还谈到了几个对话式AI的里程碑事件。
2024年5月13日,OpenAI发布具备看、听、说的能力的GPT-4o,他认为这是对话式AI To C的原点。2024年10月1日,OpenAI发布Realtime API;2024年10月24日,声网和MiniMax发布国内首个Realtime API。
最新的一个里程碑事件就是,今天声网对话式AI引擎正式发布,这也是全球首个对话式AI产品。
在姚光华看来,对话式Agent给用户带来的价值有问题得到解决的智能价值,还有情感共鸣的情绪价值以及效率跃升的时间价值。
Agent AI 从感知到智能,主要包含四层:模态感知层指的是Agent要感知物理世界的信息,对音视频做处理和转换;模态融合层指对感知到的信息进行统一多模态处理;任务处理层是面向目标和任务进行处理和解决;顶层智能层是高级认知与学习能力,具备超高情商。
声网对话式AI引擎,横跨的是模态感知和模态融合层。
结语:对话式AI热潮涌起
从仅基于文本的聊天机器人和语音助手,转向能理解和响应文本、声音、图像、手势等多种输入的时代,为用户提供多感官交互体验。这样一来,AI能更好地理解和响应微妙的语音命令,使语音交互更直观、友好。
借助声网对话式AI引擎,开发者能够迅速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式AI场景,加速对话式AI融入各行各业。