(图片来源:钛媒体AGI编辑林志佳拍摄)

3月6日消息,钛媒体AGI获悉,今日下午,实时互动技术公司声网在北京发布对话式AI引擎。

据悉,该对话式AI引擎拥有650ms超低延时响应、优雅打断、全模型适配、“选择性注意力锁定”功能可屏蔽95%环境人声等能力,仅需两行代码以及15分钟,就可构建 AI Agent,实现从对话式AI引擎Console到任意模型开口说话,并且支持文本大模型升级为对话式多模态大模型。

价格方面,经声网内部测算,对话式AI引擎1分钟不到1毛钱,每分钟价格为0.098元。同时,用户与AI每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。

会后,声网AI RTE产品线负责人姚光华对钛媒体AGI等表示,这是全球首个对话式 AI 引擎。春节期间,团队就开始研发这款对话式AI引擎,尤其DeepSeek热潮带给国内企业、科技界的正面影响,大家就如同“高考”一般将最核心产品线、研发线组建一起,并且快速推进和决策,2月18日发布Public Beta版本,如今正式对外发布这款产品。

谈及最新发布的Manus AI Agent产品,姚光华表示,Manus AI Agent和对话式 AI 产品不属于“一个物种”。从底层逻辑上,对话式 AI 交互方式是一个颠覆式的,主要是对话产生情绪价值,如果能够发展的更好,它可能会成为超越于工具以外、类似于陪伴的东西,但现在我们对AI Agent的认知还是“工具”,替换很多你现有工具类型的价值不是终极目的,而研发对话式 AI 产品的时候,情感陪伴音色和人数都有增长。“但我们觉得,今天早上发的(Manus)就是一个工具。”


据悉,声网致力于打造“人工智能语音代理的关键基础设施”,该公司提供的TEN (Transformative Extensions Network) 服务已经在DeepSeek、阿里通义Qwen、阶跃星辰Step、MiniMax、Amazon Bedrock、百度、科大讯飞等 AI 企业和产品当中。比如,去年10月24日,声网也宣布了与MiniMax在打磨国内第一个Realtime API。

2月24日发布的财报显示,2024年四季度,声网母公司Agora, Inc. (NASDAQ: API)实现总营收3450万美元,同比下降4.4%;在美国通用会计准则(GAAP)下净利润为16万美元(约合人民币115.97万元),扭亏为盈。2024财年,集团总营收1.333亿美元,较上年同期下降5.9%。

在姚光华看来,对话式Agent给用户带来的价值有问题得到解决的智能价值,还有情感共鸣的情绪价值以及效率跃升的时间价值。

Agent AI从感知到智能,主要包含四层:模态感知层指的是Agent要感知物理世界的信息,对音视频做处理和转换;模态融合层指对感知到的信息进行统一多模态处理;任务处理层是面向目标和任务进行处理和解决;顶层智能层是高级认知与学习能力,具备超高情商。其中,声网对话式AI引擎覆盖模态感知层、模态融合层。

谈到“幻觉”话题,声网产品负责人和利鹏对钛媒体AGI表示,大模型“幻觉”是不可(完全)消灭的,但需要减少,而背后需要模型本身不断迭代,尤其是在对话式 AI 引擎上,团队做了很多降噪、声音处理等问题。

“就像咱们今天,你觉得我可能答复的未必是你,因为人和人交流之间也可能有误解等,但是对话是有一个最好的问题,你发现他误解了,你告诉这不是我的意思,我就打断你,我直接告诉说我实际是这个意思,人和人交流都是这样。”和利鹏表示,人和人交流的时候都会有幻觉,因为二人的知识、背景都不一样。此外,上下文增多、推理CoT(思维链)的不断加强,都是减少模型“幻觉”的重要方案。

姚光华指出,目前对话式 AI 引擎可以应用于很多陪伴式智能硬件以及教育场景等。

声网创始人兼CEO赵斌表示,生成式 AI 为我们带来了变革性机遇,特别是在实现人与人工智能模型之间的实时语音交互方面。许多大型语言模型尚未提供语音交互功能,而提供语音交互功能的模型也没有优化体验。为了弥补这一差距,公司推出对话式 AI 引擎解决方案,旨在提供自然的对话动态,包括智能停顿和打断处理、高级语音处理功能以及超低延迟。

“过去的几个月里,我们已经看到了从 AI 推理模型到谷歌多模态的突破性发展,这一转型为我们的业务带来了非凡的机遇。”赵斌强调,“我们坚信,这一突破性创新将加速对话式AI 在各行业的应用渗透,并成为公司未来增长的核心驱动力。”

(本文首发于钛媒体App,作者|林志佳)

ad1 webp
ad2 webp
ad1 webp
ad2 webp