全球首个对话式 AI 引擎发布，15分钟构建的AI对话1分钟不到1毛钱

（图片来源：钛媒体AGI编辑林志佳拍摄）

3月6日消息，钛媒体AGI获悉，今日下午，实时互动技术公司声网在北京发布对话式AI引擎。

据悉，该对话式AI引擎拥有650ms超低延时响应、优雅打断、全模型适配、“选择性注意力锁定”功能可屏蔽95%环境人声等能力，仅需两行代码以及15分钟，就可构建 AI Agent，实现从对话式AI引擎Console到任意模型开口说话，并且支持文本大模型升级为对话式多模态大模型。

价格方面，经声网内部测算，对话式AI引擎1分钟不到1毛钱，每分钟价格为0.098元。同时，用户与AI每产生1次对话中，平均会有约3轮问答，计算下来平均对话时长约为21.1s，单次成本仅需3分钱。如果每月对话次数15次，那么月成本不到5毛钱，年成本也只需5元。

会后，声网AI RTE产品线负责人姚光华对钛媒体AGI等表示，这是全球首个对话式 AI 引擎。春节期间，团队就开始研发这款对话式AI引擎，尤其DeepSeek热潮带给国内企业、科技界的正面影响，大家就如同“高考”一般将最核心产品线、研发线组建一起，并且快速推进和决策，2月18日发布Public Beta版本，如今正式对外发布这款产品。

谈及最新发布的Manus AI Agent产品，姚光华表示，Manus AI Agent和对话式 AI 产品不属于“一个物种”。从底层逻辑上，对话式 AI 交互方式是一个颠覆式的，主要是对话产生情绪价值，如果能够发展的更好，它可能会成为超越于工具以外、类似于陪伴的东西，但现在我们对AI Agent的认知还是“工具”，替换很多你现有工具类型的价值不是终极目的，而研发对话式 AI 产品的时候，情感陪伴音色和人数都有增长。“但我们觉得，今天早上发的（Manus）就是一个工具。”

据悉，声网致力于打造“人工智能语音代理的关键基础设施”，该公司提供的TEN (Transformative Extensions Network) 服务已经在DeepSeek、阿里通义Qwen、阶跃星辰Step、MiniMax、Amazon Bedrock、百度、科大讯飞等 AI 企业和产品当中。比如，去年10月24日，声网也宣布了与MiniMax在打磨国内第一个Realtime API。

2月24日发布的财报显示，2024年四季度，声网母公司Agora, Inc. (NASDAQ: API）实现总营收3450万美元，同比下降4.4%；在美国通用会计准则（GAAP）下净利润为16万美元（约合人民币115.97万元），扭亏为盈。2024财年，集团总营收1.333亿美元，较上年同期下降5.9%。

在姚光华看来，对话式Agent给用户带来的价值有问题得到解决的智能价值，还有情感共鸣的情绪价值以及效率跃升的时间价值。

Agent AI从感知到智能，主要包含四层：模态感知层指的是Agent要感知物理世界的信息，对音视频做处理和转换；模态融合层指对感知到的信息进行统一多模态处理；任务处理层是面向目标和任务进行处理和解决；顶层智能层是高级认知与学习能力，具备超高情商。其中，声网对话式AI引擎覆盖模态感知层、模态融合层。

谈到“幻觉”话题，声网产品负责人和利鹏对钛媒体AGI表示，大模型“幻觉”是不可（完全）消灭的，但需要减少，而背后需要模型本身不断迭代，尤其是在对话式 AI 引擎上，团队做了很多降噪、声音处理等问题。

“就像咱们今天，你觉得我可能答复的未必是你，因为人和人交流之间也可能有误解等，但是对话是有一个最好的问题，你发现他误解了，你告诉这不是我的意思，我就打断你，我直接告诉说我实际是这个意思，人和人交流都是这样。”和利鹏表示，人和人交流的时候都会有幻觉，因为二人的知识、背景都不一样。此外，上下文增多、推理CoT（思维链）的不断加强，都是减少模型“幻觉”的重要方案。

姚光华指出，目前对话式 AI 引擎可以应用于很多陪伴式智能硬件以及教育场景等。

声网创始人兼CEO赵斌表示，生成式 AI 为我们带来了变革性机遇，特别是在实现人与人工智能模型之间的实时语音交互方面。许多大型语言模型尚未提供语音交互功能，而提供语音交互功能的模型也没有优化体验。为了弥补这一差距，公司推出对话式 AI 引擎解决方案，旨在提供自然的对话动态，包括智能停顿和打断处理、高级语音处理功能以及超低延迟。

“过去的几个月里，我们已经看到了从 AI 推理模型到谷歌多模态的突破性发展，这一转型为我们的业务带来了非凡的机遇。”赵斌强调，“我们坚信，这一突破性创新将加速对话式AI 在各行业的应用渗透，并成为公司未来增长的核心驱动力。”

（本文首发于钛媒体App，作者｜林志佳）