北京时间2月3日上午,OpenAI正式推出面向深度研究领域的智能体产品深度研究(Deep research)功能。

曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告,现在借助这项突破性功能,只需5-30分钟就能完成。这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。


图源:OpenAI

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。

值得注意的是,在对这个智能体的能力评测中,OpenAI特别对比了DeepSeekR1,称在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。

相比之下,DeepSeek的R1模型的准确率是9.4%。

这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小。

腾讯科技综合了OpenAI的深度研究介绍文档及技术解读直播,梳理了本次发布最值得关注的技术要点。


图源:OpenAI

化身专业研究员 擅长寻找冷门信息并全网整合

深度研究功能专为金融、科学、政策、工程等领域的高强度知识工作者设计,此类人群需要全面、精准且可靠的调研成果。同时,它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时,希望寻求高度个性化建议的消费者。

1、深度研究的输出附有清晰的引用和对其思考过程的总结,便于用户查阅和验证信息。

2、它尤其擅长寻找冷门、非直观信息,通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务,从而节省时间。

3、深度研究能够独立从网络上发现、推理并整合各类见解。 它在训练过程中采用了与OpenAI o1(OpenAI的首个推理模型)相同的强化学习方法,并针对浏览器和Python工具的使用进行了真实任务训练。

虽然o1在编程、数学等技术领域表现出色,但许多现实挑战需要从多样化的在线资源中广泛收集上下文信息。

深度研究在此基础上进一步拓展了推理能力,弥合了这一差距,使其能够应对人们在工作和日常生活中所面临的各种问题。

在ChatGPT中,用户可以选择消息框中的“深度研究”选项并输入问题。用户可以向ChatGPT说明需求,也可以附件或电子表格,来增加问题的背景信息。 一旦开始运行,侧边栏会显示已采取的步骤和使用的来源的总结。

深度研究完成工作可能需要5到30分钟,具体时间取决于任务的复杂性和所需的信息量。在此期间,用户可以离开或从事其他任务——一旦研究完成,用户将收到通知。最终输出将以聊天中的报告形式呈现。

在未来几周内,OpenAI还将在这类报告中增加嵌入式图像、数据可视化和其他分析结果,以提供更多的清晰度和背景信息。

与深度研究相比,GPT-4o更适合实时、多模态的对话。

对于需要深入探索和详细分析的多方面、特定领域的复杂问题,深度研究能够进行广泛的调研并为每个观点提供引用,这与简单的快速总结不同,它能够提供一份经过充分记录和验证的详细答案,可以直接作为工作成果使用。

端到端强化学习是重点 多模块协同工作

深度研究是通过 端到端强化学习,在多个领域中针对复杂的网络浏览和推理任务进行训练的。

通过这些训练,它学会了如何规划并执行多步骤的操作流程,以找到所需的数据,并在必要时进行回溯以及对实时信息做出反应。

该模型还能够浏览用户上传的文件,利用Python工具绘制并迭代图形,将其生成的图形以及从网站获取的图像嵌入到回答中,并引用其来源中的具体句子或段落。

这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制,使模型能够像人类研究者一样进行整体性的思考和决策。

在技术架构层面, Deep Research由四个协同工作的核心模块构成,形成了一个完整的智能研究系统。

第一,是信息发现模块,类似于系统的"探索者"。

它能够敏锐地在学术数据库、科研机构网站、专业论坛等多个平台中定位有价值的信息。这个模块不仅具备强大的检索能力,还配备了先进的信息筛选机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。

第二,是信息综合模块,扮演着"整合者"的角色。

它能够将来自不同渠道的零散信息梳理成系统化的知识体系。无论是处理文字报告、分析数据图表,还是理解专业图片,这个模块都能够准确把握信息之间的逻辑关系,提炼出关键要点。

例如,在处理科技领域的研究任务时,它能够将技术原理、应用案例和发展趋势等多个维度的信息融会贯通,形成完整的技术分析报告。

第三,是推理模块,赋予了系统类人的思考能力。

它运用逻辑推理和知识图谱技术,对收集到的信息进行深度分析和推导。在面对复杂的科学问题时,推理模块能够基于已知事实进行严谨的论证;在进行市场分析时,它会综合考虑历史数据、市场动态和政策环境,做出合理的预测。更重要的是,这个模块具备自我修正能力,能够根据新发现的信息及时调整推理路径。

第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。

它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规范,为每个结论提供准确的来源引用,确保研究成果的可靠性和专业性。

这几个模型的协同工作,类似于一个多Agent的协同工作系统。Deep Research系统根据任务的复杂程度,可投入5-30分钟甚至更长时间进行深入研究,并在侧边栏显示出它的工作过程,用户在这个过程中还可以跳出来做别的工作,等模型完成思考后,会收到推送的通知。这种机制的设计,让产品的能力能发挥更好,且照顾到了用户的体验。

注:模型浏览得越多,对浏览内容思考得越深入,其表现就越好,这就是为什么给它思考时间很重要。

HLE测试达到了26.6%的准确率

在这样的技术底层之上,深度研究在众多针对现实问题的公开评估中达到了新的高度。


注:深度研究与各模型在人类最后的考试中的成绩

值得注意的是,在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高。

相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

与OpenAI的o1模型相比,深度研究的模型在化学、人文社科和数学领域取得了显著进步。它通过有效寻找专业信息,展现了类似人类的处理方式。


注:深度研究在GAIA基准测试中的成绩

在GAIA基准测试中,深度研究所使用的模型达到了最前沿水平(State of the Art,SOTA),并登上了外部排行榜首位。

GAIA是一项公开的基准测试,专门用于评估人工智能在现实世界问题上的表现。该测试包含三个难度层级的问题,涵盖广泛的实际应用场景。成功完成这些任务需要具备推理能力、多模态交互能力、网络浏览能力以及工具使用熟练度。

在对多个领域的专家级任务进行内部评估时,深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。

深度研究解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。

此外,它可能难以区分权威信息与谣言,并且在置信度校准方面存在不足,常常无法准确传达不确定性。在发布初期,报告和引用可能会出现一些格式错误,且任务启动可能需要更长时间。不过,OpenAI预计随着更多使用和时间的推移,这些问题将迅速得到改善。

Pro用户每月最多可用100次

深度研究在ChatGPT中的使用目前对计算资源的需求较高。查询所需的研究时间越长,所需的推理计算量就越大。 目前,OpenAI已推出针对Pro用户的优化版本,每月最多支持100次查询。

接下来,Plus和Team用户将获得访问权限,随后是企业用户。目前,OpenAI仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

所有付费用户将很快在深度研究的速率限制方面获得显著提升。OpenAI计划在未来推出一个更快速、更具成本效益的版本,该版本由一个较小的模型驱动,但仍能提供高质量的结果。

在未来几周和几个月内,OpenAI将致力于技术基础设施的完善,密切监控当前版本的表现,并进行更严格的测试。这符合OpenAI的迭代部署原则。如果所有安全检查持续符合发布标准,预计将在大约一个月后向Plus用户推出深度研究。

深度研究目前已在ChatGPT网页版上线,并计划在一个月内扩展到移动和桌面应用程序。目前,深度研究能够访问开放网络以及用户上传的文件。未来,用户将能够连接到更多专业化的数据源,扩展其对订阅制或内部资源的访问权限,从而使其输出更加丰富和个性化。

从更长远来看,深度研究与Operator的结合将为用户提供更强大的异步研究和现实世界执行能力。

深度研究能够进行异步在线研究,而Operator能够采取现实世界的行动,两者的结合将使ChatGPT能够执行越来越复杂的任务。

本文来自微信公众号“腾讯科技”,作者:晓静 无忌,36氪经授权发布。

ad1 webp
ad2 webp
ad1 webp
ad2 webp