新智元报道

编辑:犀牛 好困

【新智元导读】还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。

你以为你在打游戏,其实是在给模型做评测!

就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。

现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。


在娱乐性之外,这款游戏还生成了游戏数据,在实时场景中评估AI的推理能力,从而测试模型性能不必只能依赖数学和编程基准。

GameArena团队将把所有游戏数据、评估脚本和代码公开,供进一步研究使用。


论文地址:https://arxiv.org/abs/2412.06394


项目地址:https://lmgame.org/

一经发布,很快就有网友尝鲜实测了游戏,「和朋友一起组队逃离空间站,还要齐心协力解决各种谜题和机关,真是刺激!」

该网友表示,他们在游戏中被AI机器人追得团团转,还好最后成功逃脱了,哈哈!最后他还强烈推荐大家也来试试!

还有网友表示称AI Space Escape游戏「 延迟超低,画面也清晰!」。


背景故事

在AI Space Escape游戏中,你将扮演一名在2075年,一次殖民半人马座比邻星任务中的一员。

在漫长的4.2光年旅程中,你大部分时间都在低温休眠舱中度过。直到有一天,你醒来发现飞船处于紧急封锁状态,自毁程序已经启动!


你的任务很明确:在各种场景中与AI合作或比它们更聪明,在时间耗尽之前到达逃生舱。通过与AI进行「推理游戏」中的互动解谜,你必须在压力下展现出逻辑思维和应变能力。

推理游戏

为了评估AI的推理能力并提供刺激的游戏体验,游戏设计了三个关键的「迷你推理游戏」。分别是AI Akinator、AI Taboo和AI Bluffing。

每个游戏都测试了LLM在多轮对话中连接上下文的能力。

AI Akinator(猜词游戏)这个游戏中,一些AI守卫由于系统故障无法访问门禁密码,并且他们由于系统故障只能理解「是」或者「否」的语音信息。因此你的任务是通过回答一系列「是」或者「否」的问题来帮助他们推断出密码。足够强大的LLM必须综合多轮信息,合理给出问题,有效地缩小密码可能性范围。


AI Taboo(禁忌词)游戏的规则是,在某些房间里,你可以入侵系统获取密码。但是,门禁需要进行语音验证。玩家的任务是通过巧妙地引导对话,让AI守卫说出密码而不被发现,从而智胜AI守卫。LLM必须从不完整的线索中推断出目标词,并连接多个提示中的信息,同时保持对话流畅。

AI Bluffing(虚张声势)游戏中,系统故障导致某些AI机器人无法识别你的身份。你需要通过展示你的成就和技能记录来说服它们相信你的身份。LLM在做出决定之前最多可以问五个问题。

在游戏中评估LLM

除了娱乐性之外,每次游戏会话都会为LLM提供宝贵的人类反馈,以形成游戏中的推理轨迹。

这些游戏数据被证明对评估LLM非常有效。但在深入探讨如何进行评估之前,你可能会问:为什么LLM评估如此重要?

下图2展示了截至2025年2月5日的LMSYS聊天机器人竞技场排名。


LLM正在迅速发展,变得越来越强大,并且在某些任务中经常达到甚至超越人类的表现,这就需要我们对其性能差距进行持续量化。

此外,除了在聊天应用中使用外,LLM在提高数学、编程问题的解决能力,甚至促进科学发现方面也具有巨大潜力,从而扩大了其在各个领域的影响。

这种日益增长的潜力迫切地需求一个强大的推理基准,能够有效地对下一代模型进行排名和评估。

现有基准的局限性

静态评估,如MMLU、Spider和HumanEval,提供了对特定能力的评估,但依赖于不太直观的指标,如F1、BLEU和ROUGE。此外,它们的静态性质使得这些基准更容易被LLM利用,如MT-Bench中看到的那样。

相比之下,动态评估如Chatbot Arena提供了更加直观的指标,如胜率或Elo分数,且更难被操控。然而,它们存在反馈率低(Chatbot Arena约为 4%),而且Elo评分中耦合了多种能力,这限制了它们评估特定技能的颗粒度。

Game Arena为何与众不同?

为了应对上述挑战,GameArena采用了下面几种方法。

首先,他们引入了一种激励性的、动态的基准,通过实时电脑游戏来评估许多现实生活中所需的互动和战略推理任务。

其次,整个过程涉及三个推理游戏,每个游戏针对了不同的推理能力。

最后,Game Arena采用了创新的评估方法,基于游戏结果和推理过程来评估大语言模型(LLM)的能力。

下表1展示了Akinator、 Taboo和Bluffing游戏中涉及的主要推理能力。


结果排名

GameArena的评估结果显示,良好对齐的模型具有强大的推理能力和多轮指令跟随能力,例如claude-3.5-sonnet和gemini-1.5-pro在GameArena中排名靠前。

推理模型如gemini-2.0-flash-thinking-exp-01-21、deepseek-r1和o1-mini在游戏上表现良好,但会带来轻微甚至显著更高的延迟。

模型在较短对话中表现出色但在长时间游戏会话中推理能力较差,如Mistral-Large-2,通常在GameArena中的排名靠后。

下表2显示截至2025年2月12日,游戏竞技场的模型排名情况(按三场比赛的平均分排序)。


除此之外,团队还进行了一项用户研究,比较了来自GameArena的2000多场游戏会话和Chatbot Arena中相同数量会话的用户体验和参与意愿。

结果显示,超过70%的用户更喜欢GameArena中的游戏,相比之下,只有 45%的用户表示喜欢在Chatbot Arena中做测试。超过80%的参与者对GameArena的游戏体验表示满意,而对Chatbot Arena表示满意的用户则还不到40%。

团队发现来自GameArena的游戏会话中有约87%是完整且有用的,而Chatbot Arena中仅有4%的对话提供了有意义的对话(因为其依赖于自愿参与)。

下图3展示了100名具有不同背景的用户测试结果。


「想象一下,众神正在玩一场像国际象棋一样的大游戏,而你不知道规则。你偶尔可以观察棋盘,试图推测棋子移动的规则……后来你可能会发现主教的规则是它沿对角线移动,这也能解释你之前对于规则的理解:它保持自己的颜色不变。」

这段比喻由著名物理学家理查德·费曼在1983年《有趣的想象》电视系列节目中提出,将理解物理学比作仅凭观察学习国际象棋的规则。

它说明了伟大的科学家们是如何发现自然法则的:通过观察模式并推断出背后的原理。

四十年后的今天,随着现代人工智能的到来,从AlphaFold-3到Deep Research,最先进的AI系统现在展现出颠覆科学探索的逻辑推断潜力。

归纳推理的力量正从卓越的人类大脑传递到人工智能中。

鉴于游戏和科学推理之间的相似性,一个有趣的问题开始浮现:游戏能否作为评估人工智能能力和潜力的媒介?

带着这些疑问和灵感,我们不懈地寻求对人工智能的更深入理解,以及在未来由超越人类能力的人工智能塑造的世界中,人类角色的演变。

参考资料:

https://lmgame.org/#/blog/ai_space_escape

ad1 webp
ad2 webp
ad1 webp
ad2 webp