一名高中生创建AI测试网站，能和模型在《我的世界》进行建造比赛

随着传统的 AI 基准测试被证明存在不足之处，AI 开发者们正在转向更具创意的方法来评估生成式 AI 模型的能力。对于 12 年级的阿迪·辛格（Adi Singh）来说，这个方法是《我的世界》（Minecraft），一款微软旗下的沙盒建造游戏。

（来源：MINECRAFT）

Minecraft Benchmark（下称“MC-Bench”）网站是辛格和他人合作开发的，目的是让 AI 模型在挑战中相互竞争，应对提示的方式则是直接用《我的世界》完成创作。用户可以投票选出哪个模型做得更好，只有在投票后才能看到每个《我的世界》作品都是由哪个 AI 完成的。

《我的世界》的价值并不在于游戏本身，而在于人们对它的熟悉程度。毕竟，它是有史以来最畅销的电子游戏之一。

辛格表示，《我的世界》让人们能更轻松地看到 AI 发展的进展。人们熟悉《我的世界》，也习惯了它的画面风格和整体氛围。

（来源：https://mcbench.ai/about）

MC-Bench 网站上目前列出了几位贡献者。根据 MC-Bench 网站的信息，Anthropic、谷歌、OpenAI 和阿里巴巴已资助该项目使用它们的产品来运行基准测试提示，但这些公司并未以其他方式参与该项目。

辛格表示，目前他只是在进行一些简单的构建，以反思 AI 领域从 GPT-3 时代以来所取得的进步，但他未来可能会考虑扩展到更长期的项目，以及其他以目标为导向的任务。其表示，游戏可能只是一种测试代理推理的媒介，它比现实生活更安全，也更容易控制以用于测试目的。

其他游戏比如《精灵宝可梦红》《街头霸王》和《你画我猜》也被用作 AI 的实验基准，这在一定程度上是因为对 AI 进行基准测试这门“艺术”向来极为棘手。

（来源：MINECRAFT BENCHMARK）

研究人员经常在标准化评估中对 AI 模型进行测试，但许多此类测试会让 AI 具有天然优势。由于训练方式的原因，这些模型天生擅长解决某些特定领域的难题，尤其是那些需要死记硬背或简单推理的问题。

简而言之，我们看到 OpenAI 的 GPT-4 可以在法学院入学考试中取得 88% 的成绩，但却无法准确说出“strawberry”这个词中有多少个“r”。Anthropic 的 Claude 3.7 Sonnet 在标准化软件工程基准测试中的分数为 62.3%，但它在玩《宝可梦》游戏时的表现却比大多数五岁儿童还要差。

（来源：MINECRAFT BENCHMARK）