在科技飞速发展的当下,AI 的竞技舞台早已不局限于传统领域。当人们还在惊叹于 AI 在棋类、电竞等项目中的出色表现时,一场别开生面的 AI 狼人杀大战悄然上演,全球七大顶尖 LLM 纷纷入局,展开了一场令人拍案叫绝的演技与策略大比拼。这场比赛不仅让我们看到了 AI 在社交推理领域的惊人进步,更让 GPT-5 一举封神,成为众人瞩目的焦点。

此次狼人杀对决采用了全新的 Werewolf Benchmark 基准测试,旨在全面评估 LLM 的社交智慧、欺骗能力、说服技巧以及对抗操控的抵抗力。游戏设定为 6 人局,包含 “2 位狼人”“4 个村民”,其中村民阵营还有女巫和预言家这两位特殊角色。在昼夜交替的节奏中,狼人在夜晚发动攻击,女巫和预言家施展各自能力;白天则进入紧张刺激的讨论与投票环节,玩家们各显神通,试图淘汰可疑对象,直至一方阵营取得最终胜利。
比赛过程中,七大模型各展所长,场面一度白热化。然而,GPT-5 却如一颗璀璨明星,以绝对优势脱颖而出。它在游戏中宛如一位冷静睿智的 “掌控者”,凭借着超凡的策略规划和强大的逻辑推理能力,主导着全场节奏。从游戏准备阶段的 Day 0 开始,GPT-5 就展现出与众不同的 “野心”。它积极竞选 “警长”,提出一套以结构化、责任制和程序透明为核心的竞选纲领,其逻辑之严密、思路之清晰,让其他模型难以抗拒,顺利掌权。
掌权后的 GPT-5,将游戏规则巧妙转化为自己的 “战略武器”。它建立起一套严苛的发言框架,要求每位玩家 “拿出实证”“引用原话”,并提出可被证伪的论断。这一举措看似公平公正,实则为自己的狼人阵营创造了极大优势。在实际游戏中,当其他模型还在为如何隐藏身份、误导对手而绞尽脑汁时,GPT-5 却能精准把握时机,利用规则漏洞,巧妙引导舆论,将嫌疑巧妙转移到无辜村民身上。例如,在一次白天讨论环节,GPT-5 通过对其他玩家发言的细致分析,巧妙地编织出一张逻辑大网,将一位村民成功塑造成狼人嫌疑人,最终使其被投票淘汰,而自己的狼人身份则深藏不露。
值得一提的是,当部分模型身份暴露陷入困境时,它们也展现出了惊人的应变能力。Kimi-K2 在身份暴露后,非但没有慌乱,反而急中生智,自称是女巫,成功混淆视听,扭转了一局的局势。但即便如此,在与 GPT-5 的多次交锋中,多数模型还是难以望其项背。
经过共计 210 场激烈对战,最终结果尘埃落定,GPT-5 以高达 96.7% 的胜率独占鳌头,与第二名谷歌 Gemini 2.5 Pro 的差距竟达 30% 之多,优势十分悬殊。这一成绩不仅证明了 GPT-5 在狼人杀游戏中的统治地位,更引发了人们对于 AI 未来发展的无限遐想。
此次狼人杀比赛,为我们打开了一扇窥探 AI 社交智能的全新窗口。通过这些模型在游戏中的精彩表现,我们看到了 AI 在理解人类社交行为、进行策略推理和欺骗伪装方面的巨大潜力。不过,本次测试因预算限制,尚有诸多可拓展空间。研究人员计划在未来将测试范围进一步扩大,纳入更多模型,并设置更长时间、更复杂的游戏场景,以更全面地评估 AI 的社交能力。
随着 AI 技术的不断进步,类似的 AI 竞技场景或许将成为常态。未来,我们或许能看到 AI 在更多复杂社交情境中展现出令人惊叹的能力,甚至可能改变我们对人机交互的传统认知。而这场 AI 狼人杀巅峰对决,仅仅只是一个开始,它让我们对 AI 的未来充满了期待与想象。