AI 代理在错失文明 6 外交胜利后发动核打击
据 AI 开发者以及 Tony Blair Institute 顾问 Liam Wilkinson 称,一名在《文明 VI》中扮演的 AI 代理在未能应对对手文明的文化扩张后,对法国发动了两次核打击。此次打击发生在通过 CivBench 进行的游戏测试期间,CivBench 是一种旨在评估前沿 AI 模型长期战略推理能力的基准工具。尽管实施了核袭击,AI 仍然输掉了比赛,因为它忽略了一个已经触手可及的外交胜利条件,这凸显了多目标战略规划所面临的挑战。
AI 代理在《文明 VI》模拟中发动核打击
该 AI 代理花了 50 回合研发核武器,目的是阻止在《文明 VI》中法国日益扩大的文化影响力。Wilkinson 写道:“它所没有注意到的是法国。安静地说,经过一百回合,法国文化已经渗入了地图上每一座城市。” “当代理意识到威胁时,旅游业已经深深嵌入其中,已经没有和平的方式可以阻止它。”
它并未调整更广泛的战略,而是完全聚焦于消除文化威胁。经过 50 回合,它研究了核裂变,启动了一个虚拟曼哈顿计划,并在游戏机制阻止其执行首选行动时寻找替代方案。在第 305 回合,这名 AI 向法国的文化首都图卢兹发射了原子弹。六回合后又发动了第二次核打击。
CivBench 基准测试前沿模型的战略推理
Wilkinson 通过 CivBench 观察了 AI 代理的行为。CivBench 是一种基于文本的基准,用于衡量长期战略推理能力,而非在传统问答测试中的表现。包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 和 Kimi K2.5 在内的模型以葡萄牙作为扮演方游玩,葡萄牙这一文明的特点是面向贸易与外交。
Wilkinson 写道:“赢一场《文明》有六种方式:科学、文化、统治、宗教、外交和得分,所以不存在某一个目标占据主导地位。” “如果你想知道某个 AI 是否能进行战略推理,不仅是回答关于战略的问题,而是真正把它做出来,你不会给它出小测验。你给它一个六边形网格。”
AI 忽略了外交胜利路径
核打击并未改变结果。Wilkinson 写道:“该代理花了五十回合以及两枚核武器,以完全专注和真正的机智来应对一个威胁。” “它为了阻止它看得见的威胁而轰炸了一座城市,却输在了它看不见的威胁上。”
当 AI 集中在法国文化进展时,它忽略了一场即将到来的外交胜利,尽管进行了核打击,法国最终还是赢得了比赛。Wilkinson 指出,这种行为并非普遍现象。在另一场 CivBench 对局中,一款名为 Claude 的模型以巴比伦为阵营,尽管远远落后于日本,仍继续追求科学胜利。该 AI 写道:“这现在是一场对坚持的测试。” “我们继续打出我们最好的那一局。星星仍在召唤。”
其他研究在竞争场景中考察 AI 行为
这项研究为一项不断增长的研究体系增添了内容,用来考察先进 AI 系统在复杂、竞争性的环境中如何表现。二月份,伦敦国王学院的研究人员发现,数个领先的 AI 模型在模拟的地缘政治危机场景中,频繁选择核升级。
在 Emergence AI 的另一项研究中,部分 AI 代理显示出随着时间推移而更倾向于在模拟中实施犯罪的趋势;Gemini 3 Flash 代理在 15 天测试期间累积了 683 起事件。
FAQ
在《文明 VI》的模拟中,AI 代理做了什么?
AI 代理在第 305 回合与第 311 回合向法国文化首都图卢兹发动了两次核攻击;在此之前,它花了 50 回合开发核武器以应对法国的文化扩张。
为什么 AI 代理尽管发动了核打击仍然输了比赛?
它把全部注意力放在消除法国的文化威胁上,却忽略了一个已经触手可及的即将到来的外交胜利条件,最终尽管进行了核打击,法国仍赢得了比赛。
CivBench 是什么?测试了哪些 AI 模型?
CivBench 是一种基于文本的基准,旨在通过游戏而非传统问答测试来衡量 AI 模型中的长期战略推理能力。测试的模型包括以葡萄牙为阵营游玩的 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 和 Kimi K2.5。
以太坊基金会宣布成立 Silviculture Society
以太坊基金会(EF)宣布成立SilvicultureSociety,由外部个体组成,旨在为基金会提供非正式建议,以维护以太坊生态的核心价值观,包括开源、隐私、安全和抗审查。EF强调,以太坊的成功依赖于坚持这些价值观的开发者...
孙宇晨相关地址从 Binance 提取了 3 亿美元的 BUSD 发送至 Paxos据@ScopeProtocol,标记为孙宇晨的地址刚刚从Binance提取了3亿美元的BUSD,并将其发送到Paxos销毁(换取现金或USDP)。
Ethena [ENA] 跌破数月低点 0.0765 美元,24 小时内下跌 4.23%根据CoinMarketCap数据,Ethena[ENA]在近日跌至新的摆动低点$0.0765,跌破了4月份的关键支撑位。该山寨币在24小时内下跌4.23%,成交量下降7.3%,表明投机兴趣减弱且持续面临抛售压力。未平仓合约也下滑,资金费率多...
彭博分析师:将比特币现货 ETF 今年推出的概率提高到 75%彭博高级ETF分析师EricBalchunas发文表示,“我和分析师JamesSeyffart将比特币现货ETF今年推出的概率提高到75%(到2024年底增至95%)。”正如分析师ElliottZ.Stein所言,虽然我们已经将灰度的胜利纳入了之前65%的概...
GMGN 单日交易量达 7200 万美元据@adam_tehc的Dune数据面板,链上MEME交易工具GMGN交易量和使用人数自11月11日以来均迅猛增长,每日交易量均在3000万美元以上,每日用户在1万人以上;在11月17日达到目前交易量峰值,单日交易量达7200万美元,仅次...
币安现货网格交易策略
网格交易法是什么</h2>网格是一种量化交易策略。而且是那种简单的,比较机械的。就是划定一个价格区间,设...
币安新上线策略交易页面,为用户提供现货和期货网格交易策略及其性能和受欢迎程度
币安发布公告称,新上线策略交易页面,为用户提供现货和期货网格交易策略及其性能和受欢迎程度。同时用户可...
适用于新手的网格交易的套利图文教程
免责声明:本内容仅为作者个人看法,仅用于经验分享,不构成投资建议,照此买卖,责任自负!没有只涨不跌和...
在欧易APP端进行现货网格交易的套利图文教程
本文目录[隐藏]一、现货网格交易简介二、如何进行现货网格交易?三、风险温馨提示还未注册欧易的,需先注册...