五个前沿 AI 模型在最新研究中对 67% 的事实核查主张存在分歧

26662026-05-30 02:05:43decrypt

据 Lenz Research 的研究员 Kosta Jordanov 称,本月测试的 1,000 条真实世界事实核查指称中,5 个前沿 AI 模型在 67% 的指称上存在分歧。模型——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search,以及 Sonar Pro——被要求将指称分类为真、基本真、误导或假。在 34% 的案例中,分歧十分严重:一 个模型将某项指称判为真,而另一个模型将其标记为假。

该研究使用 Krippendorff's alpha 来衡量一致性,得分为 0.639;在该量表中,1.0 表示完全一致;研究人员通常认为低于 0.8 的分数较弱。只有 1,000 条指称中的 328 条出现了完全一致的情况,值得注意的是,零 条指称获得了“一般为真”的一致裁定。研究人员使用真实用户提交的指称,来自 Lenz 的事实核查平台,而非标准基准,从而降低了模型对训练数据进行模式匹配的可能性。


招银国际与 DigiFT 推出首只获港新双监管认可的多链代币化基金

招银国际资管与新加坡持牌RWA交易所DigiFT合作完成招银国际美元货币市场基金(CMBInternationalUSDMoneyMarketFund)的链上代币化及多链发行。该基金获香港及新加坡监管认可,也是全球范围内首支Solana链上公募基金...

Circle 前稳定币副总裁现加入 M^Zero 担任首席战略官

领导了USDC建设的Circle前稳定币副总裁JoãoReginatto现加入M^Zero担任首席战略官。DeFi平台M^ZERO今年4月完成PanteraCapital领投2250万美元的种子轮融资。(TheBlock)...

Cantor Fitzgerald 董事长 Brandon Lutnick 称其已亲自核查 Tether 的储备

CantorFitzgerald董事长BrandonLutnick在Consensus2025透露,其早期与Tether合作时曾亲自核查其储备金,以回应市场质疑。他否认2023年曾在Tether实习,但承认从Tether团队学习加密知识。Lutnick于2025年2月上任,其...

浙江省杭州市中级人民法院一审公开开庭审理了肖毅受贿、滥用职权一案

12月29日,浙江省杭州市中级人民法院一审公开开庭审理了江西省政协原党组成员、副主席肖毅受贿、滥用职权一案。杭州市人民检察院起诉指控:2017年至2021年,肖毅在担任抚州市委书记期间,违反国家规定,违背新发展理...

SharpLink Gaming 再次购入 16,374 枚 ETH,价值约 4,885 万美元

据@EmberCN,SharpLinkGaming于7小时前再次购入16,374枚ETH,价值约4,885万美元。目前其ETH总持仓量已增至27万枚。SharpLinkGaming从6月初开始以微策略的运作模式储备ETH以来,已经累计购进27万枚ETH,购买均价约2,6...

上一篇:挪威首相呼吁就 AI 和全球议题加强与中国的沟通
下一篇:LME 金属收盘涨跌不一:铜下跌 66 美元/吨,锡在 5 月 29 日大涨 339 美元/吨