GPT-5.5 重返编程前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准测试

laopengyou2026-04-27 13:38:04t

4 月 27 日,SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿;随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 “Spud” 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。

在实际测试中,出现了明确的分工。Claude 负责新的项目规划与初始搭建,而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力,但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上,Claude 会自动复刻参考页面布局,但会捏造大量数据;而 Codex 跳过布局,却提供了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而,GPT-5.5 的公告改用了一个名为 “Expert-SWE” 的新基准。原因被藏在细微的说明中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。

关于 Opus 4.7,Anthropic 在发布后一周发表了死后复盘分析,承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降,但这些说法被当作主观观察而否定。此外,Opus 4.7 的新分词器会使 token 使用量最高增加 35%,而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。

DeepSeek V4 被评为 “跟上前沿但并不领先”,将自己定位为封闭源模型中成本最低的替代方案。分析还指出,“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在它自己的语言上赢过了中文模型。”

文章提出了一个关键概念:模型定价应通过 “每任务成本(cost per task)” 来评估,而不是通过 “每 token 成本(cost per token)”。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens),但它使用更少的 tokens 完成相同的任务,因此实际成本未必更高。最初的 SemiAnalysis 数据显示,Codex 的输入到输出比例为 80:1,低于 Claude Code 的 100:1。

Telegram 机器人 Unibot 在 7 月 23 日捕获费用约 66.5 万美元,大幅创下历史新高

据DeFiLlama数据,Telegram机器人Unibot在7月23日捕获费用约66.5万美元,大幅创下历史新高,超过ConvexFinance、BSC和Pancakeswap等协议捕获,这与其每周交易大赛激励有关。...

Binance Labs 宣布投资模组化区块链网络 Hemi Labs

HemiLabs宣布完成1500万美元融资,本轮融资由BinanceLabs、BreyerCapital和BigBrainHoldings领投,Cryptocom、Web3Ventures、HyperChainCapital、SunflowerCapital、DNAFund、GateVentures、IBGCapital、ProteinCapi...

加密初创公司 Superform Labs 在种子轮和天使轮融资中筹集了 650 万美元

加密初创公司SuperformLabs在种子轮和天使轮融资中筹集了650万美元,PolychainCapital领投,CircleVentures、ArthurHayes等参投。Superform是一个无需许可的跨链收益市场,可让DeFi协议列出其金库或资产池,用户也可...

Gemini 交易所回应:所有 Gemini 客户的美元都存放在摩根大通、高盛和道富银行

Gemini交易所回应,所有Gemini客户的美元都存放在摩根大通、高盛和道富银行;所有GUSD储备均由道富银行、高盛和富达持有。所有客户资金和Gemini美元储备在Gemini上都是1:1的比例持有,并且可以随时提取。...

德国代币化公司 Cashlink 获得加密货币托管许可证

据ledgerinsights,德国代币化公司Cashlink获得监管机构BaFin颁发的加密货币托管许可证,该公司此前已经拥有加密货币证券注册商许可证。根据德国法律,当证券在DLT上发行时,可以使用注册商而不是中央证券存管处(CSD...

上一篇:Pantera Capital 将韩国视为链上金融基础设施的领跑市场
下一篇:贝莱德比特币 ETF IBIT 上周录得 $983M 净流入,创 6 个月高位