V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能

wwwxcomcn2026-04-24 12:38:33t

4月24日,V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括 PyTorch、CUDA、Rust 和 C++。经过严格筛选后,保留了 30 项任务用于基准评估。

V4-Pro-Max 达到了 67% 的编码通过率,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它仍落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时远超 Haiku 4.5 的 13%。

在一次内部调查中,共有 85 名受访者,所有参与者都表示在日常工作流程中使用 V4-Pro 进行具备行动性的(agentic)编码。52% 将 V4-Pro 作为默认的首选编码模型,39% 倾向于认可,而不到 9% 表达不赞同。报告的问题包括底层错误、对含糊提示的误读,以及偶尔出现的过度思考行为。

三箭资本在 7 月份估计其资产约为 10 亿美元

根据TheBlock获得的一份文件,三箭资本在7月份估计其资产约为10亿美元。法币资产估计价值3700万美元,代币价值约2.38亿美元,NFT价值约2200万美元,风险投资和其他投资价值5.02亿美元。这些资产远低于其超过30亿美元...

Ripple 与美国金融监管机构 SEC 之间的诉讼正在出现积极的迹象

Ripple与美国金融监管机构SEC之间的诉讼正在出现积极的迹象,据CoinMarketCap数据显示,XRP现报价0.3867美元,24小时内上涨10.22%。Filan在推特上称,RippleLabs、BradGarlinghouse和ChrisLarsen预计将在周一提交简...

Vitalik 解释以太坊基金会为何不将 ETH 用于质押而是持续抛售

关于以太坊基金会为何不将ETH用于质押而是持续抛售(并使用DeFi来弥补其大部分预算),Vitalik表示:担忧包括监管因素以及“迫使我们在未来任何有争议的硬分叉中表明立场”。但目前监管因素比之前少,第二个顾虑可以...

币安将移除ACM/BUSD、ALPACA/BUSD、BAR/BUSD等现货交易对

币安宣布将于2023年07月26日11:00(东八区时间)移除以下现货交易对并停止交易:ACM/BUSD、ALPACA/BUSD、BAR/BUSD、LSK/BUSD、QTUM/BUSD、TFUEL/BUSD。

美国财政部国内金融副部长认为硅谷银行和 Signature Bank 的迅速倒闭不应归咎于加密资产行业

美国财政部国内金融副部长NellieLiang认为,硅谷银行(SVB)和SignatureBank的迅速倒闭不应归咎于加密资产行业。Liang在周三的众议院金融服务委员会听证会上表示,“我不认为加密货币在这两起失败中发挥了直接作用”。...

上一篇:GSR 在 NASDAQ 上以 BESO 代码推出首只多资产加密货币 ETF
下一篇:Reppo Foundation 从 Bolts Capital 获得 $20M 百万战略承诺,REPPO 24 小时内飙升 40%