微软的 Fara1.5 AI 在网页浏览方面胜过 OpenAI 和 Google
微软研究院本周发布 Fara1.5,这是一种用于网页浏览任务的开放权重 AI 模型,在行业基准测试中表现优于 OpenAI 的 Operator 以及谷歌的 Gemini 2.5 Computer Use。Fara1.5-27B 在 Online-Mind2Web 上得分 72%,而 OpenAI Operator 为 58.3%,Gemini 2.5 Computer Use 为 57.3%。该发布标志着计算机使用代理(computer use agents)竞争格局的转变——这类 AI 系统旨在读取浏览器屏幕并执行点击、滚动和输入等操作,而无需依赖特殊插件。不同于 OpenAI 的专有、基于云的 Operator(于 2025 年 1 月推出,定价为每月 200 美元,随后在 2025 年 8 月被关闭)以及谷歌的 Gemini 产品,Fara1.5 为开源并公开发布了权重。微软之所以实现这一性能,源于其重新思考了完整的开发流程:从数据生成和训练目标,到模型设计与编排。
模型规格与可用性
Fara1.5 提供三种规模:40 亿、90 亿和 270 亿参数,均基于 Qwen 3.5——阿里巴巴的基础模型,微软对其进行了专门微调以适配浏览器工作。Fara1.5-9B(中型版本)在 Online-Mind2Web 上得分 63.4%——领先于 OpenAI 和谷歌的相关产品。90 亿参数模型现已上线于 Azure AI Foundry,而 40 亿和 270 亿版本将很快到来。
基准测试表现
Online-Mind2Web 是主要基准,测试 AI 代理在 136 个热门在线实时网站上,完成 300 个多样的真实世界任务的正确率。任务涵盖产品对比、表单填写以及预约/订服务等。该评分反映的是在实际、不断变化的互联网中正确完成的任务数量。
在 WebVoyager 上(第二个基准,用于衡量实时网页上的任务成功率),Fara1.5-27B 达到 88.6%,略高于 OpenAI Operator 的 87.0%,并在 83.0% 之上超越 H 公司的 Holo2(300 亿参数)。
开源竞争对手的得分更低:阿里巴巴的 GUI-Owl-1.5(80 亿参数)为 48.6%,而 AI2 的 MolmoWeb 为 35.3%。微软此前的模型 Fara-7B 得分为 34.1%——这意味着在相近规模下,Fara1.5-27B 的表现几乎翻倍。Yutori 的 Navigator n1 作为领先的专有替代方案,达到了 64.7%。
训练方法
微软使用 FaraGen1.5 生成训练数据,采用 GPT-5.4——OpenAI 的模型——作为“教师代理”,演示如何完成浏览器任务。这些演示内容构成了 Fara1.5 的训练数据。
团队还创建了 6 个完全可运行的真实网站副本,包括邮件客户端、日历和市场平台。此合成域训练使模型能够在不访问真实账号的情况下练习需要登录或不可逆操作的任务,从而提升其在“受限”任务上的表现。
安全与用户控制
每个模型都被设计为在执行不可逆操作前先停止并征求确认。Fara1.5 在 MagenticLite 中运行,这是一个带沙箱的浏览器环境:它会记录每一步操作,并允许用户在任意时刻中止代理。微软研究院高级产品经理负责人 Yash Lara 表示:“在关键节点等提供强有力防护措施的同时,保持顺畅的用户旅程至关重要。拥有像 Microsoft Research 的 Magentic-UI 这样的界面,对于让用户在必要时有机会介入很关键,同时也能帮助避免审批疲劳。”
未来扩展
微软表示计划将 Fara1.5 从浏览器进一步扩展到桌面以及企业级软件应用。
风投机构一季度向加密领域投资 24.9 亿美元
据Cointelegraph,GalaxyResearch汇编数据显示,在经历了连续三个季度的下滑之后,加密货币和区块链初创公司的风险投资出现了大幅增长。2024年第一季度,投资者在603笔交易中注入了24.9亿美元,融资金额较上一季度增...
美东时间 10 月 1 日,美国以太坊现货 ETF 总净流出 4851.90 万美元根据SoSoValue数据,昨日(美东时间10月1日)美国以太坊现货ETF总净流出4851.90万美元。昨日灰度(Grayscale)以太坊信托ETFETHE单日净流出2664.47万美元。灰度(Grayscale)以太坊迷你信托ETFETH单日净流出0.00美元...
Coinbase 副总裁:我们正在采取“国际第一”的心态据Decrypt,Coinbase国际政策副总裁TomDuffGordon在ZebuLive2023会议上表示,我们希望让10亿人进入加密货币领域,我们致力于经济自由,国际扩张对我们来说变得越来越重要,特别是考虑到美国所处的位置。Coinbase现在...
新加坡监管机构:希望确保人工智能行业的可持续发展据彭博社报道,新加坡监管机构表示,当局在加密货币领域“吸取了很多教训”之后,希望确保人工智能行业的可持续发展。并表示,今年新加坡在人工智能方面的投资达到了数十亿美元。此前,总部位于新加坡的两家主要加密...
Paradigm 支持的 ZK 项目 Succinct 宣布将发行原生代币 PROVEParadigm支持的ZK项目Succinct宣布将发行原生代币PROVE,用作其基于以太坊的去中心化零知识证明网络的核心资产。目前Succinct网络处于测试网第2阶段,预计很快进入2.5阶段,为主网启动铺路。SuccinctLabs曾于2024年...
Immutable X 在 ApeCoin 论坛上发布 AIP Idea:成为ApeCoin DAO 的 Layer 2 扩展合作伙伴
以太坊L2ImmutableX于5月27日在ApeCoin论坛上发布AIPIdea:希望ImmutableX成为ApeCoinDAO的Layer2扩展合作...
韩金融监督院对 PG 企业虚拟资产持有情况的调查:拥有虚拟资产的有 6 家,Do Kwon 旗下 Chai Corporation 零持有
据韩媒MoneyToday报道,韩国金融监督院最近对电子支付结算代理(PG)企业的虚拟资产(加密货币)持有情况进...
Kaiko 研究:Coinbase 在 LUNA 崩溃期间交易量创下其历史次高;FTX 5 月市场份额首次超过 Coinbase
据Kaiko研究,Coinbase在Terra的UST崩盘后的抛售中的交易量为其历史次高,仅次于519期间;FTX的市场份额在5...
获 Paradigm 和 Coinbase Ventures 投资的中东最大加密交易所之一的 Rain Financial 已在近期行情低迷时裁减了数十名员工
据知情人士透露,中东最大的加密货币交易所之一RainFinancialInc.已经在近期加密货币的低迷中解雇了数十名...