AI 日报 2026-05-25 12:18

2026-05-25 12:18 CST

核心速览

【Google】I/O 2026 发布 Gemini 3.5,全面进入 Agentic 时代 Google 在 I/O 2026 发布 Gemini 3.5 系列模型,Flash 版本在视觉任务上超越 3.1 Pro 且速度提升约 6 倍。Sundar Pichai 宣布 Google 全面进入"Agentic Gemini"时代,同步更新 Search AI Mode、Workspace、订阅服务等产品线。 链接

【OpenAI】AI 模型推翻离散几何 80 年核心猜想 OpenAI 模型解决了 80 年历史的单位距离问题(unit distance problem),推翻了离散几何领域的一个重大猜想,标志着 AI 驱动数学研究的里程碑时刻。 链接

【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless(@stainlessapi),这是一家 SDK 和 MCP 服务器平台公司,自 Anthropic API 早期即为其提供所有 SDK 支持。此举将加强 Anthropic 开发者工具生态的垂直整合。 链接

【OpenAI】Gartner 评选为 AI 编码代理领导者 OpenAI 在 2026 Gartner 企业 AI 编码代理魔力象限中被评为领导者,Codex 在创新能力和企业级部署方面获得认可。同期 OpenAI 与 Dell 达成合作,将 Codex 引入混合云与本地部署环境。 链接

【DeepSeek】V4-Pro 折扣永久化 DeepSeek 宣布将 DeepSeek-V4-Pro 的优惠价格设为永久定价,降低企业与开发者使用门槛,与 OpenAI、Google 展开价格竞争。 链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 (↑27) 52.2 → 60.4 (↑15.7%) 开源模型大幅跃升
devlo 44 → 94 (↓50) 70.2 → 54.2 (↓22.8%) 大幅下滑,疑为提交回退或评测修正
Nemotron-CORTEXA 50 → 82 (↓32) 68.2 → 58.2 (↓14.7%) NVIDIA 系模型显著下降
Warp 11 → 36 (↓25) 75.6 → 71.0 (↓6.1%) 排名腰斩,竞争力减弱

Terminal-Bench 2.0

模型 排名变动 分数变动 说明
LemonHarness / Multiple 10 → 4 (↑6) 79.9 → 84.5 (↑5.8%) 挺进 Top 5
Warp / Multiple 42 → 66 (↓24) 61.2 → 50.1 (↓18.1%) 双榜同步下滑,或为评测策略调整

快速预览

  • OpenAI 获 Gartner 2026 企业 AI 编程代理魔力象限领导者,Codex 企业部署加速
  • Google I/O 2026 发布 Gemini 3.5,标志"agentic Gemini 时代"开启
  • Anthropic 完成收购 Stainless SDK 平台,Claude Code 迭代至 v2.1.150
  • DeepSeek-V4-Pro 折扣永久化;xAI 发布 Grok Build CLI 测试版
  • LMArena 总榜 Top 2 均为 Claude Opus 4.6/4.7(thinking),SWE-bench Pro Public 新增 gpt-5.4 以 59.1 登顶

一、新闻动态

OpenAI(按日期倒序)

日期 标题 要点
05-22 Gartner 魔力象限领导者 OpenAI 获评 2026 Gartner 企业 AI 编程代理魔力象限领导者,Codex 被认可为创新与企业规模部署标杆
05-22 Virgin Atlantic 用 Codex 加速交付 复活节旅行截止日前完成移动 App 重构,近全量单元测试覆盖,零 P1 缺陷
05-21 AdventHealth × ChatGPT for Healthcare 精简临床工作流、降低行政负担,释放更多患者护理时间
05-20 AI 模型推翻离散几何猜想 解决 80 年历史的单位距离问题,AI 驱动数学里程碑
05-20 Education for Countries 新阶段 扩大全球学校 AI 采纳,新增合作伙伴与教师培训
05-20 Ramp 用 Codex 加速代码审查 GPT-5.5 + Codex 实现分钟级代码审查反馈
05-19 OpenAI for Singapore 多年 AI 合作伙伴关系,覆盖人才培养与公共服务
05-19 内容溯源透明化 推进 Content Credentials + SynthID + 验证工具
05-18 与 Dell 合作 Codex 进入混合/本地部署企业环境
05-16 马耳他 ChatGPT Plus 合作 向全体公民提供 ChatGPT Plus 及培训
05-15 Databricks 集成 GPT-5.5 GPT-5.5 在 OfficeQA Pro 刷新 SOTA,进入 Databricks 企业代理工作流
05-15 ChatGPT 个人理财体验 美国 Pro 用户可关联金融账户获取 AI 理财洞察
05-14 Sea Limited 部署 Codex Sea CPO 解释在亚洲工程团队推广 Codex 的战略
05-14 Codex 移动端 ChatGPT 移动 App 可远程监控与操控 Codex
05-14 安全对话上下文识别 ChatGPT 新安全更新提升敏感对话中的上下文感知
05-13 Codex Windows 沙盒 构建安全沙盒以支持 Codex 在 Windows 上运行
05-13 TanStack 供应链攻击响应 macOS 用户须在 2026-06-12 前更新 OpenAI 应用
05-12 NVIDIA 工程师用 Codex GPT-5.5 + Codex 驱动生产系统与研究实验
05-11 Q1 2026 ChatGPT 采纳增长 35 岁以上用户增速最快,性别使用更趋平衡
05-11 DeployCo 上线 新企业部署公司,帮助组织将前沿 AI 投入生产

Codex Changelog(按日期倒序)

日期 版本/标题 要点
05-21 Appshots + Goal Mode macOS Appshots:双击 Command 键将前台应用截图发送给 Codex;CLI 0.133.0 Goals 默认启用
05-20 CLI 0.132.0 Python SDK 支持一等认证(API Key / ChatGPT 浏览器 / 设备码登录)
05-18 CLI 0.131.0 TUI 丰富会话控件:服务层命令、混合 token 用量、权限审批模式等
05-14 移动端 Codex ChatGPT 移动 App 连接 Mac 上运行的 Codex,复用同一项目/文件/配置

Anthropic(按日期倒序)

日期 标题 要点
05-19 与学者/哲学家/伦理学家对话 讨论 AI 引发的问题,从"好品格如何形成"开始
05-18 收购 Stainless 收购 SDK 与 MCP 服务器平台 Stainless,该平台为所有 Anthropic SDK 提供支持
05-14 AI 竞争论文 发布中美 AI 竞争观点论文,主张美国及民主盟友目前保持前沿 AI 领先
05-14 盖茨基金会合作 承诺 2 亿美元资助 + Claude 额度 + 技术支持,覆盖全球健康/生命科学/教育/农业/经济流动性
05-11 Claude 宪法有声书 Amanda Askell 与 Joe Carlsmith 朗读,含创作过程 Q&A

Claude Code Releases(按日期倒序)

日期 版本 要点
05-23 v2.1.150 内部基础设施改进,无用户可见变更
05-22 v2.1.149 /usage 新增按类别(skills / subagents / plugins / MCP-server)用量分解
05-22 v2.1.148 修复 Bash 工具 exit code 127 回归(2.1.147 引入)
05-21 v2.1.147 Pin 后台会话空闲保活、原地重启应用更新、内存压力下最后被回收
05-21 v2.1.146 /simplify 重命名为 /code-review,支持 effort level 参数

Google(按日期倒序)

日期 标题 要点
05-22 I/O 2026 Dialogues 回顾 Sundar Pichai I/O 对话舞台回顾
05-20 密苏里州社区投资 投资下一代劳动力与能源项目
05-20 I/O 2026 百项发布总览 全部 I/O 发布汇总
05-20 Google Beam 小组会议 新实验功能支持多人远程会议
05-19 Gemini 3.5 发布 Gemini 3.5:前沿智能与行动能力
05-19 Agentic Gemini 时代 Sundar Pichai:欢迎进入 agentic Gemini 时代
05-19 AI 搜索新时代 搜索引擎 + AI 最佳结合
05-19 AI Mode 使用洞察 美国用户 AI Mode 搜索行为变化
05-19 Google Workspace 更新 AI 驱动的新创建与完成方式
05-19 AI 订阅更新 更多功能、同价订阅
05-11 AI Google Finance 欧洲扩展 AI 驱动的 Google Finance 扩展至欧洲

xAI(按日期倒序)

日期 标题 要点
05-21 Grok × OpenCode Grok/X Premium 订阅可在 OpenCode 中使用,基于 Grok Build 模型
05-19 Grok × OpenClaw Grok 订阅可在 OpenClaw 中使用,支持聊天/图像/视频生成/X 搜索
05-15 Grok × Hermes Agent Grok 订阅集成 NousResearch Hermes Agent
05-14 Grok Build CLI 测试版 面向 SuperGrok Heavy 的 agentic CLI,用于编码/构建/自动化

DeepSeek

日期 标题 要点
05-22 V4-Pro 折扣永久化 DeepSeek-V4-Pro 折扣变为永久优惠

Google 相关人物动态

日期 来源 要点
05-23 Logan Kilpatrick Gemini 3.5 Flash 在 Vending Bench 的成本/智能 Pareto 前沿
05-22 Logan Kilpatrick Gemini 3.5 Flash 在多视觉场景超越 3.1 Pro,平均快 ~6x
05-22 Logan Kilpatrick Antigravity 2.0 IDE 仍可用,UI 更新,重置周限额
05-22 Demis Hassabis Antigravity IDE 反馈回应:未移除 IDE 支持,已修复 Windows 问题
05-22 Demis Hassabis Gemini Omni 可根据 Google Maps 截图生成第一人称驾驶视角

Anthropic 相关人物动态

日期 来源 要点
05-24 Boris Cherny 推荐 Claude Code auto mode:无权限弹窗,支持多会话并行("multi-clauding")
05-22 Boris Cherny Project Glasswing 网络安全行动:合作伙伴已发现超过一万个高危/关键漏洞

OpenAI 相关人物动态

日期 来源 要点
05-25 Greg Brockman GPT-5.5 Pro 用于事实核查,Ethan Mollick 评价为"非常可靠"
05-24 Greg Brockman 强调 Codex 是开源的
05-23 Greg Brockman Codex 计算机使用端到端构建并调试 iPhone 模拟器
05-23 Tibo (Codex PM) Codex 限额消耗过快问题已定位(缓存命中率优化回滚),已重置所有账户用量
05-21 Nick Turley ChatGPT for PowerPoint 发布:可在 PowerPoint 中创建/编辑幻灯片

二、Benchmark 快照

SWE-bench Verified(Top 10)

排名 模型 分数 快照日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

来源:live-swe-agent

SWE-bench Pro Public(Top 10)

排名 模型 分数
1 gpt-5.4 (xHigh) * 59.1
2 Muse Spark * 55.0
3 claude-opus-4-6 (thinking) * 51.9
4 gemini-3.1-pro (thinking) * 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

* 带星号为非官方/实验提交。来源:Scale Leaderboard

Terminal-bench 2.0(Top 10)

排名 Agent / 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7
4 LemonHarness / Multiple 84.5
5 Capy / GPT-5.5 83.1
6 Polaris / Multiple 82.2
7 Codex CLI / GPT-5.5 82.0
8 TongAgents / Gemini 3.1 Pro 80.2
9 WOZCODE / Claude Opus 4.7 80.2
10 LemonHarness / Multiple 79.9

来源:tbench.ai

LMArena Overall(Top 10)

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1501.98
2 claude-opus-4-7-thinking 1500.25
3 claude-opus-4-6 1498.06
4 claude-opus-4-7 1492.39
5 muse-spark 1489.49
6 gemini-3.1-pro-preview 1488.18
7 gemini-3-pro 1485.82
8 gpt-5.5-high 1481.32
9 gemini-3.5-flash 1480.04
10 gpt-5.4-high 1479.60

来源:LMArena (text_style_control),快照日期 2026-05-19


三、榜单变化

SWE-bench Verified 变化

模型 排名变化 分数变化 备注
Warp 11 → 36 75.6 → 71.0 大幅下滑
devlo 44 → 83/94 70.2 → 58.2/54.2 严重下滑(多条记录)
Nemotron-CORTEXA 50 → 82 68.2 → 58.2 大幅下滑
EntroPO + R2E + Qwen3-Coder-30B-A3B 103 → 76 52.2 → 60.4 明显上升
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0 小幅下滑
Solver (2024-09-12) 120 → 126 45.4 → 43.6 小幅下滑

Terminal-bench 2.0 变化

模型 排名变化 分数变化 备注
LemonHarness / Multiple 10 → 4 79.9 → 84.5 显著上升,进入 Top 5
Warp / Multiple 42 → 48/66 61.2 → 59.1/50.1 下滑(多条记录)
little-coder / Qwen3.6-35B-A3B 122 → 117 23.0 → 24.6 小幅上升

LMArena Overall

本期无变动。当前 Top 3:claude-opus-4-6-thinking (1501.98)、claude-opus-4-7-thinking (1500.25)、claude-opus-4-6 (1498.06)。

SWE-bench Pro Public

本期无 Top 10 排名变动记录。当前 Top 3:gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9。


四、来源状态

所有采集源均正常,无采集失败

Sources