AI 日报 2026-05-25 08:35

2026-05-25 08:35 CST

核心速览

1.【Google】I/O 2026 发布 Gemini 3.5,全面进入"Agentic Gemini"时代

Google 在 I/O 2026 发布 Gemini 3.5 模型,强调"前沿智能+行动能力"。同步推出 AI Mode 搜索、Google Workspace AI 更新及订阅体系升级,共公布 100+ 项更新。这是 Google 最大规模 AI 产品集中发布,标志其从"AI 助手"向"自主 Agent"转型。 来源

2.【OpenAI】AI 模型推翻离散几何领域 80 年核心猜想

OpenAI 模型成功解决 80 年未解的"单位距离问题"(unit distance problem),推翻离散几何中的一个重要猜想。这是 AI 驱动数学研究的里程碑事件,表明前沿模型已能在纯数学领域产出原创性突破。 来源

3.【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless——一个 SDK 和 MCP 服务器平台,自 Anthropic API 早期起即为其所有 SDK 提供支持。此举将强化 Anthropic 的开发者工具链和 API 生态建设,巩固其在开发者基础设施层面的控制力。 来源

4.【xAI】Grok Build Beta 上线,Grok 订阅接入 OpenCode/OpenClaw

xAI 发布 Grok Build 早期 Beta——面向 SuperGrok Heavy 用户的 agentic CLI 编程工具,支持编码、建应用和自动化工作流。同时 Grok 订阅已接入 OpenCode 和 OpenClaw,xAI 正加速构建开发者生态。 来源

5.【DeepSeek】V4-Pro 折扣永久化

DeepSeek 宣布 V4-Pro 的折扣价格转为永久定价。此前该折扣原定 5 月 31 日到期,现决定无限期延续。这一价格策略可能进一步压缩竞争对手的定价空间,加速高性能模型的普及化。 来源


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
devlo #44 → #94 70.2 → 54.2 (-22.8%) 大幅下滑,排名暴跌 50 位
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 (-14.7%) 排名跌出前 50
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 (+15.7%) 30B 小模型逆势上升 27 位
Warp #11 → #36 75.6 → 71.0 (-6.1%) 头部梯队滑落,排名跌 25 位
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 (-11.1%) 尾部持续下滑

Terminal-bench 2.0

模型 排名变动 分数变动 说明
LemonHarness / Multiple #10 → #4 79.9 → 84.5 (+5.8%) 闯入前 5,表现亮眼
Warp / Multiple #42 → #66 61.2 → 50.1 (-18.1%) 在 Terminal-bench 同步大幅下跌

趋势观察: Warp 在两个主流 Coding Agent 基准上同步大幅下跌,可能与近期评测方法更新或自身版本回退有关;EntroPO+Qwen3-Coder 作为 30B 小模型在 SWE-bench 上大幅跃升值得关注。

快速预览

  • OpenAI 获 Gartner 2026 企业 AI 编码代理「领导者」象限;Codex 生态持续扩张(Dell 混合部署、移动端上线)
  • Anthropic 收购 Stainless(SDK/MCP 平台);Claude Code 连发 5 版本至 v2.1.150,新增 /usage 分类明细和 /code-review 命令
  • Google I/O 2026 发布 Gemini 3.5,定位「前沿智能 + 行动力」,AI 搜索、Workspace 全线更新
  • LM Arena Top 3:claude-opus-4-6-thinking (1502.0)、claude-opus-4-7-thinking (1500.3)、claude-opus-4-6 (1498.1)
  • SWE-bench Verified 重大变动:devlo 从第 44 名暴跌至 83–94 名,Warp 从第 11 跌至第 36

一、行业新闻

OpenAI(按日期倒序)

日期 标题 摘要
05-22 Gartner 2026 企业 AI 编码代理领导者 OpenAI 被评为 2026 Gartner Magic Quadrant 企业 AI 编码代理领导者,Codex 因创新和企业规模部署获认可
05-22 Virgin Atlantic 加速交付案例 Virgin Atlantic 用 Codex 在固定期限内完成移动端重构,近 100% 单元测试覆盖、零 P1 缺陷
05-21 AdventHealth 整体护理 AdventHealth 使用 ChatGPT for Healthcare 简化工作流、减少行政负担
05-20 AI 推翻离散几何中心猜想 OpenAI 模型解决了 80 年历史的单位距离问题,推翻离散几何重要猜想
05-20 Education for Countries 新阶段 扩大全球学校 AI 采用,新增合作伙伴和教师培训
05-20 Ramp 工程师用 Codex 加速代码审查 使用 GPT-5.5 的 Codex 将审查反馈从数小时缩短到分钟
05-19 OpenAI for Singapore 多年 AI 合作伙伴关系,覆盖人才培养和公共服务
05-19 内容溯源与透明度 推进 Content Credentials、SynthID 和验证工具
05-18 Dell 合作:Codex 进入混合/本地部署 帮助企业在混合和本地环境中安全部署 Codex
05-16 马耳他 ChatGPT Plus 合作 向所有公民提供 ChatGPT Plus 及 AI 培训
05-15 Databricks 引入 GPT-5.5 GPT-5.5 在 OfficeQA Pro 基准上创下新 SOTA
05-15 ChatGPT 个人理财体验 美国 Pro 用户可关联金融账户获取 AI 理财洞察(预览)
05-14 Sea 集团部署 Codex Sea CPO 解释在亚洲工程团队全面部署 Codex 的战略
05-14 Codex 移动端 通过 ChatGPT 移动 App 远程使用 Codex
05-14 ChatGPT 敏感对话上下文识别 提升安全对话中的上下文感知能力
05-13 Codex Windows 沙箱 安全沙箱技术实现 Codex 在 Windows 上运行
05-13 TanStack npm 供应链攻击应对 macOS 用户需在 2026-06-12 前更新 OpenAI 应用
05-12 NVIDIA 工程师使用 Codex 使用 GPT-5.5 的 Codex 交付生产系统和研究实验
05-11 DeployCo 上线 新企业部署公司,帮助组织将前沿 AI 投入生产

其他同期新闻:销售/运营/数据科学/财务团队 Codex 使用指南(05-12~15)、AutoScout24 案例(05-12)、Parameter Golf 回顾(05-12)、ChatGPT Q1 采用趋势(05-11)、Campus Network(05-11)

OpenAI Codex Changelog(按日期倒序)

日期 版本/标题 要点
05-21 Appshots & Goal Mode macOS 可双击 Command 键将前台 App 截图发送给 Codex
05-21 CLI 0.133.0 Goals 默认启用,支持跨会话进度跟踪
05-20 CLI 0.132.0 Python SDK 支持一等公民认证(API key、ChatGPT 浏览器/设备码流程)
05-18 CLI 0.131.0 TUI 丰富会话控制:token 用量、权限模式、工作区根目录等
05-14 Codex 移动端 ChatGPT 移动 App 可连接 Mac 运行 Codex

Anthropic(按日期倒序)

日期 标题 摘要
05-19 扩大 AI 伦理对话 与学者、哲学家、神职人员就 AI 伦理问题展开系列对话
05-18 收购 Stainless 收购 SDK 和 MCP 服务器平台 Stainless,该平台支撑了 Anthropic 所有 SDK
05-14 美中 AI 竞争白皮书 发布论文阐述美国及民主盟友在前沿 AI 领域领先的优势及保持策略
05-14 盖茨基金会合作 承诺 2 亿美元用于全球健康、生命科学、教育等领域
05-11 Claude 宪法有声书 Amanda Askell 和 Joe Carlsmith 朗读,含写作过程 Q&A

Claude Code Releases(按日期倒序)

日期 版本 要点
05-23 v2.1.150 内部基础设施改进(无用户可见变更)
05-22 v2.1.149 /usage 新增分类明细:skills、subagents、plugins、MCP server 成本
05-22 v2.1.148 修复 v2.1.147 引入的 Bash 工具 exit code 127 回归
05-21 v2.1.147 固定后台会话(Ctrl+T)保持存活,更新时原地重启
05-21 v2.1.146 /simplify 重命名为 /code-review,支持 effort level 参数

Google(按日期倒序)

日期 标题 摘要
05-22 I/O 2026 Dialogues 回顾 Sundar Pichai I/O 2026 对话阶段回顾
05-20 I/O 2026 全部 100 项发布 I/O 2026 完整公告汇总
05-20 Missouri 社区投资 下一代劳动力和能源项目投资
05-19 Gemini 3.5 发布 「前沿智能 + 行动力」定位
05-19 AI 搜索新时代 搜索引擎与 AI 最佳结合
05-19 AI Mode 使用洞察 美国用户 AI Mode 搜索行为数据
05-19 Google Workspace 更新 AI 驱动的新创作和生产力功能
05-19 AI 订阅更新 更多功能、更强能力、同价格
05-19 Sundar Pichai 主题演讲 宣告 agentic Gemini 时代

xAI(按日期倒序)

日期 标题 摘要
05-21 Grok 集成 OpenCode Grok/X Premium 订阅可在 OpenCode 中使用,支持高速和代码库智能
05-19 Grok 集成 OpenClaw 可在 OpenClaw 中聊天、生成图像/视频、搜索 X 帖子
05-15 Grok 集成 Hermes Agent Grok 订阅可在 NousResearch Hermes Agent 中使用
05-14 Grok Build 公测 agentic CLI 编码工具,面向 SuperGrok Heavy 用户开放早期测试

DeepSeek(按日期倒序)

日期 标题 摘要
05-22 DeepSeek-V4-Pro 折扣永久化 折扣延长至 2026-05-31,并宣布转为永久优惠

二、Benchmark 快照与变化

SWE-bench Verified(有变化)

当前 Top 10:

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

本期变化(非 Top 10 位置变动):

模型 排名变化 分数变化 说明
devlo 44 → 83/94 70.2 → 58.2/54.2 大幅下跌,疑似重新评测或数据修正
Warp 11 → 36 75.6 → 71.0 显著下滑
Nemotron-CORTEXA 50 → 82 68.2 → 58.2 大幅下滑
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0 小幅下跌
Solver (2024-09-12) 120 → 126 45.4 → 43.6 小幅下跌
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 52.2 → 60.4 显著上升(+8.2 分)

⚠️ devlo 存在两条变化记录(83 和 94),数据来源待确认。


SWE-bench Pro Public(本期无变动)

当前 Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

来源:Scale AI Leaderboard · 快照时间 2026-05-25


Terminal-Bench 2.0(有变化)

当前 Top 5:

排名 模型 分数 采集日期
1 vix / Claude Opus 4.7 90.2 2026-05-15
2 JJAgent / Multiple 87.1 2026-05-15
3 NexAU-AHE / GPT-5.5 84.7 2026-05-14
4 LemonHarness / Multiple 84.5 2026-05-14
5 Capy / GPT-5.5 83.1 2026-05-14

本期变化:

模型 排名变化 分数变化 说明
LemonHarness / Multiple 10 → 4 79.9 → 84.5 大幅上升,新进 Top 5
Warp / Multiple 42 → 48/66 61.2 → 59.1/50.1 下降(存在多条记录)
little-coder / Qwen3.6-35B-A3B 122 → 117 23.0 → 24.6 小幅上升

来源:tbench.ai


LM Arena(本期无变动)

当前 Top 5:

排名 模型 Elo 分数
1 claude-opus-4-6-thinking 1501.98
2 claude-opus-4-7-thinking 1500.25
3 claude-opus-4-6 1498.06
4 claude-opus-4-7 1492.39
5 muse-spark 1489.49

来源:LM Arena (HuggingFace) · 快照 2026-05-19 · Top 4 均为 Anthropic Claude 系列


三、来源状态

  • 本期所有新闻源和 benchmark 源均采集成功,无失败记录。

Sources