AI 日报 2026-05-25 08:35

核心速览

1.【Google】I/O 2026 发布 Gemini 3.5，全面进入"Agentic Gemini"时代

Google 在 I/O 2026 发布 Gemini 3.5 模型，强调"前沿智能+行动能力"。同步推出 AI Mode 搜索、Google Workspace AI 更新及订阅体系升级，共公布 100+ 项更新。这是 Google 最大规模 AI 产品集中发布，标志其从"AI 助手"向"自主 Agent"转型。来源

2.【OpenAI】AI 模型推翻离散几何领域 80 年核心猜想

OpenAI 模型成功解决 80 年未解的"单位距离问题"（unit distance problem），推翻离散几何中的一个重要猜想。这是 AI 驱动数学研究的里程碑事件，表明前沿模型已能在纯数学领域产出原创性突破。来源

3.【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless——一个 SDK 和 MCP 服务器平台，自 Anthropic API 早期起即为其所有 SDK 提供支持。此举将强化 Anthropic 的开发者工具链和 API 生态建设，巩固其在开发者基础设施层面的控制力。来源

4.【xAI】Grok Build Beta 上线，Grok 订阅接入 OpenCode/OpenClaw

xAI 发布 Grok Build 早期 Beta——面向 SuperGrok Heavy 用户的 agentic CLI 编程工具，支持编码、建应用和自动化工作流。同时 Grok 订阅已接入 OpenCode 和 OpenClaw，xAI 正加速构建开发者生态。来源

5.【DeepSeek】V4-Pro 折扣永久化

DeepSeek 宣布 V4-Pro 的折扣价格转为永久定价。此前该折扣原定 5 月 31 日到期，现决定无限期延续。这一价格策略可能进一步压缩竞争对手的定价空间，加速高性能模型的普及化。来源

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
devlo	#44 → #94	70.2 → 54.2 (-22.8%)	大幅下滑，排名暴跌 50 位
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2 (-14.7%)	排名跌出前 50
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4 (+15.7%)	30B 小模型逆势上升 27 位
Warp	#11 → #36	75.6 → 71.0 (-6.1%)	头部梯队滑落，排名跌 25 位
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0 (-11.1%)	尾部持续下滑

Terminal-bench 2.0

模型	排名变动	分数变动	说明
LemonHarness / Multiple	#10 → #4	79.9 → 84.5 (+5.8%)	闯入前 5，表现亮眼
Warp / Multiple	#42 → #66	61.2 → 50.1 (-18.1%)	在 Terminal-bench 同步大幅下跌

趋势观察： Warp 在两个主流 Coding Agent 基准上同步大幅下跌，可能与近期评测方法更新或自身版本回退有关；EntroPO+Qwen3-Coder 作为 30B 小模型在 SWE-bench 上大幅跃升值得关注。

快速预览

OpenAI 获 Gartner 2026 企业 AI 编码代理「领导者」象限；Codex 生态持续扩张（Dell 混合部署、移动端上线）
Anthropic 收购 Stainless（SDK/MCP 平台）；Claude Code 连发 5 版本至 v2.1.150，新增 /usage 分类明细和 /code-review 命令
Google I/O 2026 发布 Gemini 3.5，定位「前沿智能 + 行动力」，AI 搜索、Workspace 全线更新
LM Arena Top 3：claude-opus-4-6-thinking (1502.0)、claude-opus-4-7-thinking (1500.3)、claude-opus-4-6 (1498.1)
SWE-bench Verified 重大变动：devlo 从第 44 名暴跌至 83–94 名，Warp 从第 11 跌至第 36

一、行业新闻

OpenAI（按日期倒序）

日期	标题	摘要
05-22	Gartner 2026 企业 AI 编码代理领导者	OpenAI 被评为 2026 Gartner Magic Quadrant 企业 AI 编码代理领导者，Codex 因创新和企业规模部署获认可
05-22	Virgin Atlantic 加速交付案例	Virgin Atlantic 用 Codex 在固定期限内完成移动端重构，近 100% 单元测试覆盖、零 P1 缺陷
05-21	AdventHealth 整体护理	AdventHealth 使用 ChatGPT for Healthcare 简化工作流、减少行政负担
05-20	AI 推翻离散几何中心猜想	OpenAI 模型解决了 80 年历史的单位距离问题，推翻离散几何重要猜想
05-20	Education for Countries 新阶段	扩大全球学校 AI 采用，新增合作伙伴和教师培训
05-20	Ramp 工程师用 Codex 加速代码审查	使用 GPT-5.5 的 Codex 将审查反馈从数小时缩短到分钟
05-19	OpenAI for Singapore	多年 AI 合作伙伴关系，覆盖人才培养和公共服务
05-19	内容溯源与透明度	推进 Content Credentials、SynthID 和验证工具
05-18	Dell 合作：Codex 进入混合/本地部署	帮助企业在混合和本地环境中安全部署 Codex
05-16	马耳他 ChatGPT Plus 合作	向所有公民提供 ChatGPT Plus 及 AI 培训
05-15	Databricks 引入 GPT-5.5	GPT-5.5 在 OfficeQA Pro 基准上创下新 SOTA
05-15	ChatGPT 个人理财体验	美国 Pro 用户可关联金融账户获取 AI 理财洞察（预览）
05-14	Sea 集团部署 Codex	Sea CPO 解释在亚洲工程团队全面部署 Codex 的战略
05-14	Codex 移动端	通过 ChatGPT 移动 App 远程使用 Codex
05-14	ChatGPT 敏感对话上下文识别	提升安全对话中的上下文感知能力
05-13	Codex Windows 沙箱	安全沙箱技术实现 Codex 在 Windows 上运行
05-13	TanStack npm 供应链攻击应对	macOS 用户需在 2026-06-12 前更新 OpenAI 应用
05-12	NVIDIA 工程师使用 Codex	使用 GPT-5.5 的 Codex 交付生产系统和研究实验
05-11	DeployCo 上线	新企业部署公司，帮助组织将前沿 AI 投入生产

其他同期新闻：销售/运营/数据科学/财务团队 Codex 使用指南（05-12~15）、AutoScout24 案例（05-12）、Parameter Golf 回顾（05-12）、ChatGPT Q1 采用趋势（05-11）、Campus Network（05-11）

OpenAI Codex Changelog（按日期倒序）

日期	版本/标题	要点
05-21	Appshots & Goal Mode	macOS 可双击 Command 键将前台 App 截图发送给 Codex
05-21	CLI 0.133.0	Goals 默认启用，支持跨会话进度跟踪
05-20	CLI 0.132.0	Python SDK 支持一等公民认证（API key、ChatGPT 浏览器/设备码流程）
05-18	CLI 0.131.0	TUI 丰富会话控制：token 用量、权限模式、工作区根目录等
05-14	Codex 移动端	ChatGPT 移动 App 可连接 Mac 运行 Codex

Anthropic（按日期倒序）

日期	标题	摘要
05-19	扩大 AI 伦理对话	与学者、哲学家、神职人员就 AI 伦理问题展开系列对话
05-18	收购 Stainless	收购 SDK 和 MCP 服务器平台 Stainless，该平台支撑了 Anthropic 所有 SDK
05-14	美中 AI 竞争白皮书	发布论文阐述美国及民主盟友在前沿 AI 领域领先的优势及保持策略
05-14	盖茨基金会合作	承诺 2 亿美元用于全球健康、生命科学、教育等领域
05-11	Claude 宪法有声书	Amanda Askell 和 Joe Carlsmith 朗读，含写作过程 Q&A

Claude Code Releases（按日期倒序）

日期	版本	要点
05-23	v2.1.150	内部基础设施改进（无用户可见变更）
05-22	v2.1.149	`/usage` 新增分类明细：skills、subagents、plugins、MCP server 成本
05-22	v2.1.148	修复 v2.1.147 引入的 Bash 工具 exit code 127 回归
05-21	v2.1.147	固定后台会话（`Ctrl+T`）保持存活，更新时原地重启
05-21	v2.1.146	`/simplify` 重命名为 `/code-review`，支持 effort level 参数

Google（按日期倒序）

日期	标题	摘要
05-22	I/O 2026 Dialogues 回顾	Sundar Pichai I/O 2026 对话阶段回顾
05-20	I/O 2026 全部 100 项发布	I/O 2026 完整公告汇总
05-20	Missouri 社区投资	下一代劳动力和能源项目投资
05-19	Gemini 3.5 发布	「前沿智能 + 行动力」定位
05-19	AI 搜索新时代	搜索引擎与 AI 最佳结合
05-19	AI Mode 使用洞察	美国用户 AI Mode 搜索行为数据
05-19	Google Workspace 更新	AI 驱动的新创作和生产力功能
05-19	AI 订阅更新	更多功能、更强能力、同价格
05-19	Sundar Pichai 主题演讲	宣告 agentic Gemini 时代

xAI（按日期倒序）

日期	标题	摘要
05-21	Grok 集成 OpenCode	Grok/X Premium 订阅可在 OpenCode 中使用，支持高速和代码库智能
05-19	Grok 集成 OpenClaw	可在 OpenClaw 中聊天、生成图像/视频、搜索 X 帖子
05-15	Grok 集成 Hermes Agent	Grok 订阅可在 NousResearch Hermes Agent 中使用
05-14	Grok Build 公测	agentic CLI 编码工具，面向 SuperGrok Heavy 用户开放早期测试

DeepSeek（按日期倒序）

日期	标题	摘要
05-22	DeepSeek-V4-Pro 折扣永久化	折扣延长至 2026-05-31，并宣布转为永久优惠

二、Benchmark 快照与变化

SWE-bench Verified（有变化）

当前 Top 10：

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

本期变化（非 Top 10 位置变动）：

模型	排名变化	分数变化	说明
devlo	44 → 83/94	70.2 → 58.2/54.2	大幅下跌，疑似重新评测或数据修正
Warp	11 → 36	75.6 → 71.0	显著下滑
Nemotron-CORTEXA	50 → 82	68.2 → 58.2	大幅下滑
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0	小幅下跌
Solver (2024-09-12)	120 → 126	45.4 → 43.6	小幅下跌
EntroPO + R2E + Qwen3-Coder-30B	103 → 76	52.2 → 60.4	显著上升（+8.2 分）

⚠️ devlo 存在两条变化记录（83 和 94），数据来源待确认。

SWE-bench Pro Public（本期无变动）

当前 Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

来源：Scale AI Leaderboard · 快照时间 2026-05-25

Terminal-Bench 2.0（有变化）

当前 Top 5：

排名	模型	分数	采集日期
1	vix / Claude Opus 4.7	90.2	2026-05-15
2	JJAgent / Multiple	87.1	2026-05-15
3	NexAU-AHE / GPT-5.5	84.7	2026-05-14
4	LemonHarness / Multiple	84.5	2026-05-14
5	Capy / GPT-5.5	83.1	2026-05-14

本期变化：

模型	排名变化	分数变化	说明
LemonHarness / Multiple	10 → 4	79.9 → 84.5	大幅上升，新进 Top 5
Warp / Multiple	42 → 48/66	61.2 → 59.1/50.1	下降（存在多条记录）
little-coder / Qwen3.6-35B-A3B	122 → 117	23.0 → 24.6	小幅上升

来源：tbench.ai

LM Arena（本期无变动）

当前 Top 5：

排名	模型	Elo 分数
1	claude-opus-4-6-thinking	1501.98
2	claude-opus-4-7-thinking	1500.25
3	claude-opus-4-6	1498.06
4	claude-opus-4-7	1492.39
5	muse-spark	1489.49

来源：LM Arena (HuggingFace) · 快照 2026-05-19 · Top 4 均为 Anthropic Claude 系列

三、来源状态

本期所有新闻源和 benchmark 源均采集成功，无失败记录。

来源 · 64 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×12 @xai ×5 @deepseek_ai