AI 日报 2026-05-25 12:18

核心速览

【Google】I/O 2026 发布 Gemini 3.5，全面进入 Agentic 时代 Google 在 I/O 2026 发布 Gemini 3.5 系列模型，Flash 版本在视觉任务上超越 3.1 Pro 且速度提升约 6 倍。Sundar Pichai 宣布 Google 全面进入"Agentic Gemini"时代，同步更新 Search AI Mode、Workspace、订阅服务等产品线。链接

【OpenAI】AI 模型推翻离散几何 80 年核心猜想 OpenAI 模型解决了 80 年历史的单位距离问题（unit distance problem），推翻了离散几何领域的一个重大猜想，标志着 AI 驱动数学研究的里程碑时刻。链接

【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless（@stainlessapi），这是一家 SDK 和 MCP 服务器平台公司，自 Anthropic API 早期即为其提供所有 SDK 支持。此举将加强 Anthropic 开发者工具生态的垂直整合。链接

【OpenAI】Gartner 评选为 AI 编码代理领导者 OpenAI 在 2026 Gartner 企业 AI 编码代理魔力象限中被评为领导者，Codex 在创新能力和企业级部署方面获得认可。同期 OpenAI 与 Dell 达成合作，将 Codex 引入混合云与本地部署环境。链接

【DeepSeek】V4-Pro 折扣永久化 DeepSeek 宣布将 DeepSeek-V4-Pro 的优惠价格设为永久定价，降低企业与开发者使用门槛，与 OpenAI、Google 展开价格竞争。链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B	103 → 76 (↑27)	52.2 → 60.4 (↑15.7%)	开源模型大幅跃升
devlo	44 → 94 (↓50)	70.2 → 54.2 (↓22.8%)	大幅下滑，疑为提交回退或评测修正
Nemotron-CORTEXA	50 → 82 (↓32)	68.2 → 58.2 (↓14.7%)	NVIDIA 系模型显著下降
Warp	11 → 36 (↓25)	75.6 → 71.0 (↓6.1%)	排名腰斩，竞争力减弱

Terminal-Bench 2.0

模型	排名变动	分数变动	说明
LemonHarness / Multiple	10 → 4 (↑6)	79.9 → 84.5 (↑5.8%)	挺进 Top 5
Warp / Multiple	42 → 66 (↓24)	61.2 → 50.1 (↓18.1%)	双榜同步下滑，或为评测策略调整

快速预览

OpenAI 获 Gartner 2026 企业 AI 编程代理魔力象限领导者，Codex 企业部署加速
Google I/O 2026 发布 Gemini 3.5，标志"agentic Gemini 时代"开启
Anthropic 完成收购 Stainless SDK 平台，Claude Code 迭代至 v2.1.150
DeepSeek-V4-Pro 折扣永久化；xAI 发布 Grok Build CLI 测试版
LMArena 总榜 Top 2 均为 Claude Opus 4.6/4.7（thinking），SWE-bench Pro Public 新增 gpt-5.4 以 59.1 登顶

一、新闻动态

OpenAI（按日期倒序）

日期	标题	要点
05-22	Gartner 魔力象限领导者	OpenAI 获评 2026 Gartner 企业 AI 编程代理魔力象限领导者，Codex 被认可为创新与企业规模部署标杆
05-22	Virgin Atlantic 用 Codex 加速交付	复活节旅行截止日前完成移动 App 重构，近全量单元测试覆盖，零 P1 缺陷
05-21	AdventHealth × ChatGPT for Healthcare	精简临床工作流、降低行政负担，释放更多患者护理时间
05-20	AI 模型推翻离散几何猜想	解决 80 年历史的单位距离问题，AI 驱动数学里程碑
05-20	Education for Countries 新阶段	扩大全球学校 AI 采纳，新增合作伙伴与教师培训
05-20	Ramp 用 Codex 加速代码审查	GPT-5.5 + Codex 实现分钟级代码审查反馈
05-19	OpenAI for Singapore	多年 AI 合作伙伴关系，覆盖人才培养与公共服务
05-19	内容溯源透明化	推进 Content Credentials + SynthID + 验证工具
05-18	与 Dell 合作	Codex 进入混合/本地部署企业环境
05-16	马耳他 ChatGPT Plus 合作	向全体公民提供 ChatGPT Plus 及培训
05-15	Databricks 集成 GPT-5.5	GPT-5.5 在 OfficeQA Pro 刷新 SOTA，进入 Databricks 企业代理工作流
05-15	ChatGPT 个人理财体验	美国 Pro 用户可关联金融账户获取 AI 理财洞察
05-14	Sea Limited 部署 Codex	Sea CPO 解释在亚洲工程团队推广 Codex 的战略
05-14	Codex 移动端	ChatGPT 移动 App 可远程监控与操控 Codex
05-14	安全对话上下文识别	ChatGPT 新安全更新提升敏感对话中的上下文感知
05-13	Codex Windows 沙盒	构建安全沙盒以支持 Codex 在 Windows 上运行
05-13	TanStack 供应链攻击响应	macOS 用户须在 2026-06-12 前更新 OpenAI 应用
05-12	NVIDIA 工程师用 Codex	GPT-5.5 + Codex 驱动生产系统与研究实验
05-11	Q1 2026 ChatGPT 采纳增长	35 岁以上用户增速最快，性别使用更趋平衡
05-11	DeployCo 上线	新企业部署公司，帮助组织将前沿 AI 投入生产

Codex Changelog（按日期倒序）

日期	版本/标题	要点
05-21	Appshots + Goal Mode	macOS Appshots：双击 Command 键将前台应用截图发送给 Codex；CLI 0.133.0 Goals 默认启用
05-20	CLI 0.132.0	Python SDK 支持一等认证（API Key / ChatGPT 浏览器 / 设备码登录）
05-18	CLI 0.131.0	TUI 丰富会话控件：服务层命令、混合 token 用量、权限审批模式等
05-14	移动端 Codex	ChatGPT 移动 App 连接 Mac 上运行的 Codex，复用同一项目/文件/配置

Anthropic（按日期倒序）

日期	标题	要点
05-19	与学者/哲学家/伦理学家对话	讨论 AI 引发的问题，从"好品格如何形成"开始
05-18	收购 Stainless	收购 SDK 与 MCP 服务器平台 Stainless，该平台为所有 Anthropic SDK 提供支持
05-14	AI 竞争论文	发布中美 AI 竞争观点论文，主张美国及民主盟友目前保持前沿 AI 领先
05-14	盖茨基金会合作	承诺 2 亿美元资助 + Claude 额度 + 技术支持，覆盖全球健康/生命科学/教育/农业/经济流动性
05-11	Claude 宪法有声书	Amanda Askell 与 Joe Carlsmith 朗读，含创作过程 Q&A

Claude Code Releases（按日期倒序）

日期	版本	要点
05-23	v2.1.150	内部基础设施改进，无用户可见变更
05-22	v2.1.149	`/usage` 新增按类别（skills / subagents / plugins / MCP-server）用量分解
05-22	v2.1.148	修复 Bash 工具 exit code 127 回归（2.1.147 引入）
05-21	v2.1.147	Pin 后台会话空闲保活、原地重启应用更新、内存压力下最后被回收
05-21	v2.1.146	`/simplify` 重命名为 `/code-review`，支持 effort level 参数

Google（按日期倒序）

日期	标题	要点
05-22	I/O 2026 Dialogues 回顾	Sundar Pichai I/O 对话舞台回顾
05-20	密苏里州社区投资	投资下一代劳动力与能源项目
05-20	I/O 2026 百项发布总览	全部 I/O 发布汇总
05-20	Google Beam 小组会议	新实验功能支持多人远程会议
05-19	Gemini 3.5 发布	Gemini 3.5：前沿智能与行动能力
05-19	Agentic Gemini 时代	Sundar Pichai：欢迎进入 agentic Gemini 时代
05-19	AI 搜索新时代	搜索引擎 + AI 最佳结合
05-19	AI Mode 使用洞察	美国用户 AI Mode 搜索行为变化
05-19	Google Workspace 更新	AI 驱动的新创建与完成方式
05-19	AI 订阅更新	更多功能、同价订阅
05-11	AI Google Finance 欧洲扩展	AI 驱动的 Google Finance 扩展至欧洲

xAI（按日期倒序）

日期	标题	要点
05-21	Grok × OpenCode	Grok/X Premium 订阅可在 OpenCode 中使用，基于 Grok Build 模型
05-19	Grok × OpenClaw	Grok 订阅可在 OpenClaw 中使用，支持聊天/图像/视频生成/X 搜索
05-15	Grok × Hermes Agent	Grok 订阅集成 NousResearch Hermes Agent
05-14	Grok Build CLI 测试版	面向 SuperGrok Heavy 的 agentic CLI，用于编码/构建/自动化

DeepSeek

日期	标题	要点
05-22	V4-Pro 折扣永久化	DeepSeek-V4-Pro 折扣变为永久优惠

Google 相关人物动态

日期	来源	要点
05-23	Logan Kilpatrick	Gemini 3.5 Flash 在 Vending Bench 的成本/智能 Pareto 前沿
05-22	Logan Kilpatrick	Gemini 3.5 Flash 在多视觉场景超越 3.1 Pro，平均快 ~6x
05-22	Logan Kilpatrick	Antigravity 2.0 IDE 仍可用，UI 更新，重置周限额
05-22	Demis Hassabis	Antigravity IDE 反馈回应：未移除 IDE 支持，已修复 Windows 问题
05-22	Demis Hassabis	Gemini Omni 可根据 Google Maps 截图生成第一人称驾驶视角

Anthropic 相关人物动态

日期	来源	要点
05-24	Boris Cherny	推荐 Claude Code auto mode：无权限弹窗，支持多会话并行（"multi-clauding"）
05-22	Boris Cherny	Project Glasswing 网络安全行动：合作伙伴已发现超过一万个高危/关键漏洞

OpenAI 相关人物动态

日期	来源	要点
05-25	Greg Brockman	GPT-5.5 Pro 用于事实核查，Ethan Mollick 评价为"非常可靠"
05-24	Greg Brockman	强调 Codex 是开源的
05-23	Greg Brockman	Codex 计算机使用端到端构建并调试 iPhone 模拟器
05-23	Tibo (Codex PM)	Codex 限额消耗过快问题已定位（缓存命中率优化回滚），已重置所有账户用量
05-21	Nick Turley	ChatGPT for PowerPoint 发布：可在 PowerPoint 中创建/编辑幻灯片

二、Benchmark 快照

SWE-bench Verified（Top 10）

排名	模型	分数	快照日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

来源：live-swe-agent

SWE-bench Pro Public（Top 10）

排名	模型	分数
1	gpt-5.4 (xHigh) *	59.1
2	Muse Spark *	55.0
3	claude-opus-4-6 (thinking) *	51.9
4	gemini-3.1-pro (thinking) *	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

* 带星号为非官方/实验提交。来源：Scale Leaderboard

Terminal-bench 2.0（Top 10）

排名	Agent / 模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7
4	LemonHarness / Multiple	84.5
5	Capy / GPT-5.5	83.1
6	Polaris / Multiple	82.2
7	Codex CLI / GPT-5.5	82.0
8	TongAgents / Gemini 3.1 Pro	80.2
9	WOZCODE / Claude Opus 4.7	80.2
10	LemonHarness / Multiple	79.9

来源：tbench.ai

LMArena Overall（Top 10）

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1501.98
2	claude-opus-4-7-thinking	1500.25
3	claude-opus-4-6	1498.06
4	claude-opus-4-7	1492.39
5	muse-spark	1489.49
6	gemini-3.1-pro-preview	1488.18
7	gemini-3-pro	1485.82
8	gpt-5.5-high	1481.32
9	gemini-3.5-flash	1480.04
10	gpt-5.4-high	1479.60

来源：LMArena (text_style_control)，快照日期 2026-05-19

三、榜单变化

SWE-bench Verified 变化

模型	排名变化	分数变化	备注
Warp	11 → 36	75.6 → 71.0	大幅下滑
devlo	44 → 83/94	70.2 → 58.2/54.2	严重下滑（多条记录）
Nemotron-CORTEXA	50 → 82	68.2 → 58.2	大幅下滑
EntroPO + R2E + Qwen3-Coder-30B-A3B	103 → 76	52.2 → 60.4	明显上升
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0	小幅下滑
Solver (2024-09-12)	120 → 126	45.4 → 43.6	小幅下滑

Terminal-bench 2.0 变化

模型	排名变化	分数变化	备注
LemonHarness / Multiple	10 → 4	79.9 → 84.5	显著上升，进入 Top 5
Warp / Multiple	42 → 48/66	61.2 → 59.1/50.1	下滑（多条记录）
little-coder / Qwen3.6-35B-A3B	122 → 117	23.0 → 24.6	小幅上升

LMArena Overall

本期无变动。当前 Top 3：claude-opus-4-6-thinking (1501.98)、claude-opus-4-7-thinking (1500.25)、claude-opus-4-6 (1498.06)。

SWE-bench Pro Public

本期无 Top 10 排名变动记录。当前 Top 3：gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9。

四、来源状态

所有采集源均正常，无采集失败。

来源 · 82 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×12 @xai ×5 @deepseek_ai @thsottiaux ×3 @nickaturley ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3