AI 日报 2026-05-23 08:48

核心速览

1. 【Google I/O 2026】Gemini 3.5 发布，"Agentic Gemini 时代"正式开启

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型，主打"前沿智能+行动力"，同步推出 AI 搜索新模式、Workspace AI 功能升级及订阅服务更新，共计宣布 100+ 项更新。这是 Google 全面押注 Agent 化 AI 的标志性动作。 → I/O 汇总 | → Gemini 3.5

2. 【OpenAI】AI 模型推翻离散几何中 80 年未解猜想

OpenAI 一个模型解决了"单位距离问题"（Unit Distance Problem），推翻了该领域存在 80 年的核心猜想。这是 AI 驱动数学研究的里程碑事件，标志着模型在形式推理领域取得突破性进展。 → 原文

3. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless API——该平台自 Anthropic API 早期起便支撑其全部 SDK。此举将增强 Anthropic 的开发者工具链控制力，加速 Agent 生态基础设施建设。 → 原文

4. 【OpenAI】Gartner 评为企业编码 Agent 领导者 + Codex 生态全面铺开

OpenAI 在 2026 Gartner 企业 AI 编码 Agent 魔力象限中获评领导者，Codex 获认可。同期 Codex 移动端上线、与 Dell 达成混合部署合作、NVIDIA/Ramp/Virgin Atlantic 等企业落地案例密集发布。 → Gartner | → Dell 合作

5. 【xAI】Grok Build CLI 测试版上线，Grok 订阅打通 OpenCode/OpenClaw

xAI 发布 Grok Build 测试版（面向 SuperGrok Heavy 用户），并宣布 Grok/X Premium 订阅可在 OpenCode 和 OpenClaw 中使用。xAI 正快速构建以 Grok 为核心的开发者工具生态。 → Grok Build | → OpenCode

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
devlo	#44 → #83~94	70.2 → 54.2~58.2 (↓17~22%)	大幅下滑，疑似提交被修正或环境问题
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4 (↑15.7%)	开源 30B 模型 agent 方案显著提升
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2 (↓14.7%)	NVIDIA 方案分数大幅回落
Warp	#11 → #36	75.6 → 71.0 (↓6.1%)	排名滑出 Top 10

Terminal-bench 2.0

模型	排名变动	分数变动	说明
LemonHarness	#10 → #4	79.9 → 84.5 (↑5.8%)	闯入 Top 5，终端任务能力显著增强
Warp	#42 → #66	61.2 → 50.1 (↓18.1%)	两个 benchmark 同步下滑，需关注

快速预览

Google I/O 2026 召开：发布 Gemini 3.5，进入「Agentic Gemini 时代」，同时更新 AI 搜索、Workspace、订阅方案等全线产品
OpenAI 被 Gartner 评为企业 AI 编程代理领导者；同时与 Dell 合作将 Codex 推向混合/本地部署，还推出企业部署公司 DeployCo
Anthropic 收购 Stainless（SDK 平台），并联合盖茨基金会投入 2 亿美元用于全球健康、教育等领域
xAI 发布 Grok Build（编程 CLI 测试版），Grok 订阅现可接入 OpenCode 和 OpenClaw
LM Arena Top 3：claude-opus-4-6-thinking (1502)、claude-opus-4-7-thinking (1500)、claude-opus-4-6 (1498)；Anthropic Claude 系列包揽前四

一、新闻

Google（来源：google-blog-ai）

日期	标题	摘要
05-22	I/O 2026 Dialogues 回顾	Alphabet CEO Sundar Pichai 在 I/O 2026 对谈舞台的对话回顾
05-20	I/O 2026 100 项公告汇总	全面汇总 Google I/O 2026 所有公告
05-20	Google Beam 新实验：多人会议	Google Beam 将支持多人小组会议
05-20	密苏里社区投资	帮助密苏里州建设下一代劳动力并投资能源项目
05-19	Gemini 3.5 发布	Gemini 3.5：前沿智能 + 行动能力
05-19	Agentic Gemini 时代	Sundar Pichai 宣布 I/O 2026 进入 Agentic Gemini 时代
05-19	AI 搜索新时代	搜索引擎与 AI 最佳结合的新一代 AI 搜索
05-19	AI Mode 使用洞察	AI Mode 在美国如何改变人们的搜索方式
05-19	Google Workspace 更新	新的 AI 驱动创作与工作效率功能
05-19	Google AI 订阅方案更新	I/O 2026 新订阅权益，价格不变、功能更强
05-11	AI 驱动 Google Finance 扩展至欧洲	AI 驱动的 Google Finance 体验扩展至欧洲

OpenAI（来源：openai-news）

日期	标题	摘要
05-22	Gartner 企业编程代理领导者	OpenAI 获评 2026 Gartner Magic Quadrant 企业 AI 编程代理领导者
05-22	Virgin Atlantic 使用 Codex 案例	Virgin Atlantic 用 Codex 重构移动应用，实现近全覆盖单元测试和零 P1 缺陷
05-21	AdventHealth 与 OpenAI 合作	AdventHealth 使用 ChatGPT for Healthcare 简化工作流、减轻管理负担
05-20	AI 模型推翻离散几何核心猜想	里程碑：OpenAI 模型解决了 80 年历史的单位距离问题，推翻核心猜想
05-20	教育全球化新阶段	推进「Education for Countries」，扩大全球学校 AI 应用
05-20	Ramp 使用 Codex 加速代码审查	Ramp 工程师用 Codex + GPT-5.5，代码审查反馈从数小时缩短至数分钟
05-19	OpenAI for Singapore	多年期 AI 合作伙伴关系，扩展部署和本地人才培养
05-19	内容来源溯源进展	推进 Content Credentials、SynthID 和验证工具
05-18	与 Dell 合作：Codex 进入混合/本地环境	Codex 将支持企业混合和本地安全部署
05-16	马耳他 ChatGPT Plus 合作	为马耳他所有公民提供 ChatGPT Plus 和培训
05-15	Databricks 集成 GPT-5.5	Databricks 将 GPT-5.5 用于企业代理工作流，OfficeQA Pro 新 SOTA
05-15	ChatGPT 个人理财体验	Pro 用户（美国）可连接金融账户获取 AI 理财洞察
05-14	Sea 与 Codex 的 Agentic 开发	Sea CPO 阐述为何在亚洲工程团队全面部署 Codex
05-14	Codex 移动端工作	ChatGPT 移动端可连接 Mac 上的 Codex，随时随地编程
05-14	ChatGPT 敏感对话上下文识别	新安全更新改善敏感对话的上下文感知
05-13	Codex Windows 沙箱构建	详解如何构建安全 Windows 沙箱以支持 Codex
05-13	TanStack npm 供应链攻击响应	详解对 TanStack 供应链攻击的响应措施；macOS 用户须在 6 月 12 日前更新 OpenAI 应用
05-12	NVIDIA 工程师使用 Codex	NVIDIA 团队用 Codex + GPT-5.5 构建生产系统和研究实验
05-12	AutoScout24 使用 Codex	AutoScout24 用 Codex 和 ChatGPT 加速开发
05-12	Parameter Golf 赛事总结	1000+ 参与者、2000+ 提交，探索 AI 辅助 ML 研究
05-11	ChatGPT Q1 2026 采用趋势	35 岁以上用户增长最快，性别使用更均衡，主流采用加速
05-11	DeployCo 企业部署公司成立	OpenAI 成立 DeployCo，帮助企业将前沿 AI 落地生产
05-11	企业如何规模化 AI	从早期实验到复合影响的企业 AI 扩展指南

OpenAI Codex Changelog（来源：openai-codex-changelog）

日期	标题	摘要
05-21	Appshots, goal mode 等	macOS Codex 应用新增 Appshots：双击 Command 键可将当前应用窗口截图发送给 Codex
05-21	Codex CLI 0.133.0	Goals 默认启用，跨活跃轮次跟踪进度
05-20	Codex CLI 0.132.0	Python SDK 支持一等公民认证（API key、ChatGPT 浏览器/设备码登录等）
05-18	Codex CLI 0.131.0	TUI 更丰富的会话控制：服务层级命令、混合 token 用量、权限模式等
05-14	Codex 移动端支持	ChatGPT 移动端可连接 Mac Codex 应用，远程操控编程任务

Anthropic（来源：x-anthropic、claude-code-releases）

日期	标题	摘要
05-22	Claude Code v2.1.149	`/usage` 新增按类别明细（skills、subagents、plugins、MCP 服务器成本）
05-22	Claude Code v2.1.148	修复 Bash 工具对所有命令返回 exit code 127 的回归 bug
05-21	Claude Code v2.1.147	固定的后台会话（`Ctrl+T`）保持活跃、支持就地重启更新
05-21	Claude Code v2.1.146	`/simplify` 重命名为 `/code-review`，支持可选 effort 级别
05-19	Claude Code v2.1.145	新增 `claude agents --json` 输出 JSON 格式活跃会话列表
05-19	AI 伦理对话	与学者、哲学家、神职人员和伦理学家就 AI 展开系列对话
05-18	收购 Stainless	Anthropic 收购 Stainless（SDK 和 MCP 服务器平台）
05-14	美中 AI 竞争论文	发布关于美中 AI 竞争的观点论文，认为美国及民主盟友目前保持前沿 AI 领先
05-14	盖茨基金会合作	与盖茨基金会合作，承诺 2 亿美元用于全球健康、生命科学、教育等领域
05-11	Claude's Constitution 有声书	Claude 的宪法文档现已有声书版本，由作者 Amanda Askell 和 Joe Carlsmith 朗读

xAI（来源：xai-x）

日期	标题	摘要
05-21	Grok 接入 OpenCode	Grok/X Premium 订阅可用于 OpenCode，调用 Grok Build 模型
05-19	Grok 接入 OpenClaw	Grok/X Premium 订阅可用于 OpenClaw，支持对话、生成图片/视频、搜索 X 帖子
05-18	RT NVIDIA Vera CPU	转发 NVIDIA 关于 SpaceX 试用 Vera CPU 的推文
05-15	Grok 接入 NousResearch Hermes Agent	Grok 订阅现可用于 Hermes Agent
05-14	Grok Build 测试版发布	Grok Build：agentic CLI 编程工具，面向 SuperGrok Heavy 用户早期测试

DeepSeek（来源：deepseek-x）

日期	标题	摘要
05-22	DeepSeek-V4-Pro 折扣永久化	DeepSeek-V4-Pro 折扣转为永久优惠（此前延长至 5 月 31 日）

二、Benchmark 快照与变化

1. LM Arena（Overall）— 2026-05-19 采集

本期无变动记录（当前快照如下）

排名	模型	分数
1	claude-opus-4-6-thinking	1502.0
2	claude-opus-4-7-thinking	1500.3
3	claude-opus-4-6	1498.1
4	claude-opus-4-7	1492.4
5	muse-spark	1489.5
6	gemini-3.1-pro-preview	1488.2
7	gemini-3-pro	1485.8
8	gpt-5.5-high	1481.3
9	gemini-3.5-flash	1480.0
10	gpt-5.4-high	1479.6

Anthropic Claude 系列包揽前四；Gemini 3.5 Flash 首次进入 Top 10。

2. SWE-bench Verified — 快照截止 2025-12-15

当前 Top 3

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变化

模型	变化类型	旧排名→新排名	旧分数→新分数
EntroPO + R2E + Qwen3-Coder-30B	大幅上升	103 → 76	52.2 → 60.4 (+8.2)
devlo	大幅下降	44 → 83/94	70.2 → 54.2~58.2
Nemotron-CORTEXA	下降	50 → 82	68.2 → 58.2 (-10.0)
Warp	下降	11 → 36	75.6 → 71.0 (-4.6)
EPAM AI/Run + GPT4o	微降	156 → 162	27.0 → 24.0
Solver (2024-09-12)	微降	120 → 126	45.4 → 43.6

注意：devlo 出现两条变化记录（排名分别降至 83 和 94），可能为多次提交或撤回；Warp 从 Top 11 跌至 36 位。

3. SWE-bench Pro Public — 2026-05-23 采集

本期无变动记录（当前快照如下）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.9
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.8
10	gpt-5.2-codex	41.0

gpt-5.4 以 59.1 分领跑；带 * 号为有争议/待确认提交。

4. Terminal-Bench 2.0 — 2026-05-15 采集

当前 Top 3

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期变化

模型	变化类型	旧排名→新排名	旧分数→新分数
LemonHarness / Multiple	大幅上升	10 → 4	79.9 → 84.5 (+4.6)
little-coder / Qwen3.6-35B-A3B	小幅上升	122 → 117	23.0 → 24.6
Warp / Multiple	下降	42 → 48/66	61.2 → 50.1~59.1

LemonHarness 从第 10 跃升至第 4；Warp 在多个 benchmark 均出现明显下滑。

三、来源状态

来源类型	状态
新闻来源	全部正常采集，无失败
Benchmark 快照	4 个榜单全部正常采集
变化追踪	SWE-bench Verified 和 Terminal-Bench 2.0 有变动；LM Arena 和 SWE-bench Pro Public 本期无变动

来源 · 64 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×12 @xai ×5 @deepseek_ai