AI 日报 2026-05-21 08:50

核心速览

1. 【OpenAI】AI 模型首次推翻离散几何核心猜想

OpenAI 模型解决了 80 年历史的单位距离问题（unit distance problem），推翻了离散几何中的一个核心猜想。这是 AI 驱动数学研究的重大里程碑，标志着模型在形式化推理领域的突破性进展。原文链接

2. 【Google I/O 2026】发布 Gemini 3.5，全面进入 Agentic 时代

Google 在 I/O 2026 大会发布 Gemini 3.5 模型及超过 100 项更新，主打"Agentic Gemini"战略。新模型定位为前沿智能与行动能力的结合，同时推出 AI Search 新时代、Workspace AI 功能及订阅方案升级。原文链接

3. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless（SDK 与 MCP 服务器平台），该公司自 Anthropic API 诞生之初就为其提供所有 SDK 支持。此次收购将加强 Anthropic 的开发者工具生态和 API 基础设施能力。原文链接

4. 【xAI】Grok Build CLI Beta 上线，对标 Codex

xAI 发布 Grok Build 早期 Beta 版，这是一款面向编码、应用构建和工作流自动化的 Agentic CLI 工具，目前仅向 SuperGrok Heavy 订阅用户开放。Grok 同步扩展至 OpenClaw 和 NousResearch Hermes Agent 等第三方平台。原文链接

5. 【Anthropic】与盖茨基金会达成 2 亿美元合作

Anthropic 与盖茨基金会合作，承诺提供 2 亿美元的资助、Claude 额度及技术支持，覆盖全球健康、生命科学、教育、农业和经济流动性等领域。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	变动幅度
devlo	#44 → #83	70.2 → 58.2	分数 -17.1%
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	分数 -14.7%
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76 ⬆️	52.2 → 60.4	分数 +15.7%
Warp	#11 → #36	75.6 → 71.0	分数 -6.1%
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	分数 -11.1%

Terminal Bench 2.0

模型	排名变动	分数变动	变动幅度
LemonHarness / Multiple	#10 → #4 ⬆️	79.9 → 84.5	分数 +5.8%
Warp / Multiple	#42 → #66	61.2 → 50.1	分数 -18.1%

亮点：EntroPO + R2E + Qwen3-Coder-30B 在 SWE-bench Verified 上跃升 27 位，分数提升 15.7%，开源编码模型表现抢眼。devlo 和 Warp 在两个 Benchmark 上均出现大幅下滑。

快速预览

OpenAI 模型证明离散几何猜想：80 年历史的单位距离问题被 OpenAI 模型推翻，AI 驱动数学研究里程碑
Google I/O 2026 召开：发布 Gemini 3.5、AI Search 新时代、Workspace 更新等 100+ 项公告
Anthropic 收购 Stainless：SDK 与 MCP 服务器平台正式并入 Anthropic，并向盖茨基金会投入 2 亿美元合作
xAI 发布 Grok Build：面向 SuperGrok Heavy 用户的 agentic CLI 编码工具早期测试版上线
LMArena 榜首：claude-opus-4-6-thinking 以 1501.5 分领跑；SWE-bench Pro Public 第一为 gpt-5.4 (xHigh) 59.1 分

一、新闻动态

OpenAI

日期	标题	摘要
05-20	模型推翻离散几何猜想	OpenAI 模型解决 80 年历史的单位距离问题，推翻离散几何核心猜想
05-20	Ramp 工程师用 Codex 加速代码审查	Ramp 使用 Codex + GPT-5.5 将代码审查从数小时缩短至数分钟
05-20	Education for Countries 新阶段	扩大 AI 在全球学校的应用，新增合作伙伴与教师培训
05-19	OpenAI for Singapore	多年期 AI 合作伙伴关系，扩展本地人才培养与企业部署
05-19	内容溯源透明化	推出 Content Credentials、SynthID 及验证工具
05-18	与 Dell 合作 Codex 企业混合部署	Codex 进入混合云与本地部署环境
05-16	马耳他全国 ChatGPT Plus 合作	为全体公民提供 ChatGPT Plus 与 AI 培训
05-15	ChatGPT 个人理财体验	美国 Pro 用户可连接金融账户获取 AI 理财洞察
05-15	Databricks 集成 GPT-5.5	GPT-5.5 在 OfficeQA Pro 基准上刷新 SOTA，已用于企业 agent 工作流
05-14	Codex 移动端支持	通过 ChatGPT 移动 App 远程操控 Codex 任务
05-14	ChatGPT 敏感对话上下文识别	新安全更新提升敏感对话中的风险检测能力
05-13	Codex Windows 沙箱	为 Windows 构建安全沙箱，控制文件与网络访问
05-13	TanStack 供应链攻击响应	macOS 用户需在 2026-06-12 前更新 OpenAI 应用
05-12	NVIDIA 工程师使用 Codex	NVIDIA 使用 Codex + GPT-5.5 将研究想法转化为可运行实验
05-12	AutoScout24 AI 工作流	AutoScout24 用 Codex 和 ChatGPT 加速开发周期
05-11	ChatGPT Q1 2026 采用趋势	35 岁以上用户增长最快，性别使用更加平衡
05-11	DeployCo 企业部署公司	新公司帮助组织将前沿 AI 投入生产

OpenAI Codex Changelog

日期	版本	要点
05-20	0.132.0	Python SDK 支持一流认证（API key、ChatGPT 浏览器/device-code 流程等）
05-18	0.131.0	TUI 增强：服务层命令、混合 token 用量、权限模式显示等
05-14	移动端支持	ChatGPT 移动 App 可连接 Mac 上的 Codex
05-11	Auto-review 文档	新增 Auto-review 专用页面
05-08	App 26.506	应用内 hooks 信任审查流程

Anthropic / Claude Code

日期	标题	摘要
05-19	Claude Code v2.1.145	`claude agents --json` 输出活会话列表，便于脚本集成
05-19	v2.1.144	`/resume` 支持后台会话（`claude --bg` 启动的会话）
05-19	扩大 AI 对话范围	与学者、哲学家、神职人员就 AI 伦理问题展开对话
05-18	收购 Stainless	收购 SDK 与 MCP 服务器平台 Stainless
05-15	v2.1.143	插件依赖强制检查：禁用有依赖关系的插件时拒绝执行
05-14	v2.1.142	`claude agents` 新增 `--add-dir`、`--settings`、`--model` 等配置标志
05-14	AI 竞争力论文	发布美中 AI 竞争分析论文
05-14	盖茨基金会合作	投入 2 亿美元用于全球健康、生命科学、教育等方向
05-13	v2.1.141	hook JSON 输出新增 `terminalSequence` 字段支持桌面通知
05-11	Claude 宪法有声书	Amanda Askell 和 Joe Carlsmith 朗读 Claude's Constitution
05-07	Petri 开源工具捐赠	将对齐测试工具 Petri 捐赠给 Meridian Labs 并发布重大更新
05-07	Bug Bounty 公开	HackerOne 安全漏洞赏金计划转为公开

Google

日期	标题	摘要
05-20	I/O 2026 全部公告汇总	100+ 项公告
05-20	Missouri 社区投资	下一代劳动力建设与能源项目投资
05-20	Google Beam 小组会议实验	新实验改善小组视频会议体验
05-19	Gemini 3.5 发布	前沿智能与行动能力结合的新一代模型
05-19	I/O 2026: Agentic Gemini 时代	Sundar Pichai 主题演讲，进入 agentic Gemini 时代
05-19	AI Search 新时代	搜索引擎与 AI 能力的融合
05-19	AI Mode 使用洞察	美国用户 AI Mode 使用方式分析
05-19	Google Workspace 更新	新的创建与协作 AI 功能
05-19	Google AI 订阅更新	更多功能，相同价格
05-11	AI 驱动 Google Finance 欧洲扩展	AI 金融分析扩展至欧洲

xAI

日期	标题	摘要
05-19	Grok × OpenClaw 集成	Grok/X Premium 订阅可用于 OpenClaw
05-15	Grok × Hermes Agent	Grok 订阅接入 NousResearch Hermes Agent
05-14	Grok Build CLI Beta	面向 SuperGrok Heavy 用户的编码/agentic CLI 工具
05-08	Grok 连接器扩展	支持邮件、日历、Notion 等连接器
05-07	图片生成 Quality Mode API	更高真实感、文字渲染和创意控制，已生成 3 亿+ 张图片

二、Benchmark 快照与变化

1. LMArena（Overall）

本期无变动（数据截至 2026-05-14）

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1501.5
2	claude-opus-4-7-thinking	1500.4
3	claude-opus-4-6	1497.7

来源：LMArena Leaderboard

2. SWE-bench Verified

有变化，以下为显著变动：

模型	变动类型	旧排名 → 新排名	旧分 → 新分
EntroPO + R2E + Qwen3-Coder-30B	排名上升 ⬆	103 → 76	52.2 → 60.4
Warp	排名下降 ⬇	11 → 36	75.6 → 71.0
devlo	排名下降 ⬇	44 → 83/94	70.2 → 58.2/54.2
Nemotron-CORTEXA	排名下降 ⬇	50 → 82	68.2 → 58.2
EPAM AI/Run + GPT4o	排名下降 ⬇	156 → 162	27.0 → 24.0

当前 Top 3（数据截至 2025-12-15）：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

来源：SWE-bench Verified

3. SWE-bench Pro Public

本期无变动（数据截至 2026-05-21）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

来源：Scale AI Leaderboard

4. Terminal-Bench 2.0

有变化，显著变动：

模型	变动类型	旧排名 → 新排名	旧分 → 新分
LemonHarness / Multiple	排名上升 ⬆	10 → 4	79.9 → 84.5
little-coder / Qwen3.6-35B-A3B	排名上升 ⬆	122 → 117	23.0 → 24.6
Warp / Multiple	排名下降 ⬇	42 → 48/66	61.2 → 59.1/50.1

当前 Top 3（数据截至 2026-05-15）：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

来源：Terminal-Bench Leaderboard

三、来源状态

所有新闻来源采集正常，无失败记录。
LMArena 数据截至 05-14；SWE-bench Verified 快照多为 2025 年提交，近期有多项排名/分数变动；SWE-bench Pro Public 已更新至 05-21；Terminal-Bench 2.0 更新至 05-15。

来源 · 67 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×7 blog.google ×12 @xai ×6