AI 日报 2026-05-26 08:42

核心速览

1. 【OpenAI】AI 模型推翻 80 年离散几何猜想

OpenAI 模型解决了 80 年前提出的"单位距离问题"，推翻了离散几何领域一个核心猜想。这是 AI 驱动数学研究的重大里程碑，标志着大模型在纯数学证明领域的突破性进展。原文链接

2. 【Google DeepMind】AlphaProof Nexus 自主解决 9 个开放 Erdős 问题

Google DeepMind 发布 AlphaProof Nexus——基于 Gemini 的形式化证明搜索框架。该智能体自主解决了 9 个 Erdős 开放问题（其中两个已开放 56 年）、44 个 OEIS 问题、1 个 15 年代数几何问题和 1 个 7 年极小极大优化问题。原文链接

3. 【Google】I/O 2026 发布 Gemini 3.5 及 100+ 项更新

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型，定位为"前沿智能与行动力"。同时宣布 AI Search 新时代、Google Workspace AI 功能升级、Beam 群组会议等 100+ 项更新，全面进入 Agent 时代。原文链接

4. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless——自 Anthropic API 诞生以来一直为其提供 SDK 和 MCP 服务器支持的平台。此举将强化 Anthropic 的开发者工具链和 API 生态建设。原文链接

5. 【xAI】Grok Build 公测上线，开放至所有 SuperGrok 用户

Grok Build 正式以 Beta 版面向所有 SuperGrok 和 X Premium+ 用户开放。支持 Plan Mode、Imagine 图像/视频生成、CLI 自动化工作流构建，定位为 xAI 的 Agentic 编码入口。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
devlo	#44 → #83/#94	70.2 → 54.2~58.2	下降 39~50 位，分数跌幅 17-23%，疑为评测修正或提交问题
Warp	#11 → #36	75.6 → 71.0	下降 25 位，跌幅 6.1%，跌出 Top 10
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	下降 32 位，跌幅 14.7%
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	上升 27 位，涨幅 15.7%，Qwen3-Coder 方案表现提升
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	下降 6 位，跌幅 11.1%

Terminal-Bench 2.0

模型	排名变动	分数变动	说明
LemonHarness	#10 → #4	79.9 → 84.5	上升 6 位进入 Top 5，涨幅 5.8%
Warp	#42 → #48~#66	61.2 → 50.1~59.1	下降 6~24 位，跌幅最高 18.1%

快速预览

OpenAI 模型证明离散几何猜想：80年单位距离问题被 AI 模型解决，标志 AI 数学里程碑
Google I/O 2026 发布 Gemini 3.5：定位"前沿智能+行动能力"的 agentic Gemini 时代
Gartner 2026 魔力象限：OpenAI 被评为企业 AI 编程 Agent 领导者
SWE-bench Verified 变动明显：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94
LMArena 排行榜：Claude Opus 4.6 Thinking 以 1501.98 分稳居第一

一、新闻动态

OpenAI（按日期倒序）

日期	标题	要点
05-25	Grupo Folha & Grupo UOL 内容合作	ChatGPT 引入巴西权威新闻内容，带出处与透明度
05-22	Virgin Atlantic 用 Codex 加速交付	用 Codex 完成移动 App 改版，接近 100% 单元测试覆盖，零 P1 缺陷
05-22	Gartner 魔力象限：OpenAI 为企业编程 Agent 领导者	Codex 获评创新与企业部署领先
05-21	AdventHealth 医疗 AI 应用	用 ChatGPT for Healthcare 简化流程、减轻行政负担
05-21	Codex 更新：Appshots & Goal Mode	macOS 双击 Command 键将 App 窗口截图发给 Codex
05-20	AI 模型证明离散几何猜想	解决 80 年单位距离问题，AI 数学里程碑
05-20	Ramp 用 Codex 加速 Code Review	用 GPT-5.5 + Codex 实现分钟级代码审查
05-20	Education for Countries 新阶段	扩大 AI 教育合作、教师培训
05-19	OpenAI for Singapore	多年期 AI 合作伙伴关系
05-19	内容溯源：Content Credentials & SynthID	推进 AI 生成媒体识别工具
05-18	OpenAI + Dell：Codex 混合/本地部署	企业可安全部署 AI 编程 Agent
05-18	Databricks 集成 GPT-5.5	GPT-5.5 在 OfficeQA Pro 基准上刷新 SOTA
05-16	Malta 全民 ChatGPT Plus	为公民提供 AI 技能培训
05-15	ChatGPT 个人理财功能预览	美国 Pro 用户可安全连接金融账户获取 AI 理财建议
05-14	Sea Limited 部署 Codex	亚洲科技公司在工程团队中推广 Codex
05-14	Codex 移动端上线	ChatGPT 移动 App 可远程操控 Codex
05-14	ChatGPT 敏感对话安全更新	增强上下文感知能力
05-13	Codex Windows 沙箱	受控文件访问与网络限制
05-13	TanStack npm 供应链攻击响应	macOS 用户须在 6/12 前更新 OpenAI 应用

Anthropic（按日期倒序）

日期	来源	要点
05-25	X	联合创始人 Chris Olah 受邀在教宗良十四世通谕"Magnifica humanitas"发布会演讲
05-23	Claude Code v2.1.150	内部基础设施改进，无用户可见变更
05-22	Claude Code v2.1.149	`/usage` 命令新增按类别用量明细（skills/subagents/plugins/MCP）
05-22	Claude Code v2.1.148	修复 2.1.147 引入的 Bash exit code 127 回归
05-21	Claude Code v2.1.147	Pin 后台会话可空闲保活、更新自动重启
05-21	Claude Code v2.1.146	`/simplify` 更名为 `/code-review`，支持 effort level
05-19	X	与学者、哲学家等就前沿 AI 伦理问题展开对话
05-18	X	收购 Stainless（SDK 与 MCP Server 平台）
05-14	X	发布中美 AI 竞争立场论文
05-14	X	与盖茨基金会合作，承诺 2 亿美元用于全球健康、生命科学、教育等

Google（按日期倒序）

日期	要点
05-22	I/O 2026 Dialogues 回顾 — Sundar Pichai 对话
05-20	密苏里州社区投资
05-20	I/O 2026 100 项公告汇总
05-20	Google Beam 小组会议实验
05-19	Gemini 3.5 发布 — "前沿智能 + 行动能力"
05-19	I/O 2026: Agentic Gemini 时代
05-19	AI Search 新时代
05-19	AI Mode 在美国搜索中的应用
05-19	Google Workspace AI 更新
05-19	Google AI 订阅服务更新

xAI（按日期倒序）

日期	要点
05-25	Grok Build Beta 开放给所有 SuperGrok 和 X Premium+ 用户（Plan Mode / Imagine / CLI）
05-21	Grok 订阅可在 OpenCode 中使用
05-19	Grok 订阅可在 OpenClaw 中使用
05-15	Grok 订阅集成 NousResearch Hermes Agent
05-14	Grok Build 早期 Beta 面向 SuperGrok Heavy 用户开放

DeepSeek

日期	要点
05-22	DeepSeek-V4-Pro 折扣永久化，优惠延长至 5/31 UTC 15:59

行业人物动态

日期	人物	要点
05-25	Google DeepMind (Demis Hassabis 转推)	AlphaProof Nexus：Gemini 驱动的数学证明 Agent，解决 9 个 Erdős 问题（含 2 个开放 56 年的问题）、44 个 OEIS 问题
05-25	OpenAI Greg Brockman	GPT-5.5 Pro 事实核查能力获好评；Codex 开源价值被低估
05-24	Anthropic Boris Cherny	Claude Code auto mode 现已面向 Pro 用户开放，支持 Sonnet 4.6 与 Opus 4.7
05-23	Google Logan Kilpatrick	Gemini 3.5 Flash 在 Vending Bench 成本效益 Pareto 前沿；视觉能力超越 3.1 Pro 且快约 6x

二、Benchmark 快照与变化

LMArena（Overall）— 本期无变动

数据截至 2026-05-19 | 数据源

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1501.98
2	claude-opus-4-7-thinking	1500.25
3	claude-opus-4-6	1498.06
4	claude-opus-4-7	1492.39
5	muse-spark	1489.49

SWE-bench Verified — 有变化

数据截至 2025-12-15 | 数据源

当前 Top 3：

排名	Agent + 模型	分数
1	live-SWE-agent + Claude 4.5 Opus	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变动：

模型	排名变化	分数变化	备注
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2	显著下滑，存在两个提交版本
Warp	#11 → #36	75.6 → 71.0	大幅下跌
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	大幅下跌
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	上升
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	小幅下滑
Solver (2024-09-12)	#120 → #126	45.4 → 43.6	小幅下滑

SWE-bench Pro Public — 本期无变动

数据截至 2026-05-26 | 数据源

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

Terminal-Bench 2.0 — 有变化

数据截至 2026-05-15 | 数据源

当前 Top 3：

排名	Agent + 模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期变动：

模型	排名变化	分数变化	备注
LemonHarness / Multiple	#10 → #4	79.9 → 84.5	大幅上升，进入 Top 5
Warp / Multiple	#42 → #48 / #66	61.2 → 59.1 / 50.1	下跌，存在多个提交版本
little-coder / Qwen3.6-35B-A3B	#122 → #117	23.0 → 24.6	小幅上升

三、需要关注

TanStack 供应链攻击：OpenAI 已发布响应措施，macOS 用户须在 2026 年 6 月 12 日前更新 OpenAI 应用
Codex 限额问题已修复：因缓存命中率优化导致限额异常消耗，已回滚并重置所有账户用量
Antigravity 2.0 IDE 争议：Google 已澄清 IDE 功能仍在，UI 已更新并重置周限额
所有采集源均正常，无采集失败

来源 · 73 条

openai.com ×22 developers.openai.com ×2 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×11 @xai ×6 @deepseek_ai @thsottiaux ×3 @nickaturley ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3