AI 日报 2026-05-27 08:36

核心速览

【OpenAI】模型证明离散几何核心猜想被推翻 OpenAI 模型解决了 80 年历史的单位距离问题，推翻了离散几何领域的一个重大猜想，标志着 AI 在数学研究领域的里程碑式突破。这是 AI 驱动数学发现的重要进展。原文链接

【Google】Gemini 3.5 发布，开启"Agentic Gemini"时代 Google I/O 2026 发布 Gemini 3.5，定位为"前沿智能与行动能力结合"。Gemini 3.5 Flash 在多个视觉任务上超越 3.1 Pro，速度快约 6 倍，在 Vending Bench 成本效益指标上处于 Pareto 前沿。原文链接

【Google DeepMind】AlphaProof Nexus 解决 9 个开放 Erdős 问题 Google DeepMind 发布 AlphaProof Nexus，基于 Gemini 的形式化证明搜索框架，自主解决了 9 个开放的 Erdős 问题（其中 2 个开放 56 年）、44 个 OEIS 问题，以及代数几何和博弈论中的长期开放问题。原文链接

【Anthropic】收购 SDK 平台 Stainless，深化基础设施布局 Anthropic 宣布收购 Stainless，该平台自 Anthropic API 早期即为所有 SDK 提供支持，并运营 MCP 服务器平台。此次收购将加强 Anthropic 开发者工具链和 API 基础设施能力。原文链接

【xAI】Grok Build 公测上线，进入 Agentic Coding 赛道 xAI 发布 Grok Build Beta，面向 SuperGrok 和 X Premium+ 用户开放，支持 Plan Mode、Imagine 图片/视频生成及 CLI 自动化构建。该工具已集成至 OpenCode 和 OpenClaw 等第三方平台。原文链接

重大 Benchmark 变化

SWE-bench Verified：

模型	排名变动	分数变动	备注
devlo	44→94	70.2→54.2	排名下降50位，分数暴跌16分
Nemotron-CORTEXA	50→82	68.2→58.2	排名下降32位，分数跌14.7%
Warp	11→36	75.6→71.0	排名下降25位
EntroPO + R2E + Qwen3-Coder-30B	103→76	52.2→60.4	排名上升27位，分数提升15.7%

Terminal Bench 2.0：

模型	排名变动	分数变动	备注
LemonHarness / Multiple	10→4	79.9→84.5	冲入前4，分数提升5.8%
Warp / Multiple	42→66	61.2→50.1	排名下降24位，分数跌幅显著

快速预览

OpenAI 模型证明离散几何猜想：80年历史的单位距离问题被 AI 模型解决，数学里程碑 (来源)
Google I/O 2026 发布 Gemini 3.5：前沿智能与行动能力结合，标志 agentic Gemini 时代开启 (来源)
LM Arena 总榜 Top 3：Claude Opus 4.6 Thinking (1501.98) > Claude Opus 4.7 Thinking (1500.25) > Claude Opus 4.6 (1498.06)
SWE-bench Verified Top 3 无变动：live-SWE-agent + Claude 4.5 Opus (79.2) 并列第一；Warp 排名暴跌 11→36
Anthropic 收购 Stainless，Grok Build Beta 向全量用户开放，DeepSeek-V4-Pro 优惠转永久

一、新闻（按厂商倒序）

OpenAI

日期	标题	要点
05-25	与 Grupo Folha/UOL 内容合作	ChatGPT 接入巴西可信新闻源，带归属和透明度
05-22	Virgin Atlantic 用 Codex 加速交付	近 100% 单测覆盖、零 P1 缺陷
05-22	Gartner 评为企业编码 Agent 领导者	Codex 获 Gartner 2026 Magic Quadrant 认可
05-21	AdventHealth 医疗场景落地	ChatGPT for Healthcare 精简行政流程
05-20	AI 模型推翻离散几何猜想	解决 80 年单位距离问题，AI 数学重大突破
05-20	Ramp 用 Codex 加速 Code Review	GPT-5.5 驱动，分钟级反馈替代数小时
05-20	Education for Countries 新阶段	AI 教育全球扩展
05-19	OpenAI for Singapore	多年 AI 伙伴关系，本地人才培养
05-19	内容溯源技术升级	Content Credentials + SynthID 验证工具
05-18	与 Dell 合作 Codex 混合部署	企业本地/混合环境部署 AI 编码 Agent
05-16	Malta 全民 ChatGPT Plus	全国公民获 ChatGPT Plus 和培训
05-15	ChatGPT 个人理财功能预览	Pro 用户（美国）可连接金融账户获取 AI 理财建议
05-15	Databricks 集成 GPT-5.5	GPT-5.5 在 OfficeQA Pro 刷新 SOTA
05-14	Sea Limited 全面部署 Codex	CPO 解释亚洲 AI 原生开发战略
05-14	Codex 移动端上线	ChatGPT 移动 App 监控和审批编码任务
05-14	敏感对话安全改进	提升上下文感知能力
05-13	Codex Windows 沙箱	受控文件访问和网络限制

Codex Changelog：

日期	版本	要点
05-26	CLI 0.134.0	本地会话历史搜索
05-21	App 26.519	Appshots（⌘+⌘ 发送当前窗口截图）、Goal Mode
05-21	CLI 0.133.0	Goals 默认启用
05-20	CLI 0.132.0	Python SDK 一等认证支持
05-18	CLI 0.131.0	TUI 丰富会话控制、混合 token 用量显示

Anthropic

日期	来源	要点
05-26	工程博客：Agent 沙箱安全	权限应随 Agent 能力演进
05-25	Chris Olah 出席教宗通谕发布	AI 内省与情感状态研究引发哲学讨论
05-19	前沿 AI 伦理对话	与学者、神职人员探讨 AI 伦理
05-18	收购 Stainless	SDK 和 MCP 服务器平台纳入 Anthropic
05-14	美中 AI 竞争白皮书	美国及盟国当前领先，需持续投入
05-14	与盖茨基金会合作	2 亿美元拨款+Claude 额度支持健康/教育/农业

Claude Code Releases：

日期	版本	要点
05-23	v2.1.150	内部基础设施改进
05-22	v2.1.149	`/usage` 分类用量明细
05-22	v2.1.148	修复 Bash 工具 exit code 127 回退
05-21	v2.1.147	后台会话 Pin 支持、内存压力下优先级
05-21	v2.1.146	`/simplify` 更名为 `/code-review`，支持 effort level

社区动态： Boris Cherny 推荐 auto mode 作为 Claude Code 最佳实践，支持 Sonnet 4.6 + Opus 4.7 并行多会话。

Google

日期	标题	要点
05-22	I/O 2026 Dialogues 回顾	Sundar Pichai 对话
05-20	密苏里州社区投资	下一代劳动力和能源项目
05-20	I/O 2026 百项公告汇总	全面回顾
05-19	Gemini 3.5 发布	前沿智能 + 行动能力
05-19	AI Search 新时代	搜索引擎 + AI 最佳结合
05-19	AI Mode 使用洞察	美国用户 AI 搜索行为数据
05-19	Workspace 更新	AI 驱动创建和协作新方式
05-19	Google AI 订阅更新	更多功能，同价

社区： Logan Kilpatrick 称 Gemini 3.5 Flash 在 Vending Bench 成本效率帕累托前沿；视觉任务性能超 3.1 Pro 且快 ~6x。DeepMind AlphaProof Nexus 自主解决 9 个 Erdős 开放问题。

xAI

日期	要点
05-26	Grok Build Beta 用量重置 — 改进缓存后全员重置
05-25	Grok Build Beta 全量开放 — SuperGrok/Premium+ 用户可用
05-21	Grok 接入 OpenCode — 可在 OpenCode 中使用 Grok 订阅
05-19	Grok 接入 OpenClaw
05-15	Grok 接入 NousResearch Hermes Agent
05-14	Grok Build 早期 Beta — agentic CLI for coding/automation

DeepSeek

日期	要点
05-22	DeepSeek-V4-Pro 折扣转永久

二、Benchmark 快照与变化

LM Arena (Overall) — 本期无变动

排名	模型	分数
1	claude-opus-4-6-thinking	1501.98
2	claude-opus-4-7-thinking	1500.25
3	claude-opus-4-6	1498.06
4	claude-opus-4-7	1492.39
5	muse-spark	1489.49

Top 4 全部为 Anthropic Claude Opus 系列。来源：LM Arena Leaderboard

SWE-bench Verified — 有变化

当前 Top 3（无变动）：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

显著变化：

模型	排名变化	分数变化	备注
Warp	11 → 36	75.6 → 71.0	大幅下跌
devlo	44 → 83/94	70.2 → 58.2/54.2	多次降分
Nemotron-CORTEXA	50 → 82	68.2 → 58.2	NVIDIA 相关模型回落
EntroPO + R2E + Qwen3-Coder-30B	103 → 76	52.2 → 60.4	上升
Solver (2024-09-12)	120 → 126	45.4 → 43.6	小幅下降
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0	小幅下降

来源：SWE-bench Verified

SWE-bench Pro Public — 本期无变动

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

来源：Scale AI Leaderboard

Terminal Bench 2.0 — 有变化

当前 Top 3（无变动）：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

显著变化：

模型	排名变化	分数变化	备注
LemonHarness / Multiple	10 → 4	79.9 → 84.5	大幅上升
Warp / Multiple	42 → 48/66	61.2 → 59.1/50.1	下降
little-coder / Qwen3.6-35B-A3B	122 → 117	23.0 → 24.6	小幅上升

来源：Terminal Bench

三、来源状态

所有采集源均正常，无失败记录。

来源 · 76 条

openai.com ×20 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×6 blog.google ×11 @xai ×7 @deepseek_ai @thsottiaux ×3 @nickaturley ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3