AI 日报 2026-05-26 08:42

2026-05-26 08:42 CST

核心速览

1. 【OpenAI】AI 模型推翻 80 年离散几何猜想

OpenAI 模型解决了 80 年前提出的"单位距离问题",推翻了离散几何领域一个核心猜想。这是 AI 驱动数学研究的重大里程碑,标志着大模型在纯数学证明领域的突破性进展。 原文链接

2. 【Google DeepMind】AlphaProof Nexus 自主解决 9 个开放 Erdős 问题

Google DeepMind 发布 AlphaProof Nexus——基于 Gemini 的形式化证明搜索框架。该智能体自主解决了 9 个 Erdős 开放问题(其中两个已开放 56 年)、44 个 OEIS 问题、1 个 15 年代数几何问题和 1 个 7 年极小极大优化问题。 原文链接

3. 【Google】I/O 2026 发布 Gemini 3.5 及 100+ 项更新

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,定位为"前沿智能与行动力"。同时宣布 AI Search 新时代、Google Workspace AI 功能升级、Beam 群组会议等 100+ 项更新,全面进入 Agent 时代。 原文链接

4. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless——自 Anthropic API 诞生以来一直为其提供 SDK 和 MCP 服务器支持的平台。此举将强化 Anthropic 的开发者工具链和 API 生态建设。 原文链接

5. 【xAI】Grok Build 公测上线,开放至所有 SuperGrok 用户

Grok Build 正式以 Beta 版面向所有 SuperGrok 和 X Premium+ 用户开放。支持 Plan Mode、Imagine 图像/视频生成、CLI 自动化工作流构建,定位为 xAI 的 Agentic 编码入口。 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
devlo #44 → #83/#94 70.2 → 54.2~58.2 下降 39~50 位,分数跌幅 17-23%,疑为评测修正或提交问题
Warp #11 → #36 75.6 → 71.0 下降 25 位,跌幅 6.1%,跌出 Top 10
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 下降 32 位,跌幅 14.7%
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 上升 27 位,涨幅 15.7%,Qwen3-Coder 方案表现提升
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 下降 6 位,跌幅 11.1%

Terminal-Bench 2.0

模型 排名变动 分数变动 说明
LemonHarness #10 → #4 79.9 → 84.5 上升 6 位进入 Top 5,涨幅 5.8%
Warp #42 → #48~#66 61.2 → 50.1~59.1 下降 6~24 位,跌幅最高 18.1%

快速预览

  • OpenAI 模型证明离散几何猜想:80年单位距离问题被 AI 模型解决,标志 AI 数学里程碑
  • Google I/O 2026 发布 Gemini 3.5:定位"前沿智能+行动能力"的 agentic Gemini 时代
  • Gartner 2026 魔力象限:OpenAI 被评为企业 AI 编程 Agent 领导者
  • SWE-bench Verified 变动明显:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
  • LMArena 排行榜:Claude Opus 4.6 Thinking 以 1501.98 分稳居第一

一、新闻动态

OpenAI(按日期倒序)

日期 标题 要点
05-25 Grupo Folha & Grupo UOL 内容合作 ChatGPT 引入巴西权威新闻内容,带出处与透明度
05-22 Virgin Atlantic 用 Codex 加速交付 用 Codex 完成移动 App 改版,接近 100% 单元测试覆盖,零 P1 缺陷
05-22 Gartner 魔力象限:OpenAI 为企业编程 Agent 领导者 Codex 获评创新与企业部署领先
05-21 AdventHealth 医疗 AI 应用 用 ChatGPT for Healthcare 简化流程、减轻行政负担
05-21 Codex 更新:Appshots & Goal Mode macOS 双击 Command 键将 App 窗口截图发给 Codex
05-20 AI 模型证明离散几何猜想 解决 80 年单位距离问题,AI 数学里程碑
05-20 Ramp 用 Codex 加速 Code Review 用 GPT-5.5 + Codex 实现分钟级代码审查
05-20 Education for Countries 新阶段 扩大 AI 教育合作、教师培训
05-19 OpenAI for Singapore 多年期 AI 合作伙伴关系
05-19 内容溯源:Content Credentials & SynthID 推进 AI 生成媒体识别工具
05-18 OpenAI + Dell:Codex 混合/本地部署 企业可安全部署 AI 编程 Agent
05-18 Databricks 集成 GPT-5.5 GPT-5.5 在 OfficeQA Pro 基准上刷新 SOTA
05-16 Malta 全民 ChatGPT Plus 为公民提供 AI 技能培训
05-15 ChatGPT 个人理财功能预览 美国 Pro 用户可安全连接金融账户获取 AI 理财建议
05-14 Sea Limited 部署 Codex 亚洲科技公司在工程团队中推广 Codex
05-14 Codex 移动端上线 ChatGPT 移动 App 可远程操控 Codex
05-14 ChatGPT 敏感对话安全更新 增强上下文感知能力
05-13 Codex Windows 沙箱 受控文件访问与网络限制
05-13 TanStack npm 供应链攻击响应 macOS 用户须在 6/12 前更新 OpenAI 应用

Anthropic(按日期倒序)

日期 来源 要点
05-25 X 联合创始人 Chris Olah 受邀在教宗良十四世通谕"Magnifica humanitas"发布会演讲
05-23 Claude Code v2.1.150 内部基础设施改进,无用户可见变更
05-22 Claude Code v2.1.149 /usage 命令新增按类别用量明细(skills/subagents/plugins/MCP)
05-22 Claude Code v2.1.148 修复 2.1.147 引入的 Bash exit code 127 回归
05-21 Claude Code v2.1.147 Pin 后台会话可空闲保活、更新自动重启
05-21 Claude Code v2.1.146 /simplify 更名为 /code-review,支持 effort level
05-19 X 与学者、哲学家等就前沿 AI 伦理问题展开对话
05-18 X 收购 Stainless(SDK 与 MCP Server 平台)
05-14 X 发布中美 AI 竞争立场论文
05-14 X 与盖茨基金会合作,承诺 2 亿美元用于全球健康、生命科学、教育等

Google(按日期倒序)

日期 要点
05-22 I/O 2026 Dialogues 回顾 — Sundar Pichai 对话
05-20 密苏里州社区投资
05-20 I/O 2026 100 项公告汇总
05-20 Google Beam 小组会议实验
05-19 Gemini 3.5 发布 — "前沿智能 + 行动能力"
05-19 I/O 2026: Agentic Gemini 时代
05-19 AI Search 新时代
05-19 AI Mode 在美国搜索中的应用
05-19 Google Workspace AI 更新
05-19 Google AI 订阅服务更新

xAI(按日期倒序)

日期 要点
05-25 Grok Build Beta 开放给所有 SuperGrok 和 X Premium+ 用户(Plan Mode / Imagine / CLI)
05-21 Grok 订阅可在 OpenCode 中使用
05-19 Grok 订阅可在 OpenClaw 中使用
05-15 Grok 订阅集成 NousResearch Hermes Agent
05-14 Grok Build 早期 Beta 面向 SuperGrok Heavy 用户开放

DeepSeek

日期 要点
05-22 DeepSeek-V4-Pro 折扣永久化,优惠延长至 5/31 UTC 15:59

行业人物动态

日期 人物 要点
05-25 Google DeepMind (Demis Hassabis 转推) AlphaProof Nexus:Gemini 驱动的数学证明 Agent,解决 9 个 Erdős 问题(含 2 个开放 56 年的问题)、44 个 OEIS 问题
05-25 OpenAI Greg Brockman GPT-5.5 Pro 事实核查能力获好评;Codex 开源价值被低估
05-24 Anthropic Boris Cherny Claude Code auto mode 现已面向 Pro 用户开放,支持 Sonnet 4.6 与 Opus 4.7
05-23 Google Logan Kilpatrick Gemini 3.5 Flash 在 Vending Bench 成本效益 Pareto 前沿;视觉能力超越 3.1 Pro 且快约 6x

二、Benchmark 快照与变化

LMArena(Overall)— 本期无变动

数据截至 2026-05-19 | 数据源

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1501.98
2 claude-opus-4-7-thinking 1500.25
3 claude-opus-4-6 1498.06
4 claude-opus-4-7 1492.39
5 muse-spark 1489.49

SWE-bench Verified — 有变化

数据截至 2025-12-15 | 数据源

当前 Top 3:

排名 Agent + 模型 分数
1 live-SWE-agent + Claude 4.5 Opus 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变动:

模型 排名变化 分数变化 备注
devlo #44 → #83 / #94 70.2 → 58.2 / 54.2 显著下滑,存在两个提交版本
Warp #11 → #36 75.6 → 71.0 大幅下跌
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 大幅下跌
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 上升
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 小幅下滑
Solver (2024-09-12) #120 → #126 45.4 → 43.6 小幅下滑

SWE-bench Pro Public — 本期无变动

数据截至 2026-05-26 | 数据源

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

Terminal-Bench 2.0 — 有变化

数据截至 2026-05-15 | 数据源

当前 Top 3:

排名 Agent + 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期变动:

模型 排名变化 分数变化 备注
LemonHarness / Multiple #10 → #4 79.9 → 84.5 大幅上升,进入 Top 5
Warp / Multiple #42 → #48 / #66 61.2 → 59.1 / 50.1 下跌,存在多个提交版本
little-coder / Qwen3.6-35B-A3B #122 → #117 23.0 → 24.6 小幅上升

三、需要关注

  • TanStack 供应链攻击:OpenAI 已发布响应措施,macOS 用户须在 2026 年 6 月 12 日前更新 OpenAI 应用
  • Codex 限额问题已修复:因缓存命中率优化导致限额异常消耗,已回滚并重置所有账户用量
  • Antigravity 2.0 IDE 争议:Google 已澄清 IDE 功能仍在,UI 已更新并重置周限额
  • 所有采集源均正常,无采集失败

Sources