AI 日报 2026-05-26 08:42
2026-05-26 08:42 CST
核心速览
1. 【OpenAI】AI 模型推翻 80 年离散几何猜想
OpenAI 模型解决了 80 年前提出的"单位距离问题",推翻了离散几何领域一个核心猜想。这是 AI 驱动数学研究的重大里程碑,标志着大模型在纯数学证明领域的突破性进展。 原文链接
2. 【Google DeepMind】AlphaProof Nexus 自主解决 9 个开放 Erdős 问题
Google DeepMind 发布 AlphaProof Nexus——基于 Gemini 的形式化证明搜索框架。该智能体自主解决了 9 个 Erdős 开放问题(其中两个已开放 56 年)、44 个 OEIS 问题、1 个 15 年代数几何问题和 1 个 7 年极小极大优化问题。 原文链接
3. 【Google】I/O 2026 发布 Gemini 3.5 及 100+ 项更新
Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,定位为"前沿智能与行动力"。同时宣布 AI Search 新时代、Google Workspace AI 功能升级、Beam 群组会议等 100+ 项更新,全面进入 Agent 时代。 原文链接
4. 【Anthropic】收购 SDK 平台公司 Stainless
Anthropic 宣布收购 Stainless——自 Anthropic API 诞生以来一直为其提供 SDK 和 MCP 服务器支持的平台。此举将强化 Anthropic 的开发者工具链和 API 生态建设。 原文链接
5. 【xAI】Grok Build 公测上线,开放至所有 SuperGrok 用户
Grok Build 正式以 Beta 版面向所有 SuperGrok 和 X Premium+ 用户开放。支持 Plan Mode、Imagine 图像/视频生成、CLI 自动化工作流构建,定位为 xAI 的 Agentic 编码入口。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #83/#94 | 70.2 → 54.2~58.2 | 下降 39~50 位,分数跌幅 17-23%,疑为评测修正或提交问题 |
| Warp | #11 → #36 | 75.6 → 71.0 | 下降 25 位,跌幅 6.1%,跌出 Top 10 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 下降 32 位,跌幅 14.7% |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 上升 27 位,涨幅 15.7%,Qwen3-Coder 方案表现提升 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 | 下降 6 位,跌幅 11.1% |
Terminal-Bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness | #10 → #4 | 79.9 → 84.5 | 上升 6 位进入 Top 5,涨幅 5.8% |
| Warp | #42 → #48~#66 | 61.2 → 50.1~59.1 | 下降 6~24 位,跌幅最高 18.1% |
快速预览
- OpenAI 模型证明离散几何猜想:80年单位距离问题被 AI 模型解决,标志 AI 数学里程碑
- Google I/O 2026 发布 Gemini 3.5:定位"前沿智能+行动能力"的 agentic Gemini 时代
- Gartner 2026 魔力象限:OpenAI 被评为企业 AI 编程 Agent 领导者
- SWE-bench Verified 变动明显:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
- LMArena 排行榜:Claude Opus 4.6 Thinking 以 1501.98 分稳居第一
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-25 | Grupo Folha & Grupo UOL 内容合作 | ChatGPT 引入巴西权威新闻内容,带出处与透明度 |
| 05-22 | Virgin Atlantic 用 Codex 加速交付 | 用 Codex 完成移动 App 改版,接近 100% 单元测试覆盖,零 P1 缺陷 |
| 05-22 | Gartner 魔力象限:OpenAI 为企业编程 Agent 领导者 | Codex 获评创新与企业部署领先 |
| 05-21 | AdventHealth 医疗 AI 应用 | 用 ChatGPT for Healthcare 简化流程、减轻行政负担 |
| 05-21 | Codex 更新:Appshots & Goal Mode | macOS 双击 Command 键将 App 窗口截图发给 Codex |
| 05-20 | AI 模型证明离散几何猜想 | 解决 80 年单位距离问题,AI 数学里程碑 |
| 05-20 | Ramp 用 Codex 加速 Code Review | 用 GPT-5.5 + Codex 实现分钟级代码审查 |
| 05-20 | Education for Countries 新阶段 | 扩大 AI 教育合作、教师培训 |
| 05-19 | OpenAI for Singapore | 多年期 AI 合作伙伴关系 |
| 05-19 | 内容溯源:Content Credentials & SynthID | 推进 AI 生成媒体识别工具 |
| 05-18 | OpenAI + Dell:Codex 混合/本地部署 | 企业可安全部署 AI 编程 Agent |
| 05-18 | Databricks 集成 GPT-5.5 | GPT-5.5 在 OfficeQA Pro 基准上刷新 SOTA |
| 05-16 | Malta 全民 ChatGPT Plus | 为公民提供 AI 技能培训 |
| 05-15 | ChatGPT 个人理财功能预览 | 美国 Pro 用户可安全连接金融账户获取 AI 理财建议 |
| 05-14 | Sea Limited 部署 Codex | 亚洲科技公司在工程团队中推广 Codex |
| 05-14 | Codex 移动端上线 | ChatGPT 移动 App 可远程操控 Codex |
| 05-14 | ChatGPT 敏感对话安全更新 | 增强上下文感知能力 |
| 05-13 | Codex Windows 沙箱 | 受控文件访问与网络限制 |
| 05-13 | TanStack npm 供应链攻击响应 | macOS 用户须在 6/12 前更新 OpenAI 应用 |
Anthropic(按日期倒序)
| 日期 | 来源 | 要点 |
|---|---|---|
| 05-25 | X | 联合创始人 Chris Olah 受邀在教宗良十四世通谕"Magnifica humanitas"发布会演讲 |
| 05-23 | Claude Code v2.1.150 | 内部基础设施改进,无用户可见变更 |
| 05-22 | Claude Code v2.1.149 | /usage 命令新增按类别用量明细(skills/subagents/plugins/MCP) |
| 05-22 | Claude Code v2.1.148 | 修复 2.1.147 引入的 Bash exit code 127 回归 |
| 05-21 | Claude Code v2.1.147 | Pin 后台会话可空闲保活、更新自动重启 |
| 05-21 | Claude Code v2.1.146 | /simplify 更名为 /code-review,支持 effort level |
| 05-19 | X | 与学者、哲学家等就前沿 AI 伦理问题展开对话 |
| 05-18 | X | 收购 Stainless(SDK 与 MCP Server 平台) |
| 05-14 | X | 发布中美 AI 竞争立场论文 |
| 05-14 | X | 与盖茨基金会合作,承诺 2 亿美元用于全球健康、生命科学、教育等 |
Google(按日期倒序)
| 日期 | 要点 |
|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 — Sundar Pichai 对话 |
| 05-20 | 密苏里州社区投资 |
| 05-20 | I/O 2026 100 项公告汇总 |
| 05-20 | Google Beam 小组会议实验 |
| 05-19 | Gemini 3.5 发布 — "前沿智能 + 行动能力" |
| 05-19 | I/O 2026: Agentic Gemini 时代 |
| 05-19 | AI Search 新时代 |
| 05-19 | AI Mode 在美国搜索中的应用 |
| 05-19 | Google Workspace AI 更新 |
| 05-19 | Google AI 订阅服务更新 |
xAI(按日期倒序)
| 日期 | 要点 |
|---|---|
| 05-25 | Grok Build Beta 开放给所有 SuperGrok 和 X Premium+ 用户(Plan Mode / Imagine / CLI) |
| 05-21 | Grok 订阅可在 OpenCode 中使用 |
| 05-19 | Grok 订阅可在 OpenClaw 中使用 |
| 05-15 | Grok 订阅集成 NousResearch Hermes Agent |
| 05-14 | Grok Build 早期 Beta 面向 SuperGrok Heavy 用户开放 |
DeepSeek
| 日期 | 要点 |
|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣永久化,优惠延长至 5/31 UTC 15:59 |
行业人物动态
| 日期 | 人物 | 要点 |
|---|---|---|
| 05-25 | Google DeepMind (Demis Hassabis 转推) | AlphaProof Nexus:Gemini 驱动的数学证明 Agent,解决 9 个 Erdős 问题(含 2 个开放 56 年的问题)、44 个 OEIS 问题 |
| 05-25 | OpenAI Greg Brockman | GPT-5.5 Pro 事实核查能力获好评;Codex 开源价值被低估 |
| 05-24 | Anthropic Boris Cherny | Claude Code auto mode 现已面向 Pro 用户开放,支持 Sonnet 4.6 与 Opus 4.7 |
| 05-23 | Google Logan Kilpatrick | Gemini 3.5 Flash 在 Vending Bench 成本效益 Pareto 前沿;视觉能力超越 3.1 Pro 且快约 6x |
二、Benchmark 快照与变化
LMArena(Overall)— 本期无变动
数据截至 2026-05-19 | 数据源
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.98 |
| 2 | claude-opus-4-7-thinking | 1500.25 |
| 3 | claude-opus-4-6 | 1498.06 |
| 4 | claude-opus-4-7 | 1492.39 |
| 5 | muse-spark | 1489.49 |
SWE-bench Verified — 有变化
数据截至 2025-12-15 | 数据源
当前 Top 3:
| 排名 | Agent + 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变动:
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| devlo | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 | 显著下滑,存在两个提交版本 |
| Warp | #11 → #36 | 75.6 → 71.0 | 大幅下跌 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 大幅下跌 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 上升 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 | 小幅下滑 |
| Solver (2024-09-12) | #120 → #126 | 45.4 → 43.6 | 小幅下滑 |
SWE-bench Pro Public — 本期无变动
数据截至 2026-05-26 | 数据源
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
Terminal-Bench 2.0 — 有变化
数据截至 2026-05-15 | 数据源
当前 Top 3:
| 排名 | Agent + 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变动:
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| LemonHarness / Multiple | #10 → #4 | 79.9 → 84.5 | 大幅上升,进入 Top 5 |
| Warp / Multiple | #42 → #48 / #66 | 61.2 → 59.1 / 50.1 | 下跌,存在多个提交版本 |
| little-coder / Qwen3.6-35B-A3B | #122 → #117 | 23.0 → 24.6 | 小幅上升 |
三、需要关注
- TanStack 供应链攻击:OpenAI 已发布响应措施,macOS 用户须在 2026 年 6 月 12 日前更新 OpenAI 应用
- Codex 限额问题已修复:因缓存命中率优化导致限额异常消耗,已回滚并重置所有账户用量
- Antigravity 2.0 IDE 争议:Google 已澄清 IDE 功能仍在,UI 已更新并重置周限额
- 所有采集源均正常,无采集失败