AI 日报 2026-05-21 08:50

2026-05-21 08:50 CST

核心速览

1. 【OpenAI】AI 模型首次推翻离散几何核心猜想

OpenAI 模型解决了 80 年历史的单位距离问题(unit distance problem),推翻了离散几何中的一个核心猜想。这是 AI 驱动数学研究的重大里程碑,标志着模型在形式化推理领域的突破性进展。 原文链接

2. 【Google I/O 2026】发布 Gemini 3.5,全面进入 Agentic 时代

Google 在 I/O 2026 大会发布 Gemini 3.5 模型及超过 100 项更新,主打"Agentic Gemini"战略。新模型定位为前沿智能与行动能力的结合,同时推出 AI Search 新时代、Workspace AI 功能及订阅方案升级。 原文链接

3. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless(SDK 与 MCP 服务器平台),该公司自 Anthropic API 诞生之初就为其提供所有 SDK 支持。此次收购将加强 Anthropic 的开发者工具生态和 API 基础设施能力。 原文链接

4. 【xAI】Grok Build CLI Beta 上线,对标 Codex

xAI 发布 Grok Build 早期 Beta 版,这是一款面向编码、应用构建和工作流自动化的 Agentic CLI 工具,目前仅向 SuperGrok Heavy 订阅用户开放。Grok 同步扩展至 OpenClaw 和 NousResearch Hermes Agent 等第三方平台。 原文链接

5. 【Anthropic】与盖茨基金会达成 2 亿美元合作

Anthropic 与盖茨基金会合作,承诺提供 2 亿美元的资助、Claude 额度及技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性等领域。 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 变动幅度
devlo #44 → #83 70.2 → 58.2 分数 -17.1%
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 分数 -14.7%
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 ⬆️ 52.2 → 60.4 分数 +15.7%
Warp #11 → #36 75.6 → 71.0 分数 -6.1%
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 分数 -11.1%

Terminal Bench 2.0

模型 排名变动 分数变动 变动幅度
LemonHarness / Multiple #10 → #4 ⬆️ 79.9 → 84.5 分数 +5.8%
Warp / Multiple #42 → #66 61.2 → 50.1 分数 -18.1%

亮点:EntroPO + R2E + Qwen3-Coder-30B 在 SWE-bench Verified 上跃升 27 位,分数提升 15.7%,开源编码模型表现抢眼。devlo 和 Warp 在两个 Benchmark 上均出现大幅下滑。

快速预览

  • OpenAI 模型证明离散几何猜想:80 年历史的单位距离问题被 OpenAI 模型推翻,AI 驱动数学研究里程碑
  • Google I/O 2026 召开:发布 Gemini 3.5、AI Search 新时代、Workspace 更新等 100+ 项公告
  • Anthropic 收购 Stainless:SDK 与 MCP 服务器平台正式并入 Anthropic,并向盖茨基金会投入 2 亿美元合作
  • xAI 发布 Grok Build:面向 SuperGrok Heavy 用户的 agentic CLI 编码工具早期测试版上线
  • LMArena 榜首:claude-opus-4-6-thinking 以 1501.5 分领跑;SWE-bench Pro Public 第一为 gpt-5.4 (xHigh) 59.1 分

一、新闻动态

OpenAI

日期 标题 摘要
05-20 模型推翻离散几何猜想 OpenAI 模型解决 80 年历史的单位距离问题,推翻离散几何核心猜想
05-20 Ramp 工程师用 Codex 加速代码审查 Ramp 使用 Codex + GPT-5.5 将代码审查从数小时缩短至数分钟
05-20 Education for Countries 新阶段 扩大 AI 在全球学校的应用,新增合作伙伴与教师培训
05-19 OpenAI for Singapore 多年期 AI 合作伙伴关系,扩展本地人才培养与企业部署
05-19 内容溯源透明化 推出 Content Credentials、SynthID 及验证工具
05-18 与 Dell 合作 Codex 企业混合部署 Codex 进入混合云与本地部署环境
05-16 马耳他全国 ChatGPT Plus 合作 为全体公民提供 ChatGPT Plus 与 AI 培训
05-15 ChatGPT 个人理财体验 美国 Pro 用户可连接金融账户获取 AI 理财洞察
05-15 Databricks 集成 GPT-5.5 GPT-5.5 在 OfficeQA Pro 基准上刷新 SOTA,已用于企业 agent 工作流
05-14 Codex 移动端支持 通过 ChatGPT 移动 App 远程操控 Codex 任务
05-14 ChatGPT 敏感对话上下文识别 新安全更新提升敏感对话中的风险检测能力
05-13 Codex Windows 沙箱 为 Windows 构建安全沙箱,控制文件与网络访问
05-13 TanStack 供应链攻击响应 macOS 用户需在 2026-06-12 前更新 OpenAI 应用
05-12 NVIDIA 工程师使用 Codex NVIDIA 使用 Codex + GPT-5.5 将研究想法转化为可运行实验
05-12 AutoScout24 AI 工作流 AutoScout24 用 Codex 和 ChatGPT 加速开发周期
05-11 ChatGPT Q1 2026 采用趋势 35 岁以上用户增长最快,性别使用更加平衡
05-11 DeployCo 企业部署公司 新公司帮助组织将前沿 AI 投入生产

OpenAI Codex Changelog

日期 版本 要点
05-20 0.132.0 Python SDK 支持一流认证(API key、ChatGPT 浏览器/device-code 流程等)
05-18 0.131.0 TUI 增强:服务层命令、混合 token 用量、权限模式显示等
05-14 移动端支持 ChatGPT 移动 App 可连接 Mac 上的 Codex
05-11 Auto-review 文档 新增 Auto-review 专用页面
05-08 App 26.506 应用内 hooks 信任审查流程

Anthropic / Claude Code

日期 标题 摘要
05-19 Claude Code v2.1.145 claude agents --json 输出活会话列表,便于脚本集成
05-19 v2.1.144 /resume 支持后台会话(claude --bg 启动的会话)
05-19 扩大 AI 对话范围 与学者、哲学家、神职人员就 AI 伦理问题展开对话
05-18 收购 Stainless 收购 SDK 与 MCP 服务器平台 Stainless
05-15 v2.1.143 插件依赖强制检查:禁用有依赖关系的插件时拒绝执行
05-14 v2.1.142 claude agents 新增 --add-dir--settings--model 等配置标志
05-14 AI 竞争力论文 发布美中 AI 竞争分析论文
05-14 盖茨基金会合作 投入 2 亿美元用于全球健康、生命科学、教育等方向
05-13 v2.1.141 hook JSON 输出新增 terminalSequence 字段支持桌面通知
05-11 Claude 宪法有声书 Amanda Askell 和 Joe Carlsmith 朗读 Claude's Constitution
05-07 Petri 开源工具捐赠 将对齐测试工具 Petri 捐赠给 Meridian Labs 并发布重大更新
05-07 Bug Bounty 公开 HackerOne 安全漏洞赏金计划转为公开

Google

日期 标题 摘要
05-20 I/O 2026 全部公告汇总 100+ 项公告
05-20 Missouri 社区投资 下一代劳动力建设与能源项目投资
05-20 Google Beam 小组会议实验 新实验改善小组视频会议体验
05-19 Gemini 3.5 发布 前沿智能与行动能力结合的新一代模型
05-19 I/O 2026: Agentic Gemini 时代 Sundar Pichai 主题演讲,进入 agentic Gemini 时代
05-19 AI Search 新时代 搜索引擎与 AI 能力的融合
05-19 AI Mode 使用洞察 美国用户 AI Mode 使用方式分析
05-19 Google Workspace 更新 新的创建与协作 AI 功能
05-19 Google AI 订阅更新 更多功能,相同价格
05-11 AI 驱动 Google Finance 欧洲扩展 AI 金融分析扩展至欧洲

xAI

日期 标题 摘要
05-19 Grok × OpenClaw 集成 Grok/X Premium 订阅可用于 OpenClaw
05-15 Grok × Hermes Agent Grok 订阅接入 NousResearch Hermes Agent
05-14 Grok Build CLI Beta 面向 SuperGrok Heavy 用户的编码/agentic CLI 工具
05-08 Grok 连接器扩展 支持邮件、日历、Notion 等连接器
05-07 图片生成 Quality Mode API 更高真实感、文字渲染和创意控制,已生成 3 亿+ 张图片

二、Benchmark 快照与变化

1. LMArena(Overall)

本期无变动(数据截至 2026-05-14)

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1501.5
2 claude-opus-4-7-thinking 1500.4
3 claude-opus-4-6 1497.7

来源:LMArena Leaderboard

2. SWE-bench Verified

有变化,以下为显著变动:

模型 变动类型 旧排名 → 新排名 旧分 → 新分
EntroPO + R2E + Qwen3-Coder-30B 排名上升 ⬆ 103 → 76 52.2 → 60.4
Warp 排名下降 ⬇ 11 → 36 75.6 → 71.0
devlo 排名下降 ⬇ 44 → 83/94 70.2 → 58.2/54.2
Nemotron-CORTEXA 排名下降 ⬇ 50 → 82 68.2 → 58.2
EPAM AI/Run + GPT4o 排名下降 ⬇ 156 → 162 27.0 → 24.0

当前 Top 3(数据截至 2025-12-15):

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

来源:SWE-bench Verified

3. SWE-bench Pro Public

本期无变动(数据截至 2026-05-21)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

来源:Scale AI Leaderboard

4. Terminal-Bench 2.0

有变化,显著变动:

模型 变动类型 旧排名 → 新排名 旧分 → 新分
LemonHarness / Multiple 排名上升 ⬆ 10 → 4 79.9 → 84.5
little-coder / Qwen3.6-35B-A3B 排名上升 ⬆ 122 → 117 23.0 → 24.6
Warp / Multiple 排名下降 ⬇ 42 → 48/66 61.2 → 59.1/50.1

当前 Top 3(数据截至 2026-05-15):

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

来源:Terminal-Bench Leaderboard


三、来源状态

  • 所有新闻来源采集正常,无失败记录。
  • LMArena 数据截至 05-14;SWE-bench Verified 快照多为 2025 年提交,近期有多项排名/分数变动;SWE-bench Pro Public 已更新至 05-21;Terminal-Bench 2.0 更新至 05-15。

Sources