AI 日报 2026-05-21 08:50
2026-05-21 08:50 CST
核心速览
1. 【OpenAI】AI 模型首次推翻离散几何核心猜想
OpenAI 模型解决了 80 年历史的单位距离问题(unit distance problem),推翻了离散几何中的一个核心猜想。这是 AI 驱动数学研究的重大里程碑,标志着模型在形式化推理领域的突破性进展。 原文链接
2. 【Google I/O 2026】发布 Gemini 3.5,全面进入 Agentic 时代
Google 在 I/O 2026 大会发布 Gemini 3.5 模型及超过 100 项更新,主打"Agentic Gemini"战略。新模型定位为前沿智能与行动能力的结合,同时推出 AI Search 新时代、Workspace AI 功能及订阅方案升级。 原文链接
3. 【Anthropic】收购 SDK 平台公司 Stainless
Anthropic 宣布收购 Stainless(SDK 与 MCP 服务器平台),该公司自 Anthropic API 诞生之初就为其提供所有 SDK 支持。此次收购将加强 Anthropic 的开发者工具生态和 API 基础设施能力。 原文链接
4. 【xAI】Grok Build CLI Beta 上线,对标 Codex
xAI 发布 Grok Build 早期 Beta 版,这是一款面向编码、应用构建和工作流自动化的 Agentic CLI 工具,目前仅向 SuperGrok Heavy 订阅用户开放。Grok 同步扩展至 OpenClaw 和 NousResearch Hermes Agent 等第三方平台。 原文链接
5. 【Anthropic】与盖茨基金会达成 2 亿美元合作
Anthropic 与盖茨基金会合作,承诺提供 2 亿美元的资助、Claude 额度及技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性等领域。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 变动幅度 |
|---|---|---|---|
| devlo | #44 → #83 | 70.2 → 58.2 | 分数 -17.1% |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 分数 -14.7% |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 ⬆️ | 52.2 → 60.4 | 分数 +15.7% |
| Warp | #11 → #36 | 75.6 → 71.0 | 分数 -6.1% |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 | 分数 -11.1% |
Terminal Bench 2.0
| 模型 | 排名变动 | 分数变动 | 变动幅度 |
|---|---|---|---|
| LemonHarness / Multiple | #10 → #4 ⬆️ | 79.9 → 84.5 | 分数 +5.8% |
| Warp / Multiple | #42 → #66 | 61.2 → 50.1 | 分数 -18.1% |
亮点:EntroPO + R2E + Qwen3-Coder-30B 在 SWE-bench Verified 上跃升 27 位,分数提升 15.7%,开源编码模型表现抢眼。devlo 和 Warp 在两个 Benchmark 上均出现大幅下滑。
快速预览
- OpenAI 模型证明离散几何猜想:80 年历史的单位距离问题被 OpenAI 模型推翻,AI 驱动数学研究里程碑
- Google I/O 2026 召开:发布 Gemini 3.5、AI Search 新时代、Workspace 更新等 100+ 项公告
- Anthropic 收购 Stainless:SDK 与 MCP 服务器平台正式并入 Anthropic,并向盖茨基金会投入 2 亿美元合作
- xAI 发布 Grok Build:面向 SuperGrok Heavy 用户的 agentic CLI 编码工具早期测试版上线
- LMArena 榜首:claude-opus-4-6-thinking 以 1501.5 分领跑;SWE-bench Pro Public 第一为 gpt-5.4 (xHigh) 59.1 分
一、新闻动态
OpenAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-20 | 模型推翻离散几何猜想 | OpenAI 模型解决 80 年历史的单位距离问题,推翻离散几何核心猜想 |
| 05-20 | Ramp 工程师用 Codex 加速代码审查 | Ramp 使用 Codex + GPT-5.5 将代码审查从数小时缩短至数分钟 |
| 05-20 | Education for Countries 新阶段 | 扩大 AI 在全球学校的应用,新增合作伙伴与教师培训 |
| 05-19 | OpenAI for Singapore | 多年期 AI 合作伙伴关系,扩展本地人才培养与企业部署 |
| 05-19 | 内容溯源透明化 | 推出 Content Credentials、SynthID 及验证工具 |
| 05-18 | 与 Dell 合作 Codex 企业混合部署 | Codex 进入混合云与本地部署环境 |
| 05-16 | 马耳他全国 ChatGPT Plus 合作 | 为全体公民提供 ChatGPT Plus 与 AI 培训 |
| 05-15 | ChatGPT 个人理财体验 | 美国 Pro 用户可连接金融账户获取 AI 理财洞察 |
| 05-15 | Databricks 集成 GPT-5.5 | GPT-5.5 在 OfficeQA Pro 基准上刷新 SOTA,已用于企业 agent 工作流 |
| 05-14 | Codex 移动端支持 | 通过 ChatGPT 移动 App 远程操控 Codex 任务 |
| 05-14 | ChatGPT 敏感对话上下文识别 | 新安全更新提升敏感对话中的风险检测能力 |
| 05-13 | Codex Windows 沙箱 | 为 Windows 构建安全沙箱,控制文件与网络访问 |
| 05-13 | TanStack 供应链攻击响应 | macOS 用户需在 2026-06-12 前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师使用 Codex | NVIDIA 使用 Codex + GPT-5.5 将研究想法转化为可运行实验 |
| 05-12 | AutoScout24 AI 工作流 | AutoScout24 用 Codex 和 ChatGPT 加速开发周期 |
| 05-11 | ChatGPT Q1 2026 采用趋势 | 35 岁以上用户增长最快,性别使用更加平衡 |
| 05-11 | DeployCo 企业部署公司 | 新公司帮助组织将前沿 AI 投入生产 |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-20 | 0.132.0 | Python SDK 支持一流认证(API key、ChatGPT 浏览器/device-code 流程等) |
| 05-18 | 0.131.0 | TUI 增强:服务层命令、混合 token 用量、权限模式显示等 |
| 05-14 | 移动端支持 | ChatGPT 移动 App 可连接 Mac 上的 Codex |
| 05-11 | Auto-review 文档 | 新增 Auto-review 专用页面 |
| 05-08 | App 26.506 | 应用内 hooks 信任审查流程 |
Anthropic / Claude Code
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-19 | Claude Code v2.1.145 | claude agents --json 输出活会话列表,便于脚本集成 |
| 05-19 | v2.1.144 | /resume 支持后台会话(claude --bg 启动的会话) |
| 05-19 | 扩大 AI 对话范围 | 与学者、哲学家、神职人员就 AI 伦理问题展开对话 |
| 05-18 | 收购 Stainless | 收购 SDK 与 MCP 服务器平台 Stainless |
| 05-15 | v2.1.143 | 插件依赖强制检查:禁用有依赖关系的插件时拒绝执行 |
| 05-14 | v2.1.142 | claude agents 新增 --add-dir、--settings、--model 等配置标志 |
| 05-14 | AI 竞争力论文 | 发布美中 AI 竞争分析论文 |
| 05-14 | 盖茨基金会合作 | 投入 2 亿美元用于全球健康、生命科学、教育等方向 |
| 05-13 | v2.1.141 | hook JSON 输出新增 terminalSequence 字段支持桌面通知 |
| 05-11 | Claude 宪法有声书 | Amanda Askell 和 Joe Carlsmith 朗读 Claude's Constitution |
| 05-07 | Petri 开源工具捐赠 | 将对齐测试工具 Petri 捐赠给 Meridian Labs 并发布重大更新 |
| 05-07 | Bug Bounty 公开 | HackerOne 安全漏洞赏金计划转为公开 |
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-20 | I/O 2026 全部公告汇总 | 100+ 项公告 |
| 05-20 | Missouri 社区投资 | 下一代劳动力建设与能源项目投资 |
| 05-20 | Google Beam 小组会议实验 | 新实验改善小组视频会议体验 |
| 05-19 | Gemini 3.5 发布 | 前沿智能与行动能力结合的新一代模型 |
| 05-19 | I/O 2026: Agentic Gemini 时代 | Sundar Pichai 主题演讲,进入 agentic Gemini 时代 |
| 05-19 | AI Search 新时代 | 搜索引擎与 AI 能力的融合 |
| 05-19 | AI Mode 使用洞察 | 美国用户 AI Mode 使用方式分析 |
| 05-19 | Google Workspace 更新 | 新的创建与协作 AI 功能 |
| 05-19 | Google AI 订阅更新 | 更多功能,相同价格 |
| 05-11 | AI 驱动 Google Finance 欧洲扩展 | AI 金融分析扩展至欧洲 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-19 | Grok × OpenClaw 集成 | Grok/X Premium 订阅可用于 OpenClaw |
| 05-15 | Grok × Hermes Agent | Grok 订阅接入 NousResearch Hermes Agent |
| 05-14 | Grok Build CLI Beta | 面向 SuperGrok Heavy 用户的编码/agentic CLI 工具 |
| 05-08 | Grok 连接器扩展 | 支持邮件、日历、Notion 等连接器 |
| 05-07 | 图片生成 Quality Mode API | 更高真实感、文字渲染和创意控制,已生成 3 亿+ 张图片 |
二、Benchmark 快照与变化
1. LMArena(Overall)
本期无变动(数据截至 2026-05-14)
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.5 |
| 2 | claude-opus-4-7-thinking | 1500.4 |
| 3 | claude-opus-4-6 | 1497.7 |
2. SWE-bench Verified
有变化,以下为显著变动:
| 模型 | 变动类型 | 旧排名 → 新排名 | 旧分 → 新分 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 排名上升 ⬆ | 103 → 76 | 52.2 → 60.4 |
| Warp | 排名下降 ⬇ | 11 → 36 | 75.6 → 71.0 |
| devlo | 排名下降 ⬇ | 44 → 83/94 | 70.2 → 58.2/54.2 |
| Nemotron-CORTEXA | 排名下降 ⬇ | 50 → 82 | 68.2 → 58.2 |
| EPAM AI/Run + GPT4o | 排名下降 ⬇ | 156 → 162 | 27.0 → 24.0 |
当前 Top 3(数据截至 2025-12-15):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
3. SWE-bench Pro Public
本期无变动(数据截至 2026-05-21)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
4. Terminal-Bench 2.0
有变化,显著变动:
| 模型 | 变动类型 | 旧排名 → 新排名 | 旧分 → 新分 |
|---|---|---|---|
| LemonHarness / Multiple | 排名上升 ⬆ | 10 → 4 | 79.9 → 84.5 |
| little-coder / Qwen3.6-35B-A3B | 排名上升 ⬆ | 122 → 117 | 23.0 → 24.6 |
| Warp / Multiple | 排名下降 ⬇ | 42 → 48/66 | 61.2 → 59.1/50.1 |
当前 Top 3(数据截至 2026-05-15):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
三、来源状态
- 所有新闻来源采集正常,无失败记录。
- LMArena 数据截至 05-14;SWE-bench Verified 快照多为 2025 年提交,近期有多项排名/分数变动;SWE-bench Pro Public 已更新至 05-21;Terminal-Bench 2.0 更新至 05-15。