AI 日报 2026-05-24 08:36

2026-05-24 08:36 CST

核心速览

1. 【Google I/O 2026】Gemini 3.5 发布,进入 Agentic Gemini 时代

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,Sundar Pichai 宣布进入"Agentic Gemini 时代"。同期发布超 100 项更新,涵盖 AI Search、Google Workspace 集成及订阅服务升级,全面推动 AI 代理化应用落地。 原文链接

2. 【OpenAI】AI 模型证明离散几何核心猜想被证伪

OpenAI 一个模型解决了 80 年历史的"单位距离问题"(unit distance problem),证伪了离散几何领域的一个重大猜想。这是 AI 驱动数学研究的里程碑事件,标志着模型在纯数学推理上的突破性进展。 原文链接

3. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless API,后者自 Anthropic API 早期起即为其所有 SDK 提供支持,同时也是 MCP 服务器平台。此次收购将加强 Anthropic 开发者基础设施的控制力和集成深度。 原文链接

4. 【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入

Anthropic 与盖茨基金会达成合作,承诺投入 2 亿美元(含拨款、Claude 额度及技术支持),覆盖全球健康、生命科学、教育、农业和经济流动性五大领域,是 AI 公司在公益领域的重大举措。 原文链接

5. 【xAI】Grok Build 早期 Beta 上线

xAI 发布 Grok Build 早期 Beta 版,这是一款面向编码、应用构建和工作流自动化的代理式 CLI 工具,SuperGrok Heavy 订阅用户可率先使用。同时 Grok 订阅已接入 OpenCode 和 OpenClaw 等第三方工具。 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动
devlo #44 → #83~#94 70.2 → 54.2~58.2(↓16~23%)
Nemotron-CORTEXA #50 → #82 68.2 → 58.2(↓14.7%)
Warp #11 → #36 75.6 → 71.0(↓6.1%)
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4(↑15.7%)

Terminal Bench 2.0

模型 排名变动 分数变动
LemonHarness / Multiple #10 → #4 79.9 → 84.5(↑5.8%)
Warp / Multiple #42 → #48~#66 61.2 → 50.1~59.1(↓3.4~18.1%)

Warp 在两个榜单上均出现明显下滑;devlo 在 SWE-bench 上排名跌幅最大(最多下降 50 位)。EntroPO 组合在 SWE-bench 上进步显著,排名跃升 27 位。

快速预览

  • Google I/O 2026: Gemini 3.5 发布,标志 Google 进入"Agentic Gemini 时代";AI Search、Workspace 等全线更新 (blog.google)
  • OpenAI 多线并进: 获 Gartner 企业编码 Agent 魔力象限领导者;模型证明离散几何 80 年猜想;与 Dell 合作推进企业混合部署 (openai.com)
  • Anthropic 收购 Stainless: 强化 SDK 与 MCP server 平台能力;与盖茨基金会合作投入 $2 亿 (x.com)
  • Benchmark 关注: SWE-Bench Verified 有显著变动——Warp 从 #11 跌至 #36(75.6→71.0),devlo 大幅下滑;Terminal-Bench 2.0 LemonHarness 从 #10 升至 #4(79.9→84.5)
  • Claude Code v2.1.149: /usage 新增按类别用量明细;v2.1.148 修复 Bash exit code 127 回归 (github.com)

一、新闻

OpenAI(2026-05-15 ~ 05-22)

日期 标题 要点
05-22 Gartner 魔力象限:企业编码 Agent 领导者 Codex 获评创新与规模化部署领先 (link)
05-22 Virgin Atlantic + Codex 移动端 App 重构上线,近 100% 单测覆盖、零 P1 缺陷 (link)
05-21 AdventHealth + ChatGPT for Healthcare 简化临床工作流,减少行政负担,释放更多患者护理时间 (link)
05-20 模型证明离散几何猜想 解决 80 年未决的 unit distance problem,AI 数学里程碑 (link)
05-20 Education for Countries 新阶段 扩大全球学校 AI 采用,新增教师培训和合作伙伴 (link)
05-20 Ramp 工程师用 Codex 加速代码评审 GPT-5.5 驱动,数分钟内获得实质性反馈 (link)
05-19 OpenAI for Singapore 多年期 AI 合作伙伴关系,覆盖部署、人才、公共服务 (link)
05-19 内容来源与透明度 推进 Content Credentials、SynthID 和验证工具 (link)
05-18 Dell 合作:Codex 进入混合/本地部署 企业可在自有基础设施上安全部署 Codex (link)
05-16 Malta 合作:全民 ChatGPT Plus 全国公民获得 ChatGPT Plus 与 AI 技能培训 (link)
05-15 Databricks 集成 GPT-5.5 OfficeQA Pro benchmark SOTA 后落地企业 Agent 工作流 (link)
05-15 ChatGPT 个人理财体验 美国 Pro 用户可关联金融账户,获得 AI 理财洞察 (link)
05-14 Codex 移动端:随时随地开发 ChatGPT 移动 App 可连接 Mac 上的 Codex,实时监控、引导和审批 (link)
05-14 ChatGPT 敏感对话上下文识别 改进安全更新,跨对话检测风险并更安全地响应 (link)
05-13 Codex Windows 沙箱 控制文件访问和网络限制,保障安全 (link)
05-13 TanStack npm 供应链攻击响应 macOS 用户需在 2026-06-12 前更新 OpenAI 应用 (link)

更多 05-11 ~ 05-15 的 Codex 使用指南(数据科学/销售/运营/财务团队)及企业案例(NVIDIA、AutoScout24、Sea)见 openai.com

OpenAI Codex Changelog

日期 版本/更新 要点
05-21 Codex App 更新 (v26.519) Appshots:macOS 双击 Command 键即可将前台应用截图+文本发给 Codex (link)
05-21 CLI 0.133.0 Goals 默认启用,带专用存储,跨 turn 跟踪进度 (link)
05-20 CLI 0.132.0 Python SDK 新增一等公民认证:API key、ChatGPT 浏览器/设备码流程 (link)
05-18 CLI 0.131.0 TUI 会话控制增强:token 用量混合显示、权限模式等 (link)
05-14 移动端支持 ChatGPT 移动 App 可连接 Mac Codex 主机,共享项目与配置 (link)

Anthropic(via X)

日期 标题 要点
05-19 AI 伦理对话 与学者、哲学家、神职人员等就 AI 提出的品格形成问题展开对话 (link)
05-18 收购 Stainless Stainless 一直是 Anthropic SDK 背后的平台,现正式收购 (link)
05-14 美中 AI 竞争论文 发布论文阐述维持美国及民主盟友前沿 AI 领先优势的观点 (link)
05-14 盖茨基金会合作 投入 $2 亿用于全球健康、生命科学、教育、农业和经济流动性 (link)
05-11 Claude Constitution 有声书 Amanda Askell 和 Joe Carlsmith 朗读,含创作 Q&A (link)

Claude Code Releases

日期 版本 要点
05-23 v2.1.150 内部基础设施改进,无用户侧变更 (link)
05-22 v2.1.149 /usage 新增按类别用量明细:skills、subagents、plugins、per-MCP-server (link)
05-22 v2.1.148 修复 v2.1.147 引入的 Bash exit code 127 回归 (link)
05-21 v2.1.147 固定后台会话(Ctrl+T)在空闲时保持存活,更新时原地重启 (link)
05-21 v2.1.146 /simplify 更名为 /code-review,支持 effort level 参数 (link)

Google(I/O 2026 专题)

日期 标题 要点
05-22 I/O 2026 Dialogues 回顾 Sundar Pichai 对话访谈 (link)
05-20 I/O 2026 发布汇总 100+ 项公告 (link)
05-19 Gemini 3.5 "前沿智能 + 行动能力" (link)
05-19 Agentic Gemini 时代 I/O 2026 主题演讲 (link)
05-19 AI Search 新纪元 "搜索引擎与 AI 的最佳结合" (link)
05-19 AI Mode 在美国的使用变化 搜索 AI 模式使用洞察 (link)
05-19 Google Workspace AI 更新 新的创作和协作功能 (link)
05-19 Google AI 订阅升级 更多功能、同样价格 (link)
05-11 AI Google Finance 扩展至欧洲 AI 驱动的金融信息服务 (link)

xAI

日期 标题 要点
05-21 Grok + OpenCode Grok/X Premium 订阅可用于 OpenCode,使用 Grok Build 模型 (link)
05-19 Grok + OpenClaw 在 OpenClaw 中聊天、生成图片视频、搜索 X 帖子 (link)
05-15 Grok + NousResearch Hermes Agent Grok 订阅集成 Hermes Agent (link)
05-14 Grok Build beta 发布 Agentic CLI 工具,SuperGrok Heavy 用户可用 (link)

DeepSeek

日期 标题 要点
05-22 DeepSeek-V4-Pro 折扣永久化 原促销价变更为永久定价 (link)

二、Benchmark 快照与变化

LMArena Overall — 本期无变动

数据采集:2026-05-19 | 来源:lmarena.ai

排名 模型 评分
1 claude-opus-4-6-thinking 1501.98
2 claude-opus-4-7-thinking 1500.25
3 claude-opus-4-6 1498.06

SWE-Bench Verified — 有变动

数据采集:最近更新 | 来源:github.com/OpenAutoCoder/live-swe-agent

当前 Top 3:

排名 模型 评分
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期显著变化:

模型 排名变化 分数变化
Warp #11 → #36 75.6 → 71.0 ⬇
devlo #44 → #83~94 70.2 → 54.2~58.2 ⬇
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 ⬇
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 ⬆
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 ⬇

Warp 和 devlo 的大幅下滑值得关注,可能与评测环境或模型配置调整有关。

SWE-Bench Pro Public — 本期无变动

数据采集:2026-05-24 | 来源:labs.scale.com

排名 模型 评分
1 gpt-5.4 (xHigh) 59.1
2 Muse Spark 55.0
3 claude-opus-4-6 (thinking) 51.9

Terminal-Bench 2.0 — 有变动

数据采集:2026-05-15 | 来源:tbench.ai

当前 Top 3:

排名 模型 评分
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期显著变化:

模型 排名变化 分数变化
LemonHarness / Multiple #10 → #4 79.9 → 84.5 ⬆
Warp / Multiple #42 → #48~66 61.2 → 50.1~59.1 ⬇
little-coder / Qwen3.6-35B #122 → #117 23.0 → 24.6 ⬆

LemonHarness 显著提升,成功跻身 Top 5;Warp 在 Terminal-Bench 和 SWE-Bench Verified 中均出现下滑。

Sources