AI 日报 2026-05-22 08:32

2026-05-22 08:32 CST

核心速览

1.【Google】I/O 2026 发布 Gemini 3.5,宣布百余项更新 Google 在 I/O 2026 发布 Gemini 3.5,定义为"前沿智能与行动力的结合"。同期宣布 AI 搜索新模式、Google Workspace AI 功能、AI 订阅更新等百余项产品更新,标志着 Gemini 进入代理(Agentic)时代。 链接

2.【OpenAI】AI 模型推翻离散几何领域 80 年核心猜想 OpenAI 模型解决了存在 80 年的单位距离问题(unit distance problem),推翻了离散几何中的一个核心猜想。这是 AI 驱动数学研究的里程碑事件,标志着模型在纯数学推理上的重大突破。 链接

3.【Anthropic】收购 SDK 平台 Stainless Anthropic 宣布收购 Stainless——一个 SDK 与 MCP 服务器平台,自 Anthropic API 早期起就支撑其全部 SDK。此举将强化 Anthropic 的开发者工具链与 API 生态基础设施。 链接

4.【xAI】Grok Build 发布早期 Beta,进军 AI 编程 CLI xAI 发布 Grok Build 早期 Beta 版,这是一款面向编程、应用构建和工作流自动化的代理式 CLI 工具,面向 SuperGrok Heavy 用户开放。同时 Grok 订阅已接入 OpenCode 和 OpenClaw 等第三方工具。 链接

5.【OpenAI】成立 DeployCo 企业部署子公司 OpenAI 成立 DeployCo,专注于帮助企业将前沿 AI 落地生产环境并转化为可衡量的业务价值。同期与 Dell 合作将 Codex 推向混合云和本地部署,加速企业级 AI 编程代理的规模化采用。 链接


重大 Benchmark 变化

LMArena Overall — 新模型入场

模型 入场排名 分数
gemini-3.5-flash #9 1480.0
qwen3.7-max-preview #14 1475.2

两款新模型直接进入前 15,表现强劲。Gemini 3.5 Flash 与 GPT-5.5-high(#8,1481.3)仅差 1.3 分。

SWE-bench Verified — 大幅波动

模型 排名变动 分数变动
EntroPO + R2E + Qwen3-Coder-30B 103 → 76(↑27) 52.2 → 60.4(+15.7%)
Nemotron-CORTEXA 50 → 82(↓32) 68.2 → 58.2(-14.7%)
Warp 11 → 36(↓25) 75.6 → 71.0(-6.1%)
devlo 44 → 83/94(↓39-50) 70.2 → 58.2/54.2(-17~23%)

Terminal-Bench 2.0 — 大幅波动

模型 排名变动 分数变动
LemonHarness 10 → 4(↑6) 79.9 → 84.5(+5.8%)
Warp 42 → 66(↓24) 61.2 → 50.1(-18.1%)

Warp 在 SWE-bench 和 Terminal-Bench 双榜均出现显著下滑,原因待确认。

快速预览

  • Google I/O 2026 召开:发布 Gemini 3.5、AI Mode Search、Workspace 更新等百项公告,Gemini 3.5 Flash 首次登上 LM Arena 第 9 名
  • OpenAI 模型解决 80 年离散几何猜想:单位距离问题被 AI 模型证伪,AI 数学里程碑
  • Anthropic 收购 Stainless:SDK 与 MCP Server 平台纳入 Anthropic 体系;Claude Code 发布至 v2.1.147
  • xAI 发布 Grok Build CLI 早期测试版:面向 SuperGrok Heavy 用户,Grok 订阅接入 OpenCode、OpenClaw 等第三方工具
  • LM Arena 新模型入榜:Qwen3.7-max-preview 以 1475.2 分空降第 14;gemini-3.5-flash 以 1480.0 分空降第 9

一、新闻(按来源 / 日期倒序)

OpenAI

日期 标题 摘要
05-21 AdventHealth 使用 ChatGPT 改善医疗全流程 利用 ChatGPT for Healthcare 精简工作流,减少行政负担
05-20 Ramp 工程师用 Codex + GPT-5.5 加速代码审查 代码审查反馈从数小时缩短至数分钟
05-20 Education for Countries 进入下一阶段 扩展全球学校 AI 采用,新增合作伙伴与教师培训
05-20 AI 模型证伪离散几何核心猜想 解决 80 年历史的单位距离问题,AI 数学里程碑
05-19 OpenAI for Singapore 启动 多年期 AI 合作伙伴关系,涵盖人才培养与公共服务
05-19 推进内容溯源以构建更安全的 AI 生态 Content Credentials、SynthID 与验证工具上线
05-18 OpenAI + Dell 合作将 Codex 引入混合/本地企业环境 企业可安全部署 Codex 编码代理
05-16 OpenAI + Malta 合作向全民提供 ChatGPT Plus 全民 ChatGPT Plus 访问与 AI 技能培训
05-15 Databricks 集成 GPT-5.5 用于企业 Agent 工作流 GPT-5.5 在 OfficeQA Pro benchmark 创下新高
05-15 ChatGPT 全新个人理财体验(美国 Pro 用户预览) 安全连接金融账户,AI 驱动的理财洞察
05-14 Sea Limited CPO 谈 Codex 驱动的 Agentic 开发 Sea 在亚洲工程团队全面部署 Codex
05-14 Codex 支持移动端远程操控 ChatGPT 移动端可连接 Mac 上的 Codex 实例
05-14 ChatGPT 敏感对话上下文识别能力提升 新安全更新增强时间序列风险检测
05-13 Codex Windows 沙箱技术揭秘 受控文件访问与网络限制
05-13 回应 TanStack npm 供应链攻击 macOS 用户须在 2026-06-12 前更新 OpenAI 应用
05-12 NVIDIA 工程师使用 Codex 构建生产系统 Codex + GPT-5.5 将研究想法转化为可运行实验
05-12 AutoScout24 使用 Codex + ChatGPT 加速开发 提升代码质量并扩大 AI 采用
05-11 ChatGPT 2026 Q1 采用数据 35 岁以上用户增长最快,性别使用更趋均衡
05-11 OpenAI 推出 DeployCo 企业部署公司 帮助组织将前沿 AI 落地为可衡量的业务价值
05-08 OpenAI 内部如何安全运行 Codex 沙箱、审批、网络策略与 Agent 原生遥测

OpenAI Codex Changelog

日期 标题 摘要
05-21 Appshots & Goal Mode (26.519) macOS 端可按双 Command 键发送前台 App 截图给 Codex
05-21 Codex CLI 0.133.0 Goals 默认启用,跨轮次跟踪进度
05-20 Codex CLI 0.132.0 Python SDK 支持 API Key/ChatGPT 浏览器/设备码认证
05-18 Codex CLI 0.131.0 TUI 丰富会话控制:服务层命令、token 用量、权限模式
05-14 移动端 Codex 支持 ChatGPT 移动端连接 Mac Codex 主机

Anthropic (X/Twitter + Claude Code)

日期 标题 摘要
05-21 Claude Code v2.1.147 固定后台会话保持空闲存活,更新时原地重启
05-21 Claude Code v2.1.146 /simplify 更名为 /code-review,支持 effort level
05-19 扩大 AI 前沿对话 与学者、哲学家、神学家、伦理学家就 AI 问题展开系列对话
05-19 Claude Code v2.1.145 新增 claude agents --json 用于脚本集成
05-19 Claude Code v2.1.144 /resume 支持后台会话
05-18 Anthropic 收购 Stainless SDK 与 MCP Server 平台正式并入
05-15 Claude Code v2.1.143 插件依赖链强制执行
05-14 发布中美 AI 竞争观点论文 分析美国及民主盟友在前沿 AI 的领先地位及保持策略
05-14 与盖茨基金会合作,承诺 2 亿美元 覆盖全球健康、生命科学、教育、农业、经济流动
05-11 Claude Constitution 有声书上线 Amanda Askell 与 Joe Carlsmith 朗读,含 Q&A

Google

日期 标题 摘要
05-20 密苏里州社区投资公告 下一代劳动力建设与能源项目投资
05-20 I/O 2026 百项公告汇总 全面盘点本届 I/O 发布内容
05-20 Google Beam 小组会议实验 远程小组会议新体验
05-19 I/O 2026 主题:Agentic Gemini 时代 Sundar Pichai 开场演讲
05-19 Gemini 3.5 发布 前沿智能+行动能力,I/O 核心发布
05-19 AI Search 新时代 搜索引擎 + AI 能力的最佳结合
05-19 AI Mode 在美国改变搜索方式 AI Mode 使用洞察
05-19 Google Workspace AI 新功能 新的创建和协作方式
05-19 Google AI 订阅更新 更多功能,同价格
05-11 AI 驱动的 Google Finance 扩展至欧洲 金融信息 AI 体验

xAI

日期 标题 摘要
05-21 Grok 订阅接入 OpenCode 使用 Grok Build 背后的模型,高速+代码库智能
05-19 Grok 订阅接入 OpenClaw 聊天、图像/视频生成、X 帖子搜索
05-15 Grok 接入 NousResearch Hermes Agent Grok 订阅在 Hermes Agent 中可用
05-14 Grok Build CLI 早期 Beta 上线 面向 SuperGrok Heavy 用户,编码/应用构建/工作流自动化

二、Benchmark 快照与变化

LM Arena(Overall)— 来源

当前 Top 10(2026-05-19 快照):

排名 模型 分数
1 claude-opus-4-6-thinking 1502.0
2 claude-opus-4-7-thinking 1500.3
3 claude-opus-4-6 1498.1
4 claude-opus-4-7 1492.4
5 muse-spark 1489.5
6 gemini-3.1-pro-preview 1488.2
7 gemini-3-pro 1485.8
8 gpt-5.5-high 1481.3
9 gemini-3.5-flash ⭐ 新入榜 1480.0
10 gpt-5.4-high 1479.6

本期显著变化:

模型 变化类型 详情
gemini-3.5-flash 🆕 新入榜 空降第 9,分数 1480.0
qwen3.7-max-preview 🆕 新入榜 空降第 14,分数 1475.2
gpt-5.5 ⬆ 排名上升 12→11,分数 1476.3→1478.0
gpt-5.4-mini-high ⬇ 排名下降 34→39,分数下降 1.5 分
grok-4.1-thinking ⬇ 排名下降 21→25
mimo-v2.5-pro ⬆ 分数上升 1463.2→1464.9,排名 25→26
kimi-k2.6 ⬆ 分数上升 1461.1→1462.2,排名 27→29
deepseek-v4-pro ⬇ 排名下降 30→32
gemini-3.1-flash-lite-preview ⬇ 分数下降 1438.5→1435.9,排名 56→59

SWE-bench Verified — 来源

当前 Top 3(截至 2025-12-15):

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期显著变化:

模型 变化类型 详情
Warp ⬇ 大幅下降 排名 11→36,分数 75.6→71.0
devlo ⬇ 大幅下降 排名 44→83/94,分数 70.2→58.2/54.2
Nemotron-CORTEXA ⬇ 大幅下降 排名 50→82,分数 68.2→58.2
EntroPO + R2E + Qwen3-Coder-30B ⬆ 大幅上升 排名 103→76,分数 52.2→60.4

SWE-bench Pro Public — 来源

当前 Top 3(2026-05-22 快照):

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

本期无新增变化报告。Top 3 维持不变。


Terminal-bench 2.0 — 来源

当前 Top 3(2026-05-15 快照):

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期显著变化:

模型 变化类型 详情
LemonHarness / Multiple ⬆ 大幅上升 排名 10→4,分数 79.9→84.5
Warp / Multiple ⬇ 下降 排名 42→48/66,分数 61.2→59.1/50.1
little-coder / Qwen3.6-35B-A3B ⬆ 小幅上升 排名 122→117,分数 23.0→24.6

三、采集状态

所有来源均正常采集,无失败记录。

Sources