AI 日报 2026-05-23 08:48

2026-05-23 08:48 CST

核心速览

1. 【Google I/O 2026】Gemini 3.5 发布,"Agentic Gemini 时代"正式开启

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,主打"前沿智能+行动力",同步推出 AI 搜索新模式、Workspace AI 功能升级及订阅服务更新,共计宣布 100+ 项更新。这是 Google 全面押注 Agent 化 AI 的标志性动作。 → I/O 汇总 | → Gemini 3.5

2. 【OpenAI】AI 模型推翻离散几何中 80 年未解猜想

OpenAI 一个模型解决了"单位距离问题"(Unit Distance Problem),推翻了该领域存在 80 年的核心猜想。这是 AI 驱动数学研究的里程碑事件,标志着模型在形式推理领域取得突破性进展。 → 原文

3. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless API——该平台自 Anthropic API 早期起便支撑其全部 SDK。此举将增强 Anthropic 的开发者工具链控制力,加速 Agent 生态基础设施建设。 → 原文

4. 【OpenAI】Gartner 评为企业编码 Agent 领导者 + Codex 生态全面铺开

OpenAI 在 2026 Gartner 企业 AI 编码 Agent 魔力象限中获评领导者,Codex 获认可。同期 Codex 移动端上线、与 Dell 达成混合部署合作、NVIDIA/Ramp/Virgin Atlantic 等企业落地案例密集发布。 → Gartner | → Dell 合作

5. 【xAI】Grok Build CLI 测试版上线,Grok 订阅打通 OpenCode/OpenClaw

xAI 发布 Grok Build 测试版(面向 SuperGrok Heavy 用户),并宣布 Grok/X Premium 订阅可在 OpenCode 和 OpenClaw 中使用。xAI 正快速构建以 Grok 为核心的开发者工具生态。 → Grok Build | → OpenCode


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
devlo #44 → #83~94 70.2 → 54.2~58.2 (↓17~22%) 大幅下滑,疑似提交被修正或环境问题
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 (↑15.7%) 开源 30B 模型 agent 方案显著提升
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 (↓14.7%) NVIDIA 方案分数大幅回落
Warp #11 → #36 75.6 → 71.0 (↓6.1%) 排名滑出 Top 10

Terminal-bench 2.0

模型 排名变动 分数变动 说明
LemonHarness #10 → #4 79.9 → 84.5 (↑5.8%) 闯入 Top 5,终端任务能力显著增强
Warp #42 → #66 61.2 → 50.1 (↓18.1%) 两个 benchmark 同步下滑,需关注

快速预览

  • Google I/O 2026 召开:发布 Gemini 3.5,进入「Agentic Gemini 时代」,同时更新 AI 搜索、Workspace、订阅方案等全线产品
  • OpenAI 被 Gartner 评为企业 AI 编程代理领导者;同时与 Dell 合作将 Codex 推向混合/本地部署,还推出企业部署公司 DeployCo
  • Anthropic 收购 Stainless(SDK 平台),并联合盖茨基金会投入 2 亿美元用于全球健康、教育等领域
  • xAI 发布 Grok Build(编程 CLI 测试版),Grok 订阅现可接入 OpenCode 和 OpenClaw
  • LM Arena Top 3:claude-opus-4-6-thinking (1502)、claude-opus-4-7-thinking (1500)、claude-opus-4-6 (1498);Anthropic Claude 系列包揽前四

一、新闻

Google(来源:google-blog-ai)

日期 标题 摘要
05-22 I/O 2026 Dialogues 回顾 Alphabet CEO Sundar Pichai 在 I/O 2026 对谈舞台的对话回顾
05-20 I/O 2026 100 项公告汇总 全面汇总 Google I/O 2026 所有公告
05-20 Google Beam 新实验:多人会议 Google Beam 将支持多人小组会议
05-20 密苏里社区投资 帮助密苏里州建设下一代劳动力并投资能源项目
05-19 Gemini 3.5 发布 Gemini 3.5:前沿智能 + 行动能力
05-19 Agentic Gemini 时代 Sundar Pichai 宣布 I/O 2026 进入 Agentic Gemini 时代
05-19 AI 搜索新时代 搜索引擎与 AI 最佳结合的新一代 AI 搜索
05-19 AI Mode 使用洞察 AI Mode 在美国如何改变人们的搜索方式
05-19 Google Workspace 更新 新的 AI 驱动创作与工作效率功能
05-19 Google AI 订阅方案更新 I/O 2026 新订阅权益,价格不变、功能更强
05-11 AI 驱动 Google Finance 扩展至欧洲 AI 驱动的 Google Finance 体验扩展至欧洲

OpenAI(来源:openai-news)

日期 标题 摘要
05-22 Gartner 企业编程代理领导者 OpenAI 获评 2026 Gartner Magic Quadrant 企业 AI 编程代理领导者
05-22 Virgin Atlantic 使用 Codex 案例 Virgin Atlantic 用 Codex 重构移动应用,实现近全覆盖单元测试和零 P1 缺陷
05-21 AdventHealth 与 OpenAI 合作 AdventHealth 使用 ChatGPT for Healthcare 简化工作流、减轻管理负担
05-20 AI 模型推翻离散几何核心猜想 里程碑:OpenAI 模型解决了 80 年历史的单位距离问题,推翻核心猜想
05-20 教育全球化新阶段 推进「Education for Countries」,扩大全球学校 AI 应用
05-20 Ramp 使用 Codex 加速代码审查 Ramp 工程师用 Codex + GPT-5.5,代码审查反馈从数小时缩短至数分钟
05-19 OpenAI for Singapore 多年期 AI 合作伙伴关系,扩展部署和本地人才培养
05-19 内容来源溯源进展 推进 Content Credentials、SynthID 和验证工具
05-18 与 Dell 合作:Codex 进入混合/本地环境 Codex 将支持企业混合和本地安全部署
05-16 马耳他 ChatGPT Plus 合作 为马耳他所有公民提供 ChatGPT Plus 和培训
05-15 Databricks 集成 GPT-5.5 Databricks 将 GPT-5.5 用于企业代理工作流,OfficeQA Pro 新 SOTA
05-15 ChatGPT 个人理财体验 Pro 用户(美国)可连接金融账户获取 AI 理财洞察
05-14 Sea 与 Codex 的 Agentic 开发 Sea CPO 阐述为何在亚洲工程团队全面部署 Codex
05-14 Codex 移动端工作 ChatGPT 移动端可连接 Mac 上的 Codex,随时随地编程
05-14 ChatGPT 敏感对话上下文识别 新安全更新改善敏感对话的上下文感知
05-13 Codex Windows 沙箱构建 详解如何构建安全 Windows 沙箱以支持 Codex
05-13 TanStack npm 供应链攻击响应 详解对 TanStack 供应链攻击的响应措施;macOS 用户须在 6 月 12 日前更新 OpenAI 应用
05-12 NVIDIA 工程师使用 Codex NVIDIA 团队用 Codex + GPT-5.5 构建生产系统和研究实验
05-12 AutoScout24 使用 Codex AutoScout24 用 Codex 和 ChatGPT 加速开发
05-12 Parameter Golf 赛事总结 1000+ 参与者、2000+ 提交,探索 AI 辅助 ML 研究
05-11 ChatGPT Q1 2026 采用趋势 35 岁以上用户增长最快,性别使用更均衡,主流采用加速
05-11 DeployCo 企业部署公司成立 OpenAI 成立 DeployCo,帮助企业将前沿 AI 落地生产
05-11 企业如何规模化 AI 从早期实验到复合影响的企业 AI 扩展指南

OpenAI Codex Changelog(来源:openai-codex-changelog)

日期 标题 摘要
05-21 Appshots, goal mode 等 macOS Codex 应用新增 Appshots:双击 Command 键可将当前应用窗口截图发送给 Codex
05-21 Codex CLI 0.133.0 Goals 默认启用,跨活跃轮次跟踪进度
05-20 Codex CLI 0.132.0 Python SDK 支持一等公民认证(API key、ChatGPT 浏览器/设备码登录等)
05-18 Codex CLI 0.131.0 TUI 更丰富的会话控制:服务层级命令、混合 token 用量、权限模式等
05-14 Codex 移动端支持 ChatGPT 移动端可连接 Mac Codex 应用,远程操控编程任务

Anthropic(来源:x-anthropic、claude-code-releases)

日期 标题 摘要
05-22 Claude Code v2.1.149 /usage 新增按类别明细(skills、subagents、plugins、MCP 服务器成本)
05-22 Claude Code v2.1.148 修复 Bash 工具对所有命令返回 exit code 127 的回归 bug
05-21 Claude Code v2.1.147 固定的后台会话(Ctrl+T)保持活跃、支持就地重启更新
05-21 Claude Code v2.1.146 /simplify 重命名为 /code-review,支持可选 effort 级别
05-19 Claude Code v2.1.145 新增 claude agents --json 输出 JSON 格式活跃会话列表
05-19 AI 伦理对话 与学者、哲学家、神职人员和伦理学家就 AI 展开系列对话
05-18 收购 Stainless Anthropic 收购 Stainless(SDK 和 MCP 服务器平台)
05-14 美中 AI 竞争论文 发布关于美中 AI 竞争的观点论文,认为美国及民主盟友目前保持前沿 AI 领先
05-14 盖茨基金会合作 与盖茨基金会合作,承诺 2 亿美元用于全球健康、生命科学、教育等领域
05-11 Claude's Constitution 有声书 Claude 的宪法文档现已有声书版本,由作者 Amanda Askell 和 Joe Carlsmith 朗读

xAI(来源:xai-x)

日期 标题 摘要
05-21 Grok 接入 OpenCode Grok/X Premium 订阅可用于 OpenCode,调用 Grok Build 模型
05-19 Grok 接入 OpenClaw Grok/X Premium 订阅可用于 OpenClaw,支持对话、生成图片/视频、搜索 X 帖子
05-18 RT NVIDIA Vera CPU 转发 NVIDIA 关于 SpaceX 试用 Vera CPU 的推文
05-15 Grok 接入 NousResearch Hermes Agent Grok 订阅现可用于 Hermes Agent
05-14 Grok Build 测试版发布 Grok Build:agentic CLI 编程工具,面向 SuperGrok Heavy 用户早期测试

DeepSeek(来源:deepseek-x)

日期 标题 摘要
05-22 DeepSeek-V4-Pro 折扣永久化 DeepSeek-V4-Pro 折扣转为永久优惠(此前延长至 5 月 31 日)

二、Benchmark 快照与变化

1. LM Arena(Overall)— 2026-05-19 采集

本期无变动记录(当前快照如下)

排名 模型 分数
1 claude-opus-4-6-thinking 1502.0
2 claude-opus-4-7-thinking 1500.3
3 claude-opus-4-6 1498.1
4 claude-opus-4-7 1492.4
5 muse-spark 1489.5
6 gemini-3.1-pro-preview 1488.2
7 gemini-3-pro 1485.8
8 gpt-5.5-high 1481.3
9 gemini-3.5-flash 1480.0
10 gpt-5.4-high 1479.6

Anthropic Claude 系列包揽前四;Gemini 3.5 Flash 首次进入 Top 10。


2. SWE-bench Verified — 快照截止 2025-12-15

当前 Top 3

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变化

模型 变化类型 旧排名→新排名 旧分数→新分数
EntroPO + R2E + Qwen3-Coder-30B 大幅上升 103 → 76 52.2 → 60.4 (+8.2)
devlo 大幅下降 44 → 83/94 70.2 → 54.2~58.2
Nemotron-CORTEXA 下降 50 → 82 68.2 → 58.2 (-10.0)
Warp 下降 11 → 36 75.6 → 71.0 (-4.6)
EPAM AI/Run + GPT4o 微降 156 → 162 27.0 → 24.0
Solver (2024-09-12) 微降 120 → 126 45.4 → 43.6

注意:devlo 出现两条变化记录(排名分别降至 83 和 94),可能为多次提交或撤回;Warp 从 Top 11 跌至 36 位。


3. SWE-bench Pro Public — 2026-05-23 采集

本期无变动记录(当前快照如下)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.9
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.8
10 gpt-5.2-codex 41.0

gpt-5.4 以 59.1 分领跑;带 * 号为有争议/待确认提交。


4. Terminal-Bench 2.0 — 2026-05-15 采集

当前 Top 3

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期变化

模型 变化类型 旧排名→新排名 旧分数→新分数
LemonHarness / Multiple 大幅上升 10 → 4 79.9 → 84.5 (+4.6)
little-coder / Qwen3.6-35B-A3B 小幅上升 122 → 117 23.0 → 24.6
Warp / Multiple 下降 42 → 48/66 61.2 → 50.1~59.1

LemonHarness 从第 10 跃升至第 4;Warp 在多个 benchmark 均出现明显下滑。


三、来源状态

来源类型 状态
新闻来源 全部正常采集,无失败
Benchmark 快照 4 个榜单全部正常采集
变化追踪 SWE-bench Verified 和 Terminal-Bench 2.0 有变动;LM Arena 和 SWE-bench Pro Public 本期无变动

Sources