AI 日报 2026-05-23 08:48
2026-05-23 08:48 CST
核心速览
1. 【Google I/O 2026】Gemini 3.5 发布,"Agentic Gemini 时代"正式开启
Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,主打"前沿智能+行动力",同步推出 AI 搜索新模式、Workspace AI 功能升级及订阅服务更新,共计宣布 100+ 项更新。这是 Google 全面押注 Agent 化 AI 的标志性动作。 → I/O 汇总 | → Gemini 3.5
2. 【OpenAI】AI 模型推翻离散几何中 80 年未解猜想
OpenAI 一个模型解决了"单位距离问题"(Unit Distance Problem),推翻了该领域存在 80 年的核心猜想。这是 AI 驱动数学研究的里程碑事件,标志着模型在形式推理领域取得突破性进展。 → 原文
3. 【Anthropic】收购 SDK 平台公司 Stainless
Anthropic 宣布收购 Stainless API——该平台自 Anthropic API 早期起便支撑其全部 SDK。此举将增强 Anthropic 的开发者工具链控制力,加速 Agent 生态基础设施建设。 → 原文
4. 【OpenAI】Gartner 评为企业编码 Agent 领导者 + Codex 生态全面铺开
OpenAI 在 2026 Gartner 企业 AI 编码 Agent 魔力象限中获评领导者,Codex 获认可。同期 Codex 移动端上线、与 Dell 达成混合部署合作、NVIDIA/Ramp/Virgin Atlantic 等企业落地案例密集发布。 → Gartner | → Dell 合作
5. 【xAI】Grok Build CLI 测试版上线,Grok 订阅打通 OpenCode/OpenClaw
xAI 发布 Grok Build 测试版(面向 SuperGrok Heavy 用户),并宣布 Grok/X Premium 订阅可在 OpenCode 和 OpenClaw 中使用。xAI 正快速构建以 Grok 为核心的开发者工具生态。 → Grok Build | → OpenCode
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #83~94 | 70.2 → 54.2~58.2 (↓17~22%) | 大幅下滑,疑似提交被修正或环境问题 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 (↑15.7%) | 开源 30B 模型 agent 方案显著提升 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 (↓14.7%) | NVIDIA 方案分数大幅回落 |
| Warp | #11 → #36 | 75.6 → 71.0 (↓6.1%) | 排名滑出 Top 10 |
Terminal-bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness | #10 → #4 | 79.9 → 84.5 (↑5.8%) | 闯入 Top 5,终端任务能力显著增强 |
| Warp | #42 → #66 | 61.2 → 50.1 (↓18.1%) | 两个 benchmark 同步下滑,需关注 |
快速预览
- Google I/O 2026 召开:发布 Gemini 3.5,进入「Agentic Gemini 时代」,同时更新 AI 搜索、Workspace、订阅方案等全线产品
- OpenAI 被 Gartner 评为企业 AI 编程代理领导者;同时与 Dell 合作将 Codex 推向混合/本地部署,还推出企业部署公司 DeployCo
- Anthropic 收购 Stainless(SDK 平台),并联合盖茨基金会投入 2 亿美元用于全球健康、教育等领域
- xAI 发布 Grok Build(编程 CLI 测试版),Grok 订阅现可接入 OpenCode 和 OpenClaw
- LM Arena Top 3:claude-opus-4-6-thinking (1502)、claude-opus-4-7-thinking (1500)、claude-opus-4-6 (1498);Anthropic Claude 系列包揽前四
一、新闻
Google(来源:google-blog-ai)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 | Alphabet CEO Sundar Pichai 在 I/O 2026 对谈舞台的对话回顾 |
| 05-20 | I/O 2026 100 项公告汇总 | 全面汇总 Google I/O 2026 所有公告 |
| 05-20 | Google Beam 新实验:多人会议 | Google Beam 将支持多人小组会议 |
| 05-20 | 密苏里社区投资 | 帮助密苏里州建设下一代劳动力并投资能源项目 |
| 05-19 | Gemini 3.5 发布 | Gemini 3.5:前沿智能 + 行动能力 |
| 05-19 | Agentic Gemini 时代 | Sundar Pichai 宣布 I/O 2026 进入 Agentic Gemini 时代 |
| 05-19 | AI 搜索新时代 | 搜索引擎与 AI 最佳结合的新一代 AI 搜索 |
| 05-19 | AI Mode 使用洞察 | AI Mode 在美国如何改变人们的搜索方式 |
| 05-19 | Google Workspace 更新 | 新的 AI 驱动创作与工作效率功能 |
| 05-19 | Google AI 订阅方案更新 | I/O 2026 新订阅权益,价格不变、功能更强 |
| 05-11 | AI 驱动 Google Finance 扩展至欧洲 | AI 驱动的 Google Finance 体验扩展至欧洲 |
OpenAI(来源:openai-news)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | Gartner 企业编程代理领导者 | OpenAI 获评 2026 Gartner Magic Quadrant 企业 AI 编程代理领导者 |
| 05-22 | Virgin Atlantic 使用 Codex 案例 | Virgin Atlantic 用 Codex 重构移动应用,实现近全覆盖单元测试和零 P1 缺陷 |
| 05-21 | AdventHealth 与 OpenAI 合作 | AdventHealth 使用 ChatGPT for Healthcare 简化工作流、减轻管理负担 |
| 05-20 | AI 模型推翻离散几何核心猜想 | 里程碑:OpenAI 模型解决了 80 年历史的单位距离问题,推翻核心猜想 |
| 05-20 | 教育全球化新阶段 | 推进「Education for Countries」,扩大全球学校 AI 应用 |
| 05-20 | Ramp 使用 Codex 加速代码审查 | Ramp 工程师用 Codex + GPT-5.5,代码审查反馈从数小时缩短至数分钟 |
| 05-19 | OpenAI for Singapore | 多年期 AI 合作伙伴关系,扩展部署和本地人才培养 |
| 05-19 | 内容来源溯源进展 | 推进 Content Credentials、SynthID 和验证工具 |
| 05-18 | 与 Dell 合作:Codex 进入混合/本地环境 | Codex 将支持企业混合和本地安全部署 |
| 05-16 | 马耳他 ChatGPT Plus 合作 | 为马耳他所有公民提供 ChatGPT Plus 和培训 |
| 05-15 | Databricks 集成 GPT-5.5 | Databricks 将 GPT-5.5 用于企业代理工作流,OfficeQA Pro 新 SOTA |
| 05-15 | ChatGPT 个人理财体验 | Pro 用户(美国)可连接金融账户获取 AI 理财洞察 |
| 05-14 | Sea 与 Codex 的 Agentic 开发 | Sea CPO 阐述为何在亚洲工程团队全面部署 Codex |
| 05-14 | Codex 移动端工作 | ChatGPT 移动端可连接 Mac 上的 Codex,随时随地编程 |
| 05-14 | ChatGPT 敏感对话上下文识别 | 新安全更新改善敏感对话的上下文感知 |
| 05-13 | Codex Windows 沙箱构建 | 详解如何构建安全 Windows 沙箱以支持 Codex |
| 05-13 | TanStack npm 供应链攻击响应 | 详解对 TanStack 供应链攻击的响应措施;macOS 用户须在 6 月 12 日前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师使用 Codex | NVIDIA 团队用 Codex + GPT-5.5 构建生产系统和研究实验 |
| 05-12 | AutoScout24 使用 Codex | AutoScout24 用 Codex 和 ChatGPT 加速开发 |
| 05-12 | Parameter Golf 赛事总结 | 1000+ 参与者、2000+ 提交,探索 AI 辅助 ML 研究 |
| 05-11 | ChatGPT Q1 2026 采用趋势 | 35 岁以上用户增长最快,性别使用更均衡,主流采用加速 |
| 05-11 | DeployCo 企业部署公司成立 | OpenAI 成立 DeployCo,帮助企业将前沿 AI 落地生产 |
| 05-11 | 企业如何规模化 AI | 从早期实验到复合影响的企业 AI 扩展指南 |
OpenAI Codex Changelog(来源:openai-codex-changelog)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-21 | Appshots, goal mode 等 | macOS Codex 应用新增 Appshots:双击 Command 键可将当前应用窗口截图发送给 Codex |
| 05-21 | Codex CLI 0.133.0 | Goals 默认启用,跨活跃轮次跟踪进度 |
| 05-20 | Codex CLI 0.132.0 | Python SDK 支持一等公民认证(API key、ChatGPT 浏览器/设备码登录等) |
| 05-18 | Codex CLI 0.131.0 | TUI 更丰富的会话控制:服务层级命令、混合 token 用量、权限模式等 |
| 05-14 | Codex 移动端支持 | ChatGPT 移动端可连接 Mac Codex 应用,远程操控编程任务 |
Anthropic(来源:x-anthropic、claude-code-releases)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | Claude Code v2.1.149 | /usage 新增按类别明细(skills、subagents、plugins、MCP 服务器成本) |
| 05-22 | Claude Code v2.1.148 | 修复 Bash 工具对所有命令返回 exit code 127 的回归 bug |
| 05-21 | Claude Code v2.1.147 | 固定的后台会话(Ctrl+T)保持活跃、支持就地重启更新 |
| 05-21 | Claude Code v2.1.146 | /simplify 重命名为 /code-review,支持可选 effort 级别 |
| 05-19 | Claude Code v2.1.145 | 新增 claude agents --json 输出 JSON 格式活跃会话列表 |
| 05-19 | AI 伦理对话 | 与学者、哲学家、神职人员和伦理学家就 AI 展开系列对话 |
| 05-18 | 收购 Stainless | Anthropic 收购 Stainless(SDK 和 MCP 服务器平台) |
| 05-14 | 美中 AI 竞争论文 | 发布关于美中 AI 竞争的观点论文,认为美国及民主盟友目前保持前沿 AI 领先 |
| 05-14 | 盖茨基金会合作 | 与盖茨基金会合作,承诺 2 亿美元用于全球健康、生命科学、教育等领域 |
| 05-11 | Claude's Constitution 有声书 | Claude 的宪法文档现已有声书版本,由作者 Amanda Askell 和 Joe Carlsmith 朗读 |
xAI(来源:xai-x)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-21 | Grok 接入 OpenCode | Grok/X Premium 订阅可用于 OpenCode,调用 Grok Build 模型 |
| 05-19 | Grok 接入 OpenClaw | Grok/X Premium 订阅可用于 OpenClaw,支持对话、生成图片/视频、搜索 X 帖子 |
| 05-18 | RT NVIDIA Vera CPU | 转发 NVIDIA 关于 SpaceX 试用 Vera CPU 的推文 |
| 05-15 | Grok 接入 NousResearch Hermes Agent | Grok 订阅现可用于 Hermes Agent |
| 05-14 | Grok Build 测试版发布 | Grok Build:agentic CLI 编程工具,面向 SuperGrok Heavy 用户早期测试 |
DeepSeek(来源:deepseek-x)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣永久化 | DeepSeek-V4-Pro 折扣转为永久优惠(此前延长至 5 月 31 日) |
二、Benchmark 快照与变化
1. LM Arena(Overall)— 2026-05-19 采集
本期无变动记录(当前快照如下)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.0 |
| 2 | claude-opus-4-7-thinking | 1500.3 |
| 3 | claude-opus-4-6 | 1498.1 |
| 4 | claude-opus-4-7 | 1492.4 |
| 5 | muse-spark | 1489.5 |
| 6 | gemini-3.1-pro-preview | 1488.2 |
| 7 | gemini-3-pro | 1485.8 |
| 8 | gpt-5.5-high | 1481.3 |
| 9 | gemini-3.5-flash | 1480.0 |
| 10 | gpt-5.4-high | 1479.6 |
Anthropic Claude 系列包揽前四;Gemini 3.5 Flash 首次进入 Top 10。
2. SWE-bench Verified — 快照截止 2025-12-15
当前 Top 3
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变化
| 模型 | 变化类型 | 旧排名→新排名 | 旧分数→新分数 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 大幅上升 | 103 → 76 | 52.2 → 60.4 (+8.2) |
| devlo | 大幅下降 | 44 → 83/94 | 70.2 → 54.2~58.2 |
| Nemotron-CORTEXA | 下降 | 50 → 82 | 68.2 → 58.2 (-10.0) |
| Warp | 下降 | 11 → 36 | 75.6 → 71.0 (-4.6) |
| EPAM AI/Run + GPT4o | 微降 | 156 → 162 | 27.0 → 24.0 |
| Solver (2024-09-12) | 微降 | 120 → 126 | 45.4 → 43.6 |
注意:devlo 出现两条变化记录(排名分别降至 83 和 94),可能为多次提交或撤回;Warp 从 Top 11 跌至 36 位。
3. SWE-bench Pro Public — 2026-05-23 采集
本期无变动记录(当前快照如下)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.8 |
| 10 | gpt-5.2-codex | 41.0 |
gpt-5.4 以 59.1 分领跑;带 * 号为有争议/待确认提交。
4. Terminal-Bench 2.0 — 2026-05-15 采集
当前 Top 3
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变化
| 模型 | 变化类型 | 旧排名→新排名 | 旧分数→新分数 |
|---|---|---|---|
| LemonHarness / Multiple | 大幅上升 | 10 → 4 | 79.9 → 84.5 (+4.6) |
| little-coder / Qwen3.6-35B-A3B | 小幅上升 | 122 → 117 | 23.0 → 24.6 |
| Warp / Multiple | 下降 | 42 → 48/66 | 61.2 → 50.1~59.1 |
LemonHarness 从第 10 跃升至第 4;Warp 在多个 benchmark 均出现明显下滑。
三、来源状态
| 来源类型 | 状态 |
|---|---|
| 新闻来源 | 全部正常采集,无失败 |
| Benchmark 快照 | 4 个榜单全部正常采集 |
| 变化追踪 | SWE-bench Verified 和 Terminal-Bench 2.0 有变动;LM Arena 和 SWE-bench Pro Public 本期无变动 |