AI 日报 2026-05-20 08:36

2026-05-20 08:36 CST

核心速览

【Google I/O 2026】Gemini 3.5 发布,开启"Agentic Gemini 时代" Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,定位为"前沿智能+行动力",并宣布 AI Mode 正在改变美国用户的搜索方式。同步更新 Google Workspace AI 功能和 AI 订阅计划,价格不变、功能增强。这是 Google 全面押注 Agent 化 AI 的标志性事件。 原文链接

【OpenAI】成立 DeployCo,专攻企业 AI 部署 OpenAI 成立全新企业部署公司 DeployCo,帮助组织将前沿 AI 带入生产环境并转化为可衡量的商业价值。此举标志着 OpenAI 从模型提供方向企业基础设施服务商的战略延伸。 原文链接

【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless——一家 SDK 和 MCP 服务器平台公司,此前 Anthropic 所有 SDK 均基于该平台构建。收购将进一步加强 Anthropic 的开发者工具链和 API 生态建设。 原文链接

【OpenAI】ChatGPT 开始测试广告 OpenAI 宣布在 ChatGPT 中测试广告,以支持免费用户访问。广告将明确标注、不影响回答独立性,并提供强隐私保护和用户控制选项。这是 AI 商业模式的重大转向。 原文链接

【xAI】Grok Build CLI 测试版上线 xAI 发布 Grok Build 早期 Beta——面向 SuperGrok Heavy 用户的 agentic CLI 工具,支持编码、应用构建和工作流自动化。xAI 正式进入 AI 编程代理赛道,与 Codex、Claude Code 展开竞争。 原文链接


重大 Benchmark 变化

SWE-bench Verified (Verified)

模型 排名变化 分数变化 变动幅度
devlo 44 → 83/94 70.2 → 54.2 排名暴跌 39~50 位,分数 -22.8%
Nemotron-CORTEXA 50 → 82 68.2 → 58.2 排名下降 32 位,分数 -14.7%
Warp 11 → 36 75.6 → 71.0 排名下降 25 位,分数 -6.1%
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 52.2 → 60.4 排名上升 27 位,分数 +15.7%
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0 分数 -11.1%

Terminal-Bench 2.0

模型 排名变化 分数变化 变动幅度
Warp / Multiple 42 → 66 61.2 → 50.1 排名下降 24 位,分数 -18.1%
LemonHarness / Multiple 10 → 4 79.9 → 84.5 排名上升 6 位,分数 +5.8%,冲入 Top 5
little-coder / Qwen3.6-35B-A3B 122 → 117 23.0 → 24.6 排名上升 5 位,分数 +7.0%

值得关注:Warp 在 SWE-bench 和 Terminal-Bench 两大榜单同时出现显著下滑;devlo 在 SWE-bench 上跌幅最为剧烈。EntroPO + Qwen3-Coder 组合异军突起,排名大幅跃升。

快速预览

  • Google I/O 2026 召开:发布 Gemini 3.5、AI Search 新时代及 Workspace 更新等重磅内容
  • Anthropic 收购 Stainless:SDK 与 MCP server 平台纳入 Anthropic 生态
  • OpenAI 内容溯源:推出 Content Credentials、SynthID 与验证工具,强化 AI 生成媒体可信度
  • LM Arena 榜首:claude-opus-4-6-thinking (1501.5) 位居第一,Claude 系占据 Top 4
  • SWE-bench Verified 显著变动:Warp 从第 11 降至第 36,devlo 从第 44 降至第 83/94

一、新闻

Google(blog.google

日期 标题 摘要
05-19 I/O 2026 Google I/O 2026 专题汇总
05-19 Welcome to the agentic Gemini era Sundar Pichai 主题演讲,宣告进入 agentic Gemini 时代
05-19 Gemini 3.5: frontier intelligence with action 发布 Gemini 3.5,强调前沿智能与行动能力
05-19 A new era for AI Search AI 搜索新时代发布
05-19 AI Mode is changing search in the U.S. AI Mode 在美国的使用趋势洞察
05-19 New ways to create in Google Workspace Workspace AI 创作与生产力更新
05-19 Google AI subscriptions 更新 订阅计划加量不加价
05-11 AI-powered Google Finance 扩展至欧洲 AI 驱动的 Google Finance 进入欧洲市场
05-08 创意大师为小企业做广告 AI 辅助创意广告实验
05-06 Search 中的 5 个园艺提示 搜索体验场景化示例

Anthropic

日期 来源 标题 摘要
05-19 X 与学者、哲学家、神职人员对话 就 AI 提出的问题展开系列对话,关注品格形成
05-18 X 收购 Stainless 收购 SDK/MCP server 平台公司
05-14 X 美中 AI 竞争论文 发布关于美中 AI 竞争的观点论文
05-14 X 与盖茨基金会合作 承诺 2 亿美元用于全球健康、生命科学、教育等
05-11 X Claude's Constitution 有声书 由 Amanda Askell 和 Joe Carlsmith 朗读
05-07 X 捐赠 Petri 工具 将开源对齐工具 Petri 捐赠给 Meridian Labs
05-07 X Bug Bounty 公开 安全漏洞赏金计划在 HackerOne 公开上线

OpenAI

日期 标题 摘要
05-19 Advancing content provenance Content Credentials + SynthID + 验证工具,强化 AI 内容溯源
05-18 Dell 合作:Codex 进军企业混合部署 与 Dell 合作,Codex 支持本地/混合环境部署
05-16 马耳他合作:ChatGPT Plus 普惠 向马耳他全体公民提供 ChatGPT Plus 及培训
05-15 ChatGPT 个人理财功能 Pro 用户(美国)可连接金融账户获取 AI 理财建议
05-15 Databricks 引入 GPT-5.5 Databricks 使用 GPT-5.5 驱动企业 Agent 工作流
05-14 Codex 移动端 ChatGPT 移动端支持 Codex 操作
05-14 敏感对话上下文识别 ChatGPT 安全更新:提升敏感对话的上下文感知
05-13 Codex Windows 沙箱 为 Codex 构建安全 Windows 沙箱环境
05-13 TanStack 供应链攻击响应 回应 npm 供应链攻击,macOS 用户须 6 月 12 日前更新
05-12 NVIDIA 工程师使用 Codex NVIDIA 团队用 Codex + GPT-5.5 交付生产系统
05-12 AutoScout24 AI 工程 AutoScout24 用 Codex/ChatGPT 加速开发
05-11 DeployCo 发布 成立新企业部署公司 DeployCo
05-11 ChatGPT Q1 2026 采用趋势 35 岁以上用户增长最快,性别比例更均衡
05-08 Codex 安全运行实践 沙箱、审批、网络策略及 agent-native 可观测性
05-07 GPT-5.5 + Cyber 可信访问 Trusted Access for Cyber 扩展至 GPT-5.5
05-07 实时语音新模型 API 新增推理、翻译、转录实时语音模型
05-07 Trusted Contact 检测到严重自残风险时通知可信联系人
05-07 ChatGPT 广告测试 开始测试广告以支持免费用户访问
05-06 ChatGPT 隐私保护 介绍隐私保护机制与训练数据控制

OpenAI Codex Changelog

日期 版本/标题 摘要
05-18 Codex CLI 0.131.0 TUI 增强:服务层命令、混合 token 用量、权限模式等
05-14 移动端支持 ChatGPT 移动端可连接 Mac 运行 Codex
05-11 Auto-review 文档扩展 新增 Auto-review 专题页
05-08 Codex app 26.506 应用内 hook 信任审查流程
05-08 Codex CLI 0.130.0 插件详情显示捆绑 hooks,分享功能增强

xAI

日期 标题 摘要
05-19 Grok + OpenClaw Grok/X Premium 订阅可在 OpenClaw 中使用
05-15 Grok + Hermes Agent Grok 订阅可在 NousResearch Hermes Agent 中使用
05-14 Grok Build beta Agentic CLI(编码/构建/自动化)面向 SuperGrok Heavy 开放
05-08 Grok 连接器 支持邮件、Slides、日历、Notion 连接器
05-07 图片生成 Quality Mode API 已生成超 3 亿张图片,更强真实感与文字渲染

Claude Code Releases

日期 版本 主要更新
05-19 v2.1.145 claude agents --json 输出活跃会话列表
05-19 v2.1.144 /resume 支持后台会话恢复
05-15 v2.1.143 插件依赖强制执行
05-14 v2.1.142 新增 claude agents 多项配置参数
05-13 v2.1.141 Hook JSON 输出新增 terminalSequence 字段

二、Benchmark 快照与变化

LM Arena(Overall)

来源:lmarena.ai | 快照日期:2026-05-14 | 本期无变动

排名 模型 分数
1 claude-opus-4-6-thinking 1501.5
2 claude-opus-4-7-thinking 1500.4
3 claude-opus-4-6 1497.7
4 claude-opus-4-7 1492.1
5 muse-spark 1490.1

SWE-bench Verified

来源:github.com/OpenAutoCoder/live-swe-agent 等 | Top 3 无变动,中下游有显著变化

当前 Top 3:

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变化:

模型 排名变化 分数变化
EntroPO + R2E + Qwen3-Coder-30B-A3B 103 → 76 52.2 → 60.4
Warp 11 → 36 75.6 → 71.0
devlo 44 → 83/94 70.2 → 58.2/54.2
Nemotron-CORTEXA 50 → 82 68.2 → 58.2
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0
Solver (2024-09-12) 120 → 126 45.4 → 43.6

注意:部分模型出现多个变化条目,数据可能存在多次快照差异。

SWE-bench Pro (Public)

来源:labs.scale.com | 快照日期:2026-05-20 | 本期无变动

排名 模型 分数
1 gpt-5.4 (xHigh) 59.1
2 Muse Spark 55.0
3 claude-opus-4-6 (thinking) 51.9
4 gemini-3.1-pro (thinking) 46.1
5 claude-opus-4-5-20251101 45.9

Terminal-Bench 2.0

来源:tbench.ai | 有变化

当前 Top 3:

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期变化:

模型 排名变化 分数变化
LemonHarness / Multiple 10 → 4 79.9 → 84.5
little-coder / Qwen3.6-35B-A3B 122 → 117 23.0 → 24.6
Warp / Multiple 42 → 48/66 61.2 → 59.1/50.1 ▼

三、采集状态

所有新闻来源和 benchmark 来源均采集成功,无失败记录。

Sources