AI 日报 2026-05-20 08:36

核心速览

【Google I/O 2026】Gemini 3.5 发布，开启"Agentic Gemini 时代" Google 在 I/O 2026 大会上发布 Gemini 3.5 模型，定位为"前沿智能+行动力"，并宣布 AI Mode 正在改变美国用户的搜索方式。同步更新 Google Workspace AI 功能和 AI 订阅计划，价格不变、功能增强。这是 Google 全面押注 Agent 化 AI 的标志性事件。原文链接

【OpenAI】成立 DeployCo，专攻企业 AI 部署 OpenAI 成立全新企业部署公司 DeployCo，帮助组织将前沿 AI 带入生产环境并转化为可衡量的商业价值。此举标志着 OpenAI 从模型提供方向企业基础设施服务商的战略延伸。原文链接

【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless——一家 SDK 和 MCP 服务器平台公司，此前 Anthropic 所有 SDK 均基于该平台构建。收购将进一步加强 Anthropic 的开发者工具链和 API 生态建设。原文链接

【OpenAI】ChatGPT 开始测试广告 OpenAI 宣布在 ChatGPT 中测试广告，以支持免费用户访问。广告将明确标注、不影响回答独立性，并提供强隐私保护和用户控制选项。这是 AI 商业模式的重大转向。原文链接

【xAI】Grok Build CLI 测试版上线 xAI 发布 Grok Build 早期 Beta——面向 SuperGrok Heavy 用户的 agentic CLI 工具，支持编码、应用构建和工作流自动化。xAI 正式进入 AI 编程代理赛道，与 Codex、Claude Code 展开竞争。原文链接

重大 Benchmark 变化

SWE-bench Verified (Verified)

模型	排名变化	分数变化	变动幅度
devlo	44 → 83/94	70.2 → 54.2	排名暴跌 39~50 位，分数 -22.8%
Nemotron-CORTEXA	50 → 82	68.2 → 58.2	排名下降 32 位，分数 -14.7%
Warp	11 → 36	75.6 → 71.0	排名下降 25 位，分数 -6.1%
EntroPO + R2E + Qwen3-Coder-30B	103 → 76	52.2 → 60.4	排名上升 27 位，分数 +15.7%
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0	分数 -11.1%

Terminal-Bench 2.0

模型	排名变化	分数变化	变动幅度
Warp / Multiple	42 → 66	61.2 → 50.1	排名下降 24 位，分数 -18.1%
LemonHarness / Multiple	10 → 4	79.9 → 84.5	排名上升 6 位，分数 +5.8%，冲入 Top 5
little-coder / Qwen3.6-35B-A3B	122 → 117	23.0 → 24.6	排名上升 5 位，分数 +7.0%

值得关注：Warp 在 SWE-bench 和 Terminal-Bench 两大榜单同时出现显著下滑；devlo 在 SWE-bench 上跌幅最为剧烈。EntroPO + Qwen3-Coder 组合异军突起，排名大幅跃升。

快速预览

Google I/O 2026 召开：发布 Gemini 3.5、AI Search 新时代及 Workspace 更新等重磅内容
Anthropic 收购 Stainless：SDK 与 MCP server 平台纳入 Anthropic 生态
OpenAI 内容溯源：推出 Content Credentials、SynthID 与验证工具，强化 AI 生成媒体可信度
LM Arena 榜首：claude-opus-4-6-thinking (1501.5) 位居第一，Claude 系占据 Top 4
SWE-bench Verified 显著变动：Warp 从第 11 降至第 36，devlo 从第 44 降至第 83/94

一、新闻

Google（blog.google）

日期	标题	摘要
05-19	I/O 2026	Google I/O 2026 专题汇总
05-19	Welcome to the agentic Gemini era	Sundar Pichai 主题演讲，宣告进入 agentic Gemini 时代
05-19	Gemini 3.5: frontier intelligence with action	发布 Gemini 3.5，强调前沿智能与行动能力
05-19	A new era for AI Search	AI 搜索新时代发布
05-19	AI Mode is changing search in the U.S.	AI Mode 在美国的使用趋势洞察
05-19	New ways to create in Google Workspace	Workspace AI 创作与生产力更新
05-19	Google AI subscriptions 更新	订阅计划加量不加价
05-11	AI-powered Google Finance 扩展至欧洲	AI 驱动的 Google Finance 进入欧洲市场
05-08	创意大师为小企业做广告	AI 辅助创意广告实验
05-06	Search 中的 5 个园艺提示	搜索体验场景化示例

Anthropic

日期	来源	标题	摘要
05-19	X	与学者、哲学家、神职人员对话	就 AI 提出的问题展开系列对话，关注品格形成
05-18	X	收购 Stainless	收购 SDK/MCP server 平台公司
05-14	X	美中 AI 竞争论文	发布关于美中 AI 竞争的观点论文
05-14	X	与盖茨基金会合作	承诺 2 亿美元用于全球健康、生命科学、教育等
05-11	X	Claude's Constitution 有声书	由 Amanda Askell 和 Joe Carlsmith 朗读
05-07	X	捐赠 Petri 工具	将开源对齐工具 Petri 捐赠给 Meridian Labs
05-07	X	Bug Bounty 公开	安全漏洞赏金计划在 HackerOne 公开上线

OpenAI

日期	标题	摘要
05-19	Advancing content provenance	Content Credentials + SynthID + 验证工具，强化 AI 内容溯源
05-18	Dell 合作：Codex 进军企业混合部署	与 Dell 合作，Codex 支持本地/混合环境部署
05-16	马耳他合作：ChatGPT Plus 普惠	向马耳他全体公民提供 ChatGPT Plus 及培训
05-15	ChatGPT 个人理财功能	Pro 用户（美国）可连接金融账户获取 AI 理财建议
05-15	Databricks 引入 GPT-5.5	Databricks 使用 GPT-5.5 驱动企业 Agent 工作流
05-14	Codex 移动端	ChatGPT 移动端支持 Codex 操作
05-14	敏感对话上下文识别	ChatGPT 安全更新：提升敏感对话的上下文感知
05-13	Codex Windows 沙箱	为 Codex 构建安全 Windows 沙箱环境
05-13	TanStack 供应链攻击响应	回应 npm 供应链攻击，macOS 用户须 6 月 12 日前更新
05-12	NVIDIA 工程师使用 Codex	NVIDIA 团队用 Codex + GPT-5.5 交付生产系统
05-12	AutoScout24 AI 工程	AutoScout24 用 Codex/ChatGPT 加速开发
05-11	DeployCo 发布	成立新企业部署公司 DeployCo
05-11	ChatGPT Q1 2026 采用趋势	35 岁以上用户增长最快，性别比例更均衡
05-08	Codex 安全运行实践	沙箱、审批、网络策略及 agent-native 可观测性
05-07	GPT-5.5 + Cyber 可信访问	Trusted Access for Cyber 扩展至 GPT-5.5
05-07	实时语音新模型	API 新增推理、翻译、转录实时语音模型
05-07	Trusted Contact	检测到严重自残风险时通知可信联系人
05-07	ChatGPT 广告测试	开始测试广告以支持免费用户访问
05-06	ChatGPT 隐私保护	介绍隐私保护机制与训练数据控制

OpenAI Codex Changelog

日期	版本/标题	摘要
05-18	Codex CLI 0.131.0	TUI 增强：服务层命令、混合 token 用量、权限模式等
05-14	移动端支持	ChatGPT 移动端可连接 Mac 运行 Codex
05-11	Auto-review 文档扩展	新增 Auto-review 专题页
05-08	Codex app 26.506	应用内 hook 信任审查流程
05-08	Codex CLI 0.130.0	插件详情显示捆绑 hooks，分享功能增强

xAI

日期	标题	摘要
05-19	Grok + OpenClaw	Grok/X Premium 订阅可在 OpenClaw 中使用
05-15	Grok + Hermes Agent	Grok 订阅可在 NousResearch Hermes Agent 中使用
05-14	Grok Build beta	Agentic CLI（编码/构建/自动化）面向 SuperGrok Heavy 开放
05-08	Grok 连接器	支持邮件、Slides、日历、Notion 连接器
05-07	图片生成 Quality Mode API	已生成超 3 亿张图片，更强真实感与文字渲染

Claude Code Releases

日期	版本	主要更新
05-19	v2.1.145	`claude agents --json` 输出活跃会话列表
05-19	v2.1.144	`/resume` 支持后台会话恢复
05-15	v2.1.143	插件依赖强制执行
05-14	v2.1.142	新增 `claude agents` 多项配置参数
05-13	v2.1.141	Hook JSON 输出新增 `terminalSequence` 字段

二、Benchmark 快照与变化

LM Arena（Overall）

来源：lmarena.ai | 快照日期：2026-05-14 | 本期无变动

排名	模型	分数
1	claude-opus-4-6-thinking	1501.5
2	claude-opus-4-7-thinking	1500.4
3	claude-opus-4-6	1497.7
4	claude-opus-4-7	1492.1
5	muse-spark	1490.1

SWE-bench Verified

来源：github.com/OpenAutoCoder/live-swe-agent 等 | Top 3 无变动，中下游有显著变化

当前 Top 3：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变化：

模型	排名变化	分数变化
EntroPO + R2E + Qwen3-Coder-30B-A3B	103 → 76	52.2 → 60.4 ▲
Warp	11 → 36	75.6 → 71.0 ▼
devlo	44 → 83/94	70.2 → 58.2/54.2 ▼
Nemotron-CORTEXA	50 → 82	68.2 → 58.2 ▼
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0 ▼
Solver (2024-09-12)	120 → 126	45.4 → 43.6 ▼

注意：部分模型出现多个变化条目，数据可能存在多次快照差异。

SWE-bench Pro (Public)

来源：labs.scale.com | 快照日期：2026-05-20 | 本期无变动

排名	模型	分数
1	gpt-5.4 (xHigh)	59.1
2	Muse Spark	55.0
3	claude-opus-4-6 (thinking)	51.9
4	gemini-3.1-pro (thinking)	46.1
5	claude-opus-4-5-20251101	45.9

Terminal-Bench 2.0

来源：tbench.ai | 有变化

当前 Top 3：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期变化：

模型	排名变化	分数变化
LemonHarness / Multiple	10 → 4	79.9 → 84.5 ▲
little-coder / Qwen3.6-35B-A3B	122 → 117	23.0 → 24.6 ▲
Warp / Multiple	42 → 48/66	61.2 → 59.1/50.1 ▼

三、采集状态

所有新闻来源和 benchmark 来源均采集成功，无失败记录。

来源 · 65 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×7 blog.google ×10 @xai ×6