AI 日报 2026-05-20 08:36
2026-05-20 08:36 CST
核心速览
【Google I/O 2026】Gemini 3.5 发布,开启"Agentic Gemini 时代" Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,定位为"前沿智能+行动力",并宣布 AI Mode 正在改变美国用户的搜索方式。同步更新 Google Workspace AI 功能和 AI 订阅计划,价格不变、功能增强。这是 Google 全面押注 Agent 化 AI 的标志性事件。 原文链接
【OpenAI】成立 DeployCo,专攻企业 AI 部署 OpenAI 成立全新企业部署公司 DeployCo,帮助组织将前沿 AI 带入生产环境并转化为可衡量的商业价值。此举标志着 OpenAI 从模型提供方向企业基础设施服务商的战略延伸。 原文链接
【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless——一家 SDK 和 MCP 服务器平台公司,此前 Anthropic 所有 SDK 均基于该平台构建。收购将进一步加强 Anthropic 的开发者工具链和 API 生态建设。 原文链接
【OpenAI】ChatGPT 开始测试广告 OpenAI 宣布在 ChatGPT 中测试广告,以支持免费用户访问。广告将明确标注、不影响回答独立性,并提供强隐私保护和用户控制选项。这是 AI 商业模式的重大转向。 原文链接
【xAI】Grok Build CLI 测试版上线 xAI 发布 Grok Build 早期 Beta——面向 SuperGrok Heavy 用户的 agentic CLI 工具,支持编码、应用构建和工作流自动化。xAI 正式进入 AI 编程代理赛道,与 Codex、Claude Code 展开竞争。 原文链接
重大 Benchmark 变化
SWE-bench Verified (Verified)
| 模型 | 排名变化 | 分数变化 | 变动幅度 |
|---|---|---|---|
| devlo | 44 → 83/94 | 70.2 → 54.2 | 排名暴跌 39~50 位,分数 -22.8% |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 | 排名下降 32 位,分数 -14.7% |
| Warp | 11 → 36 | 75.6 → 71.0 | 排名下降 25 位,分数 -6.1% |
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 | 52.2 → 60.4 | 排名上升 27 位,分数 +15.7% |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 | 分数 -11.1% |
Terminal-Bench 2.0
| 模型 | 排名变化 | 分数变化 | 变动幅度 |
|---|---|---|---|
| Warp / Multiple | 42 → 66 | 61.2 → 50.1 | 排名下降 24 位,分数 -18.1% |
| LemonHarness / Multiple | 10 → 4 | 79.9 → 84.5 | 排名上升 6 位,分数 +5.8%,冲入 Top 5 |
| little-coder / Qwen3.6-35B-A3B | 122 → 117 | 23.0 → 24.6 | 排名上升 5 位,分数 +7.0% |
值得关注:Warp 在 SWE-bench 和 Terminal-Bench 两大榜单同时出现显著下滑;devlo 在 SWE-bench 上跌幅最为剧烈。EntroPO + Qwen3-Coder 组合异军突起,排名大幅跃升。
快速预览
- Google I/O 2026 召开:发布 Gemini 3.5、AI Search 新时代及 Workspace 更新等重磅内容
- Anthropic 收购 Stainless:SDK 与 MCP server 平台纳入 Anthropic 生态
- OpenAI 内容溯源:推出 Content Credentials、SynthID 与验证工具,强化 AI 生成媒体可信度
- LM Arena 榜首:claude-opus-4-6-thinking (1501.5) 位居第一,Claude 系占据 Top 4
- SWE-bench Verified 显著变动:Warp 从第 11 降至第 36,devlo 从第 44 降至第 83/94
一、新闻
Google(blog.google)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-19 | I/O 2026 | Google I/O 2026 专题汇总 |
| 05-19 | Welcome to the agentic Gemini era | Sundar Pichai 主题演讲,宣告进入 agentic Gemini 时代 |
| 05-19 | Gemini 3.5: frontier intelligence with action | 发布 Gemini 3.5,强调前沿智能与行动能力 |
| 05-19 | A new era for AI Search | AI 搜索新时代发布 |
| 05-19 | AI Mode is changing search in the U.S. | AI Mode 在美国的使用趋势洞察 |
| 05-19 | New ways to create in Google Workspace | Workspace AI 创作与生产力更新 |
| 05-19 | Google AI subscriptions 更新 | 订阅计划加量不加价 |
| 05-11 | AI-powered Google Finance 扩展至欧洲 | AI 驱动的 Google Finance 进入欧洲市场 |
| 05-08 | 创意大师为小企业做广告 | AI 辅助创意广告实验 |
| 05-06 | Search 中的 5 个园艺提示 | 搜索体验场景化示例 |
Anthropic
| 日期 | 来源 | 标题 | 摘要 |
|---|---|---|---|
| 05-19 | X | 与学者、哲学家、神职人员对话 | 就 AI 提出的问题展开系列对话,关注品格形成 |
| 05-18 | X | 收购 Stainless | 收购 SDK/MCP server 平台公司 |
| 05-14 | X | 美中 AI 竞争论文 | 发布关于美中 AI 竞争的观点论文 |
| 05-14 | X | 与盖茨基金会合作 | 承诺 2 亿美元用于全球健康、生命科学、教育等 |
| 05-11 | X | Claude's Constitution 有声书 | 由 Amanda Askell 和 Joe Carlsmith 朗读 |
| 05-07 | X | 捐赠 Petri 工具 | 将开源对齐工具 Petri 捐赠给 Meridian Labs |
| 05-07 | X | Bug Bounty 公开 | 安全漏洞赏金计划在 HackerOne 公开上线 |
OpenAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-19 | Advancing content provenance | Content Credentials + SynthID + 验证工具,强化 AI 内容溯源 |
| 05-18 | Dell 合作:Codex 进军企业混合部署 | 与 Dell 合作,Codex 支持本地/混合环境部署 |
| 05-16 | 马耳他合作:ChatGPT Plus 普惠 | 向马耳他全体公民提供 ChatGPT Plus 及培训 |
| 05-15 | ChatGPT 个人理财功能 | Pro 用户(美国)可连接金融账户获取 AI 理财建议 |
| 05-15 | Databricks 引入 GPT-5.5 | Databricks 使用 GPT-5.5 驱动企业 Agent 工作流 |
| 05-14 | Codex 移动端 | ChatGPT 移动端支持 Codex 操作 |
| 05-14 | 敏感对话上下文识别 | ChatGPT 安全更新:提升敏感对话的上下文感知 |
| 05-13 | Codex Windows 沙箱 | 为 Codex 构建安全 Windows 沙箱环境 |
| 05-13 | TanStack 供应链攻击响应 | 回应 npm 供应链攻击,macOS 用户须 6 月 12 日前更新 |
| 05-12 | NVIDIA 工程师使用 Codex | NVIDIA 团队用 Codex + GPT-5.5 交付生产系统 |
| 05-12 | AutoScout24 AI 工程 | AutoScout24 用 Codex/ChatGPT 加速开发 |
| 05-11 | DeployCo 发布 | 成立新企业部署公司 DeployCo |
| 05-11 | ChatGPT Q1 2026 采用趋势 | 35 岁以上用户增长最快,性别比例更均衡 |
| 05-08 | Codex 安全运行实践 | 沙箱、审批、网络策略及 agent-native 可观测性 |
| 05-07 | GPT-5.5 + Cyber 可信访问 | Trusted Access for Cyber 扩展至 GPT-5.5 |
| 05-07 | 实时语音新模型 | API 新增推理、翻译、转录实时语音模型 |
| 05-07 | Trusted Contact | 检测到严重自残风险时通知可信联系人 |
| 05-07 | ChatGPT 广告测试 | 开始测试广告以支持免费用户访问 |
| 05-06 | ChatGPT 隐私保护 | 介绍隐私保护机制与训练数据控制 |
OpenAI Codex Changelog
| 日期 | 版本/标题 | 摘要 |
|---|---|---|
| 05-18 | Codex CLI 0.131.0 | TUI 增强:服务层命令、混合 token 用量、权限模式等 |
| 05-14 | 移动端支持 | ChatGPT 移动端可连接 Mac 运行 Codex |
| 05-11 | Auto-review 文档扩展 | 新增 Auto-review 专题页 |
| 05-08 | Codex app 26.506 | 应用内 hook 信任审查流程 |
| 05-08 | Codex CLI 0.130.0 | 插件详情显示捆绑 hooks,分享功能增强 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-19 | Grok + OpenClaw | Grok/X Premium 订阅可在 OpenClaw 中使用 |
| 05-15 | Grok + Hermes Agent | Grok 订阅可在 NousResearch Hermes Agent 中使用 |
| 05-14 | Grok Build beta | Agentic CLI(编码/构建/自动化)面向 SuperGrok Heavy 开放 |
| 05-08 | Grok 连接器 | 支持邮件、Slides、日历、Notion 连接器 |
| 05-07 | 图片生成 Quality Mode API | 已生成超 3 亿张图片,更强真实感与文字渲染 |
Claude Code Releases
| 日期 | 版本 | 主要更新 |
|---|---|---|
| 05-19 | v2.1.145 | claude agents --json 输出活跃会话列表 |
| 05-19 | v2.1.144 | /resume 支持后台会话恢复 |
| 05-15 | v2.1.143 | 插件依赖强制执行 |
| 05-14 | v2.1.142 | 新增 claude agents 多项配置参数 |
| 05-13 | v2.1.141 | Hook JSON 输出新增 terminalSequence 字段 |
二、Benchmark 快照与变化
LM Arena(Overall)
来源:lmarena.ai | 快照日期:2026-05-14 | 本期无变动
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.5 |
| 2 | claude-opus-4-7-thinking | 1500.4 |
| 3 | claude-opus-4-6 | 1497.7 |
| 4 | claude-opus-4-7 | 1492.1 |
| 5 | muse-spark | 1490.1 |
SWE-bench Verified
来源:github.com/OpenAutoCoder/live-swe-agent 等 | Top 3 无变动,中下游有显著变化
当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B | 103 → 76 | 52.2 → 60.4 ▲ |
| Warp | 11 → 36 | 75.6 → 71.0 ▼ |
| devlo | 44 → 83/94 | 70.2 → 58.2/54.2 ▼ |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 ▼ |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 ▼ |
| Solver (2024-09-12) | 120 → 126 | 45.4 → 43.6 ▼ |
注意:部分模型出现多个变化条目,数据可能存在多次快照差异。
SWE-bench Pro (Public)
来源:labs.scale.com | 快照日期:2026-05-20 | 本期无变动
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh) | 59.1 |
| 2 | Muse Spark | 55.0 |
| 3 | claude-opus-4-6 (thinking) | 51.9 |
| 4 | gemini-3.1-pro (thinking) | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
Terminal-Bench 2.0
来源:tbench.ai | 有变化
当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| LemonHarness / Multiple | 10 → 4 | 79.9 → 84.5 ▲ |
| little-coder / Qwen3.6-35B-A3B | 122 → 117 | 23.0 → 24.6 ▲ |
| Warp / Multiple | 42 → 48/66 | 61.2 → 59.1/50.1 ▼ |
三、采集状态
所有新闻来源和 benchmark 来源均采集成功,无失败记录。