AI 日报 2026-05-17 08:35

核心速览

【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中测试广告投放以支撑免费用户访问，广告将明确标注、与回答内容隔离，并提供隐私保护和用户控制选项。标志着 OpenAI 商业模式的重要转变，从纯订阅制向广告变现延伸。原文链接

【xAI】Grok 4.3 发布，登顶多项排行榜 xAI 发布 Grok 4.3，称其为最快、最智能模型，在 Artificial Analysis 的 agentic tool calling 和指令遵循排行榜排名第一，ValsAI 企业法律与金融领域也位列榜首。支持 100 万 token 上下文，定价 $1.25/M input、$2.50/M output。原文链接

【OpenAI】GPT-5.5 Instant 更新默认模型 OpenAI 更新 ChatGPT 默认模型 GPT-5.5 Instant，提升回答准确性和个性化能力，同时显著降低幻觉率。作为用户量最大的默认模型，此次更新将直接影响数亿用户的日常体验。原文链接

【Anthropic】与盖茨基金会合作，承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作，承诺投入 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的 grants、Claude 额度和技术支持。这是 AI 公司在公益领域最大规模的单笔承诺之一。原文链接

【OpenAI × Databricks】GPT-5.5 进入企业 Agent 工作流 Databricks 将 GPT-5.5 引入企业级 Agent 工作流，该模型在 OfficeQA Pro 基准测试中创下新纪录。标志着前沿模型加速渗透企业数据平台生态。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动
EntroPO + R2E + Qwen3-Coder-30B-A3B	103 → 76 ⬆️	52.2 → 60.4 (+15.7%)
devlo	44 → 83/94 ⬇️	70.2 → 58.2/54.2 (-17%~-23%)
Warp	11 → 36 ⬇️	75.6 → 71.0 (-6.1%)
Nemotron-CORTEXA	50 → 82 ⬇️	68.2 → 58.2 (-14.7%)

Terminal-bench 2.0

模型	排名变动	分数变动
LemonHarness / Multiple	11 → 4 ⬆️	79.9 → 84.5 (+5.8%)
Warp / Multiple	45 → 69 ⬇️	61.2 → 50.1 (-18.1%)

关注点：EntroPO + Qwen3-Coder-30B 在 SWE-bench 上排名跃升 27 位，分数提升 15.7%，表现突出；Warp 在两个榜单均出现明显下滑。

快速预览

OpenAI 马耳他合作：为全体公民提供 ChatGPT Plus 及 AI 培训（5/16）
xAI 发布 Grok Build：面向 SuperGrok Heavy 用户的 CLI 编程工具公测（5/14）
Anthropic × 盖茨基金会：承诺 2 亿美元资助全球健康、教育等领域（5/14）
LM Arena 榜首：claude-opus-4-6-thinking 以 1501.5 分领跑总榜
SWE-bench Verified 重大变动：Warp 排名从 #11 跌至 #36，devlo 从 #44 暴跌至 #83/#94

一、行业新闻

OpenAI（按日期倒序）

日期	标题	摘要
05-16	马耳他合作：ChatGPT Plus 惠及全体公民	为马耳他全体公民提供 ChatGPT Plus 及 AI 技能培训
05-15	Databricks 引入 GPT-5.5 企业 Agent 工作流	GPT-5.5 在 OfficeQA Pro 基准创下新 SOTA 后被 Databricks 引入企业场景
05-15	ChatGPT 个人理财体验预览	美国 Pro 用户可安全关联金融账户，获得 AI 理财洞察
05-15	Codex 场景指南：业务运营 / 数据科学 / 销售团队	发布三份 Codex 团队使用指南（业务运营、数据科学、销售）
05-14	Codex 移动端上线	通过 ChatGPT 移动 App 连接 Mac 主机，随时随地使用 Codex
05-14	Sea Limited 部署 Codex	Sea CPO 解释为何在亚洲工程团队全面部署 Codex
05-14	ChatGPT 敏感对话上下文识别升级	新安全更新提升敏感场景的上下文感知能力
05-13	Codex Windows 沙箱	为 Codex 在 Windows 上构建安全沙箱，支持受控文件访问和网络限制
05-13	回应 TanStack npm 供应链攻击	详述应对 "Mini Shai-Hulud" 供应链攻击的措施；macOS 用户须在 6/12 前更新
05-12	NVIDIA 工程师使用 Codex + GPT-5.5	NVIDIA 团队使用 Codex 搭配 GPT-5.5 交付生产系统并转化研究实验
05-12	AutoScout24 AI 工作流	AutoScout24 使用 Codex + ChatGPT 加速开发、提升代码质量
05-11	OpenAI 成立 DeployCo 企业部署公司	新子公司帮助组织将前沿 AI 带入生产环境
05-11	ChatGPT 2026 Q1 采用率报告	Q1 采用率激增，35 岁以上用户增长最快，性别使用更均衡
05-07	GPT-5.5 & GPT-5.5-Cyber 用于网络防御	扩展 Trusted Access for Cyber，帮助验证的防御者加速漏洞研究
05-07	ChatGPT 测试广告	开始在 ChatGPT 中测试广告以支持免费访问，附带隐私保护和明确标注
05-05	GPT-5.5 Instant 发布	更新 ChatGPT 默认模型：更智能、更准确、减少幻觉、改善个性化

Codex Changelog（按日期倒序）

日期	标题	摘要
05-14	Codex 移动端支持	ChatGPT 移动 App 可连接 Mac 上的 Codex 主机远程工作
05-11	Auto-review 文档扩展	新增 Auto-review 专用页面，覆盖审核生命周期、触发条件等
05-08	Codex CLI 0.130.0	插件详情展示内置 hooks；插件分享增加链接元数据
05-07	Codex for Chrome	新 Chrome 扩展，可在后台跨标签页并行操作浏览器应用和网站
05-07	Codex CLI 0.129.0	TUI 编辑器支持 Vim 模态编辑

Anthropic（按日期倒序）

日期	标题	摘要
05-15	Claude Code v2.1.143	新增插件依赖强制执行：禁用插件时检查依赖关系
05-14	Claude Code v2.1.142	`claude agents` 新增 `--add-dir`、`--model`、`--permission-mode` 等标志
05-14	AI 竞争力论文	发布关于中美 AI 竞争的研究论文，认为美国及盟友目前保持前沿领先地位
05-14	盖茨基金会合作	承诺 2 亿美元资助全球健康、生命科学、教育、农业和经济流动性项目
05-13	Claude Code v2.1.141	hook JSON 输出新增 `terminalSequence` 字段，支持桌面通知和窗口标题
05-12	Claude Code v2.1.140	Agent 工具 `subagent_type` 匹配支持大小写和分隔符不敏感
05-11	Claude Code v2.1.139	新增 Agent 视图（Research Preview）：`claude agents` 统一查看所有会话
05-11	Claude 宪法有声书	由作者 Amanda Askell 和 Joe Carlsmith 朗读，附 Q&A
05-07	Petri 开源工具捐赠给 Meridian Labs	开源对齐工具 Petri 独立运营，同步发布重大更新
05-07	Bug Bounty 公开上线 HackerOne	安全漏洞赏金计划从私有转为公开

xAI / Grok（按日期倒序）

日期	标题	摘要
05-15	Grok × Hermes Agent 集成	可在 NousResearch Hermes Agent 中使用 Grok 订阅
05-14	Grok Build CLI 公测	面向 SuperGrok Heavy 用户的 agentic CLI，用于编码、构建应用和自动化工作流
05-08	Grok 连接器扩展	支持邮件、幻灯片、日历、Notion 等连接器，覆盖所有计划
05-07	图像生成 Quality Mode API 上线	已生成超 3 亿张图片；更高真实感、文字渲染和创意控制
05-05	Grok 4.3 API 上线	100 万 token 上下文窗口；在 Artificial Analysis 工具调用/指令遵循及 ValsAI 企业领域榜单排名 #1；定价 $1.25/m 输入、$2.50/m 输出

Google AI（按日期倒序）

日期	标题	摘要
05-11	AI 驱动 Google Finance 欧洲扩展	AI 理财体验扩展至欧洲市场
05-08	创意大师为小企业用 AI 制作广告	Susan Credle 等创意领袖联手 AI 为小企业打造广告
05-04	Gemini API Webhooks 支持	事件驱动 Webhooks 降低长时任务的摩擦和延迟

二、Benchmark 快照与变化

LM Arena（综合榜单）— 本期无变动

数据截至 2026-05-14。当前 Top 3：

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1501.5
2	claude-opus-4-7-thinking	1500.4
3	claude-opus-4-6	1497.7

Top 10 中 Anthropic 占 4 席，Google Gemini 占 2 席，OpenAI GPT 占 2 席，xAI Grok 和 Muse 各 1 席。

SWE-bench Verified — 有变化

当前 Top 3（无变动）：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变动：

模型	分数变化	排名变化
EntroPO + R2E + Qwen3-Coder-30B	52.2 → 60.4 (+8.2)	#103 → #76 ⬆️
Warp	75.6 → 71.0 (-4.6)	#11 → #36 ⬇️
devlo	70.2 → 58.2 / 54.2	#44 → #83 / #94 ⬇️
Nemotron-CORTEXA	68.2 → 58.2 (-10.0)	#50 → #82 ⬇️
EPAM AI/Run + GPT4o	27.0 → 24.0 (-3.0)	#156 → #162 ⬇️
Solver (2024-09-12)	45.4 → 43.6 (-1.8)	#120 → #126 ⬇️

唯一上升：EntroPO + R2E + Qwen3-Coder-30B 分数大涨 8.2 分，排名前进 27 位。其余变动均为下降。

SWE-bench Pro Public — 本期无变动

数据截至 2026-05-17。当前 Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

OpenAI GPT-5.4 领跑此榜单，领先第二名 4.1 分。

Terminal-bench 2.0 — 有变化

当前 Top 3（无变动）：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期变动：

模型	分数变化	排名变化
LemonHarness / Multiple	79.9 → 84.5 (+4.6)	#11 → #4 ⬆️
little-coder / Qwen3.6-35B-A3B	23.0 → 24.6 (+1.6)	#125 → #120 ⬆️
Warp / Multiple	61.2 → 59.1 / 50.1	#45 → #50 / #69 ⬇️

LemonHarness 表现抢眼，分数提升 4.6 分，从 #11 直接跃入 Top 5。Warp 在两个 benchmark 上均出现下滑。

三、数据来源

来源 · 67 条

openai.com ×38 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×6 @xai ×5