AI 日报 2026-05-16 08:54

核心速览

【OpenAI】ChatGPT 开始测试广告（5月7日） OpenAI 在 ChatGPT 中启动广告测试，以支持免费用户的持续访问。广告将明确标注、与回答内容独立，并提供隐私保护和用户控制选项。这是 ChatGPT 商业模式的重大转向。原文链接

【xAI】Grok 4.3 上线 API，登顶多项榜单（5月5日） xAI 发布 Grok 4.3，称其为最快、最智能的模型。该模型在 Artificial Analysis 排行榜的 agentic tool calling 和 instruction following 两项排名第一，在 ValsAI 企业领域（案例法、企业金融）也位列榜首，支持 100 万 token 上下文，定价 $1.25/$2.50 per M tokens。原文链接

【Anthropic】与盖茨基金会达成 2 亿美元合作（5月14日） Anthropic 与盖茨基金会合作，承诺 2 亿美元用于资助、Claude 额度和技术支持，覆盖全球健康、生命科学、教育、农业和经济流动性等领域。这是 Anthropic 在公益 AI 应用领域最大规模的单笔投入。原文链接

【OpenAI】GPT-5.5 Instant 更新 ChatGPT 默认模型（5月5日） OpenAI 发布 GPT-5.5 Instant，更新 ChatGPT 的默认模型，提供更准确的回答、更低的幻觉率以及改进的个性化控制能力。该模型同时在 lmarena 总榜排名第 12 位（1476.3 分）。原文链接

【xAI】Grok Build 发布早期 Beta（5月14日） xAI 推出 Grok Build——面向 SuperGrok Heavy 订阅用户的 agentic CLI 工具，支持编码、构建应用和自动化工作流。该产品直接对标 OpenAI Codex 和 Anthropic Claude Code，标志着 CLI 编码 Agent 赛道三方竞争格局形成。原文链接

重大 Benchmark 变化

LMArena 总榜（新上榜模型，前 20 名）

排名	模型	分数	来源
#1	claude-opus-4-6-thinking	1501.5	Anthropic
#2	claude-opus-4-7-thinking	1500.4	Anthropic
#3	claude-opus-4-6	1497.7	Anthropic
#4	claude-opus-4-7	1492.1	Anthropic
#5	muse-spark	1490.1	—
#6	gemini-3.1-pro-preview	1488.9	Google
#7	gemini-3-pro	1485.9	Google
#8	gpt-5.5-high	1483.9	OpenAI
#9	gpt-5.4-high	1478.8	OpenAI
#10	grok-4.20-beta1	1478.7	xAI
#11	gpt-5.2-chat-latest	1476.9	OpenAI
#12	gpt-5.5	1476.3	OpenAI
#15	gemini-3-flash	1473.5	Google
#17	ernie-5.1	1472.4	百度
#18	glm-5.1	1472.3	智谱

Anthropic Claude Opus 4-6/4-7 占据榜单前四，Google Gemini 3 系列紧随其后。国产模型中百度 ERNIE 5.1（#17）和智谱 GLM-5.1（#18）进入 Top 20。

SWE-Bench Verified 重大变动

模型	原排名 → 现排名	分数变化
devlo	#44 → #83/#94	70.2 → 58.2/54.2（↓17-23%）
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2（↓14.7%）
Warp	#11 → #36	75.6 → 71.0（↓6.1%）
EntroPO + R2E + Qwen3-Coder	#103 → #76	52.2 → 60.4（↑15.7%）

Terminal-Bench 2.0 重大变动

模型	原排名 → 现排名	分数变化
JJAgent / Multiple	新上榜	→ #2，87.1 分
LemonHarness / Multiple	#10 → #4	79.9 → 84.5（↑5.8%）
Warp / Multiple	#44 → #69	61.2 → 50.1（↓18.1%）

快速预览

LM Arena 大规模洗牌：100 个模型涌入榜单，claude-opus-4-6-thinking 以 1501.5 分登顶，Anthropic 包揽前四
OpenAI 连发 GPT-5.5 生态产品：Databricks 集成、ChatGPT 个人理财、Codex 移动端支持、Instant 模型更新
xAI Grok Build CLI 公测：面向 SuperGrok Heavy 用户的 agentic CLI，Grok 4.3 登陆 API
SWE-bench Verified 变动：Warp 从 #11 跌至 #36（75.6→71.0），devlo 大幅下滑；EntroPO + Qwen3-Coder 跃升 27 位
Anthropic 与盖茨基金会达成 2 亿美元合作，覆盖全球健康、生命科学、教育等领域

详细正文

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
05-15	ChatGPT 个人理财体验	Pro 用户可连接金融账户，获得 AI 驱动的理财洞察
05-15	Databricks 集成 GPT-5.5	GPT-5.5 在 OfficeQA Pro benchmark 创新高后进入企业 Agent 工作流
05-14	Sea 部署 Codex 加速亚洲开发	Sea Limited CPO 解释工程团队全面采用 Codex 的决策
05-14	Codex 移动端	ChatGPT 移动 App 可连接 Mac 运行 Codex，实时监控和审批任务
05-14	ChatGPT 敏感对话上下文识别	安全更新提升敏感对话中的上下文感知能力
05-13	Codex Windows 安全沙箱	为 Codex 构建受控文件访问和网络限制的安全沙箱
05-13	TanStack npm 供应链攻击应对	macOS 用户须在 6 月 12 日前更新 OpenAI 应用
05-12	NVIDIA 工程师使用 Codex	配合 GPT-5.5 将研究想法转化为可运行实验
05-12	AutoScout24 AI 工作流扩展	使用 Codex 和 ChatGPT 加速开发周期
05-12	Parameter Golf 洞察	1000+ 参与者探索 AI 辅助 ML 研究
05-11	ChatGPT 2026 Q1 采用趋势	35 岁以上用户增长最快，性别使用更趋均衡
05-11	DeployCo 发布	新企业部署公司，帮助组织将前沿 AI 带入生产环境
05-07	ChatGPT 广告测试	开始在 ChatGPT 中测试广告，保障免费使用
05-07	GPT-5.5 网络安全访问扩展	受信任防御者可用 GPT-5.5/GPT-5.5-Cyber 加速漏洞研究
05-07	语音智能新模型	API 新增可推理、翻译、转录的实时语音模型
05-07	Trusted Contact 功能	检测严重自伤风险时通知信任联系人
05-05	GPT-5.5 Instant	更新 ChatGPT 默认模型，减少幻觉，提升个性化控制
05-05	MRC 网络协议	通过 OCP 发布超算网络协议，提升大规模训练韧性
05-05	ChatGPT 广告自助工具	Beta 版 Ads Manager、CPC 竞价、增强测量工具
05-04	OpenAI × PwC CFO 协作	用 AI Agent 自动化财务工作流和预测

Codex Changelog（按日期倒序）

日期	版本/标题	摘要
05-14	Codex 移动端	从 ChatGPT 移动 App 连接 Mac 运行 Codex
05-11	Auto-review 文档扩展	新增专用 Auto-review 页面
05-08	CLI 0.130.0	插件详情展示 bundled hooks，分享暴露元数据
05-07	Codex for Chrome 扩展	后台并行跨标签页工作，用户控制权限
05-07	CLI 0.129.0	TUI 支持 Vim 编辑模式

Anthropic / Claude（按日期倒序）

日期	标题	摘要
05-15	Claude Code v2.1.143	插件依赖强制：`disable` 被依赖时拒绝，`enable` 自动传递依赖
05-14	Claude Code v2.1.142	`claude agents` 新增 `--add-dir`、`--settings`、`--model` 等 8 个参数
05-14	AI 竞争论文	阐述美国与民主盟友在前沿 AI 领域保持领先的观点
05-14	盖茨基金会合作	2 亿美元投入全球健康、生命科学、教育、农业和经济流动性
05-13	Claude Code v2.1.141	Hook JSON 输出新增 `terminalSequence` 字段
05-12	Claude Code v2.1.140	Agent tool `subagent_type` 支持大小写和分隔符不敏感匹配
05-11	Claude Code v2.1.139	Agent View Research Preview：`claude agents` 查看所有会话状态
05-11	Claude's Constitution 有声书	Amanda Askell 和 Joe Carlsmith 朗读
05-07	Petri 捐赠 Meridian Labs	开源对齐工具独立运营，发布重大更新
05-07	Bug Bounty 公开	HackerOne 安全漏洞奖励计划面向所有人开放

Google（按日期倒序）

日期	标题	摘要
05-11	AI Google Finance 欧洲扩展	AI 驱动的 Google Finance 扩展至欧洲
05-08	创意广告与小企业	创意大师用 AI 为小企业制作广告
05-04	Gemini API Webhooks	事件驱动 Webhooks 降低长任务延迟

xAI / Grok（按日期倒序）

日期	标题	摘要
05-15	Grok × NousResearch Hermes	Grok 订阅可直接在 Hermes Agent 中使用
05-14	Grok Build CLI Beta	agentic CLI 用于编码、应用构建和工作流自动化，SuperGrok Heavy 专享
05-08	Grok Connectors	全平台接入邮件、日历、Notion 等连接器
05-07	图片生成 Quality Mode API	已在 Grok 生成超 3 亿张图片，更高真实感和文字渲染
05-05	Grok 4.3 发布	最快最智能，ArtificialAnlys 榜单 agentic 工具调用和指令跟随第一，100 万 token 上下文

二、Benchmark 快照

LM Arena（Overall）— 05-14 采集

Top 10：

排名	模型	分数
1	claude-opus-4-6-thinking	1501.5
2	claude-opus-4-7-thinking	1500.4
3	claude-opus-4-6	1497.7
4	claude-opus-4-7	1492.1
5	muse-spark	1490.1
6	gemini-3.1-pro-preview	1488.9
7	gemini-3-pro	1485.9
8	gpt-5.5-high	1483.9
9	gpt-5.4-high	1478.8
10	grok-4.20-beta1	1478.7

重大变化：本轮大量新模型涌入榜单（均为 new_model 类型），Anthropic 系 Claude Opus 4.6/4.7 包揽前四。中国厂商方面，ernie-5.1 (#17)、glm-5.1 (#18)、qwen3.5-max-preview (#24)、mimo-v2.5-pro (#25)、kimi-k2.6 (#27)、deepseek-v4-pro-thinking (#28) 进入 Top 30。

SWE-bench Verified — 当前 Top 10

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

本期变化（显著变动）：

模型	变化	前排名→现排名	前分数→现分数
EntroPO + R2E + Qwen3-Coder-30B	↑ 大幅上升	#103 → #76	52.2 → 60.4
devlo	↓ 大幅下降	#44 → #83/#94	70.2 → 58.2/54.2
Warp	↓ 大幅下降	#11 → #36	75.6 → 71.0
Nemotron-CORTEXA	↓ 大幅下降	#50 → #82	68.2 → 58.2
EPAM AI/Run + GPT4o	↓	#156 → #162	27.0 → 24.0
Solver	↓	#120 → #126	45.4 → 43.6

SWE-bench Pro Public — 05-16 采集，当前 Top 10

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.9
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.8
10	gpt-5.2-codex	41.0

本期无新增变动，以上为当前快照。

Terminal-bench 2.0 — 05-15 采集，当前 Top 10

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple（新）	87.1
3	NexAU-AHE / GPT-5.5	84.7
4	LemonHarness / Multiple（↑6位）	84.5
5	Capy / GPT-5.5	83.1
6	Polaris / Multiple	82.2
7	Codex CLI / GPT-5.5	82.0
8	ForgeCode / GPT-5.4	81.8
9	WOZCODE / Claude Opus 4.7	80.2
10	TongAgents / Gemini 3.1 Pro	80.2

主要变化：

JJAgent / Multiple 新入榜直冲 #2（87.1），表现亮眼
LemonHarness / Multiple 从 #10 跃升至 #4（79.9 → 84.5，+4.6 分）
多数现有模型仅因新进入者的插入发生 1-2 位排名位移，分数未变

三、来源状态

所有来源均采集成功，无失败记录。

来源 · 63 条

openai.com ×34 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×6 @xai ×5