AI 日报 2026-05-10 08:36

核心速览

1. 【OpenAI】ChatGPT 开始测试广告

OpenAI 正式在 ChatGPT 中测试广告，以支持免费用户的使用。广告将明确标注，不影响回答内容的独立性，并提供强隐私保护和用户控制选项。这标志着 ChatGPT 商业化进入新阶段。原文链接

2. 【xAI】Grok 4.3 发布，登顶多项排行榜

xAI 发布 Grok 4.3，称其为"最快、最智能的模型"。该模型在 ArtificialAnlys 的 Agentic Tool Calling 和指令跟随排行榜排名第一，在 ValsAI 的法律和企业金融领域也位列榜首，支持 100 万 token 上下文窗口，定价 $1.25/$2.50 per million tokens。原文链接

3. 【OpenAI】GPT-5.5 Instant 更新默认模型

GPT-5.5 Instant 更新为 ChatGPT 的默认模型，带来更智能、更准确的回答，显著减少幻觉，并改进个性化控制。同时发布的还有 GPT-5.5-Cyber，面向网络安全防御场景的专用模型。原文链接

4. 【Anthropic】将对齐工具 Petri 捐赠给 Meridian Labs

Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营，同时发布重大更新，提升了测试的适应性、真实性和深度。此举旨在推动 AI 安全评估工具的社区化发展。原文链接

5. 【OpenAI】Codex 推出 Chrome 扩展

Codex 发布 Chrome 浏览器扩展，可在后台跨标签页并行工作，与网页和应用交互，且不会接管浏览器。用户可自主控制 Codex 可访问的网站范围。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	变动幅度
devlo	#44 → #83/94	70.2 → 54.2~58.2	排名 ↓39-50，分数 ↓17-23%
Warp	#11 → #36	75.6 → 71.0	排名 ↓25，分数 ↓6.1%
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	排名 ↑27，分数 ↑15.7%
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	排名 ↓32，分数 ↓14.7%

Terminal Bench 2.0

模型	排名变动	分数变动	变动幅度
Warp / Multiple	#32 → #37~54	61.2 → 50.1~59.1	排名 ↓5-22，分数 ↓3.4-18.1%

值得关注：devlo 和 Warp 在 SWE-bench 上大幅下滑，devlo 分数降幅超 23%；EntroPO + Qwen3-Coder-30B 则逆市上升 27 位，分数提升 15.7%，表现抢眼。Warp 在两个 Benchmark 上同时下跌，需关注原因。

快速预览

OpenAI 5/8 发布 Codex 安全运行白皮书，涵盖沙箱、审批、网络策略与 agent 原生遥测；同期 Codex 推出 Chrome 扩展（详情）
xAI Grok 4.3 上线 API，称在 ArtificialAnlys 工具调用/指令跟随榜单及 ValsAI 企业域排名第一，定价 $1.25/$2.50 per M tokens（来源）
OpenAI 测试 ChatGPT 广告并推出自服务平台 Ads Manager（beta），含 CPC 竞价（详情）
Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs，并公开 HackerOne 安全赏金计划（来源）
Benchmark 重点变化：SWE-bench Verified 中 Warp 从 #11 跌至 #36（75.6→71.0），devlo 从 #44 跌至 #83/#94；LM Arena 整体排名前 3 均为 Claude Opus 系列

一、新闻动态

OpenAI（按日期倒序）

日期	标题	要点
05-08	Running Codex safely	Codex 安全运行方案：沙箱、审批、网络策略、agent 原生遥测
05-07	GPT-5.5 & GPT-5.5-Cyber Trusted Access	扩展网络安全 Trusted Access，面向已验证防御者
05-07	Parloa 客户服务案例	Parloa 用 OpenAI 模型驱动语音客服 agent
05-07	新实时语音模型上线 API	新 realtime voice 模型支持推理、翻译、转录
05-07	ChatGPT 测试广告	开始在 ChatGPT 中测试广告，明确标注、隐私保护、用户可控
05-07	Trusted Contact 功能	检测到严重自伤风险时通知用户信任的联系人
05-07	Simplex 案例	Simplex 用 Codex 加速设计、构建与测试
05-06	ChatGPT 隐私保护	减少训练中的个人数据，用户可控制是否用于改进模型
05-06	Uber 案例	Uber 用 OpenAI 驱动 AI 助手与语音功能
05-06	B2B Signals 研究	前沿企业如何通过 AI 采纳建立竞争优势
05-06	ChatGPT Futures 2026	26 名学生创新者计划
05-06	Singular Bank 案例	银行家每日节省 60-90 分钟
05-05	MRC 网络协议	新超算网络协议 MRC，通过 OCP 开源发布
05-05	GPT-5.5 Instant	更新默认模型，更智能、减少幻觉、增强个性化
05-05	GPT-5.5 Instant System Card	系统安全卡发布
05-05	EMEA 青少年安全	欧洲青少年安全蓝图与资助计划
05-05	ChatGPT 广告自服务	Beta Ads Manager + CPC 竞价 + 增强度量工具
05-04	OpenAI × PwC CFO 协作	AI agent 自动化财务流程
05-04	低延迟语音 AI 基础设施	重构 WebRTC 栈实现全球低延迟语音 AI
04-30	高级账户安全	抗钓鱼登录、更强恢复机制
04-29	GPT-5「goblin」输出溯源	人格化怪异输出的根因与修复
04-29	Stargate 基础设施	扩展 Stargate 超算容量
04-29	网络安全行动计划	五部分行动方案强化 AI 时代网络安全
04-28	OpenAI 登陆 AWS	GPT 模型、Codex、Managed Agents 上线 AWS
04-28	社区安全承诺	模型防护、滥用检测、政策执行
04-27	FedRAMP Moderate 授权	ChatGPT Enterprise 和 API 获 FedRAMP 中级授权
04-27	微软合作新阶段	修订协议简化合作关系
04-27	Symphony 开源编排规范	Codex 编排的开源规范
04-27	Choco 案例	食品分销 AI agent 自动化
04-26	Our Principles	Sam Altman 分享五项指导原则

OpenAI Codex Changelog

日期	更新
05-07	Codex for Chrome — 新 Chrome 扩展，支持跨标签页后台并行操作
05-06	Analytics 治理文档更新 — 补充 Analytics 图表、数据导出、API 端点说明

Anthropic / Claude Code（按日期倒序）

Claude Code 版本更新：

版本	日期	要点
v2.1.138	05-09	内部修复
v2.1.137	05-09	修复 VSCode 扩展在 Windows 上激活失败
v2.1.136	05-08	新增 `CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL` 环境变量
v2.1.133	05-07	新增 `worktree.baseRef` 设置（`fresh` \| `head`），默认值变更
v2.1.132	05-06	Bash 子进程新增 `CLAUDE_CODE_SESSION_ID` 环境变量

Anthropic X 动态：

日期	内容
05-07	将开源对齐工具 Petri 捐赠给 Meridian Labs 并发布重大更新，提升测试适应性、真实性与深度
05-07	安全赏金计划公开上线 HackerOne — 任何人可报告漏洞并获得奖励

xAI（按日期倒序）

日期	内容
05-08	Grok 连接器扩展 — Grok 可读取邮件、整理日历、管理 Notion，所有套餐可用
05-07	Image Gen Quality Mode 上线 API — 已生成超 3 亿张图像，更高真实感与文字渲染
05-05	Grok 4.3 上线 API — 号称 ArtificialAnlys 工具调用/指令跟随第一、ValsAI 企业域第一；1M 上下文，$1.25/$2.50 per M tokens
05-01	Voice Cloning 上线 API — 2 分钟创建自定义声音，80+ 声音库、28 种语言

DeepSeek（按日期倒序）

日期	内容
04-29	DeepSeek-V4-Pro 折扣延长至 5/31 — 75% OFF，支持 Claude Code / OpenCode / OpenClaw 集成

Google Blog AI（按日期倒序）

日期	内容
05-08	创意传奇为小企业用 AI 制作广告
05-06	Search 中的园艺技巧
05-05	XPRIZE Future Vision 电影竞赛 — $350 万奖金
05-04	2026 年 4 月 AI 更新汇总
05-04	Gemini API Webhooks — 降低长时间任务延迟
04-28	Google Translate 20 周年
04-27	Kaggle AI Agents Vibe Coding 课程

二、Benchmark 快照与变化

LM Arena（整体）

快照日期：2026-05-01 · 数据来源

排名	模型	分数
#1	claude-opus-4-7-thinking	1502.65
#2	claude-opus-4-6-thinking	1502.04
#3	claude-opus-4-6	1497.10
#4	gemini-3.1-pro-preview	1492.56
#5	claude-opus-4-7	1491.27

本期无排名变化数据。

SWE-bench Verified（Top 10 快照）

快照日期不一 · 数据来源

排名	模型	分数
#1	live-SWE-agent + Claude 4.5 Opus medium	79.2
#2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
#3	TRAE + Doubao-Seed-Code	78.8
#4	live-SWE-agent + Gemini 3 Pro Preview	77.4
#5	Atlassian Rovo Dev	76.8

本期变化（显著项）：

模型	排名变化	分数变化	说明
Warp	#11 → #36	75.6 → 71.0	大幅下滑 25 位
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2	两个条目均显著下降
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	下滑 32 位
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	上升 27 位，分数提升明显
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	小幅下滑
Solver (2024-09-12)	#120 → #126	45.4 → 43.6	小幅下滑

SWE-bench Pro Public（Top 10 快照）

快照日期：2026-05-10 · 数据来源

排名	模型	分数
#1	gpt-5.4 (xHigh)*	59.1
#2	Muse Spark*	55.0
#3	claude-opus-4-6 (thinking)*	51.9
#4	gemini-3.1-pro (thinking)*	46.1
#5	claude-opus-4-5-20251101	45.89

本期无排名变化数据。

Terminal-bench 2.0（Top 10 快照）

快照日期不一 · 数据来源

排名	模型	分数
#1	Codex CLI / GPT-5.5	82.0
#2	ForgeCode / GPT-5.4	81.8
#3	TongAgents / Gemini 3.1 Pro	80.2
#4	ForgeCode / Claude Opus 4.6	79.8
#5	SageAgent / GPT-5.3-Codex	78.4

本期变化：

模型	排名变化	分数变化
Warp / Multiple	#32 → #37 / #54	61.2 → 59.1 / 50.1

三、来源状态

所有计划来源均已成功采集，无采集失败来源。

来源 · 54 条

openai.com ×30 developers.openai.com ×2 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×2 blog.google ×7 @xai ×4 @deepseek_ai