AI 日报 2026-05-09 08:35

核心速览

1.【OpenAI】GPT-5.5 Instant 发布，成为 ChatGPT 新默认模型 GPT-5.5 Instant 更新为 ChatGPT 默认模型，提供更智能、更准确的回答，显著降低幻觉率，并增强个性化控制能力。这是 OpenAI 持续迭代旗舰模型的重要一步，直接影响数亿用户的日常体验。原文链接

2.【OpenAI】ChatGPT 开始测试广告功能 OpenAI 在 ChatGPT 中测试广告以支撑免费用户访问，广告将明确标注、与回答独立，配备强隐私保护和用户控制选项。这标志着 ChatGPT 商业模式的重大转变，可能重塑 AI 产品的变现路径。原文链接

3.【xAI】Grok 4.3 上线 API，登顶多项排行榜 Grok 4.3 在 xAI API 上线，支持 100 万 token 上下文窗口，定价 $1.25/M 输入、$2.50/M 输出。该模型在 ArtificialAnlys 智能体工具调用和指令遵循排行榜登顶，并在 ValsAI 企业法律和金融领域排名第一。原文链接

4.【OpenAI】GPT-5.5 及 GPT-5.5-Cyber 扩展网络安全可信访问 OpenAI 发布 GPT-5.5 和 GPT-5.5-Cyber，面向经验证的安全防御者开放可信访问，加速漏洞研究和关键基础设施保护。这体现了前沿模型在专业安全领域的深度定制化趋势。原文链接

5.【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营，同时发布重大更新提升测试的适应性、真实性和深度。此举推动 AI 安全工具的社区化发展，降低独立研究门槛。原文链接

重大 Benchmark 变化

SWE-bench Verified：

模型	排名变动	分数变动	说明
devlo	#44 → #83/94	70.2 → 54.2~58.2	排名暴跌 39-50 位，分数下降 17%-23%，疑为评测修正或回退
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	排名下降 32 位，分数下降 14.7%，表现显著回落
Warp	#11 → #36	75.6 → 71.0	排名下降 25 位，分数下降 6.1%，从头部梯队滑落
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	排名上升 27 位，分数提升 15.7%，30B 小模型表现亮眼

Terminal Bench 2.0：

模型	排名变动	分数变动	说明
Warp / Multiple	#32 → #37~54	61.2 → 50.1~59.1	排名下降 5-22 位，分数最高下降 18.1%，跨基准同步下滑

快速预览

OpenAI 发布 Codex 安全运行指南，涵盖沙箱、审批、网络策略与 agent 原生遥测（5/8）
xAI 发布 Grok 4.3，称其在 ArtificialAnlys agentic tool calling 与 instruction following 榜单登顶，定价 $1.25/$2.50 per M tokens（5/5）
Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs，并公开 HackerOne 安全漏洞赏金计划（5/7）
SWE-bench Verified 榜单变动显著：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94；EntroPO+Qwen3-Coder 从 #103 升至 #76
LM Arena 总榜 Top 3 均为 Claude 系列：claude-opus-4-7-thinking (1502.7)、claude-opus-4-6-thinking (1502.0)、claude-opus-4-6 (1497.1)

一、新闻

OpenAI（按日期倒序）

日期	标题	要点
5/8	Running Codex safely	Codex 安全运行：沙箱、审批、网络策略、agent 原生遥测
5/7	GPT-5.5 & GPT-5.5-Cyber Trusted Access	扩展网络安全可信访问，助力漏洞研究与关键基础设施保护
5/7	Parloa 客户服务案例	Parloa 用 OpenAI 模型构建可扩展的语音 AI 客服
5/7	新实时语音模型 API	支持推理、翻译、转录的实时语音模型上线
5/7	ChatGPT 测试广告	开始在 ChatGPT 中测试广告，明确标注、保护隐私
5/7	Trusted Contact 功能	检测到严重自伤风险时通知可信联系人
5/7	Simplex + Codex 案例	Simplex 用 Codex 缩短设计、构建和测试时间
5/6	ChatGPT 隐私保护	减少训练中的个人数据，用户可控制对话是否用于改进模型
5/6	Uber + OpenAI 案例	Uber 用 AI 助手和语音功能帮助司机和乘客
5/6	B2B Signals 研究	前沿企业如何通过 Codex agentic 工作流建立竞争优势
5/6	ChatGPT Futures 2026	26 名学生创新者计划
5/6	Singular Bank 案例	银行家每天节省 60-90 分钟
5/5	MRC 超算网络协议	通过 OCP 发布 MRC 协议，提升大规模 AI 训练集群的韧性和性能
5/5	GPT-5.5 Instant	ChatGPT 默认模型更新：更智能、减少幻觉、改进个性化
5/5	GPT-5.5 Instant System Card	系统安全卡发布
5/5	EMEA 青少年安全	欧洲青少年安全蓝图与资助计划
5/5	ChatGPT 广告自助平台	推出 Ads Manager Beta、CPC 竞价和增强衡量工具
5/4	OpenAI + PwC CFO 合作	AI agent 自动化财务工作流、改善预测
5/4	低延迟语音 AI 架构	重建 WebRTC 栈以支持实时语音 AI

OpenAI Codex Changelog（按日期倒序）

日期	版本/标题	要点
5/8	CLI 0.130.0	插件详情显示 bundled hooks，插件分享暴露链接元数据
5/7	Codex for Chrome	Chrome 扩展：跨标签页后台并行工作，用户控制网站权限
5/7	CLI 0.129.0	TUI 支持 Vim 编辑模式
5/6	Analytics 治理文档更新	企业治理指南更新：Analytics 图表、数据导出、API 端点

Anthropic（按日期倒序）

日期	标题	要点
5/9	Claude Code v2.1.137	修复 VSCode 扩展在 Windows 上激活失败
5/8	Claude Code v2.1.136	新增 `CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL` 环境变量
5/7	Claude Code v2.1.133	新增 `worktree.baseRef` 设置（`fresh`/`head`），默认改为 `fresh`
5/7	Petri 捐赠给 Meridian Labs	开源对齐工具 Petri 转交独立机构，同时发布重大更新
5/7	Bug Bounty 公开	HackerOne 安全漏洞赏金计划从私有转为公开
5/6	Claude Code v2.1.132	Bash 工具子进程新增 `CLAUDE_CODE_SESSION_ID` 环境变量
5/6	Claude Code v2.1.131	修复 VS Code 扩展 Windows 激活问题（`createRequire` polyfill bug）

xAI（按日期倒序）

日期	标题	要点
5/8	Grok Connectors	Grok 支持连接邮件、日历、Notion 等，覆盖所有计划
5/7	Image Gen Quality Mode API	图像生成质量模式上线 API，已生成超 3 亿张图片
5/5	Grok 4.3 发布	最快最强模型，ArtificialAnlys agentic tool calling & instruction following 登顶，ValsAI 企业领域 #1，1M 上下文，$1.25/$2.50 per M tokens
5/1	Voice Cloning API	2 分钟创建自定义语音，80+ 语音库覆盖 28 种语言

DeepSeek（按日期倒序）

日期	标题	要点
4/29	V4-Pro 折扣延期	DeepSeek-V4-Pro 75% 折扣延长至 5/31；支持 Claude Code、OpenCode、OpenClaw 集成

Google（按日期倒序）

日期	标题	要点
5/8	AI 创意广告	创意大师用 AI 为小企业制作广告
5/6	Search 园艺提示	Search 中的 AI 园艺功能
5/5	XPRIZE 电影竞赛	与 XPRIZE 合作 $350 万 Future Vision 电影竞赛
5/4	April AI 更新汇总	4 月 AI 新闻汇总
5/4	Gemini API Webhooks	Webhooks 减少长任务的摩擦和延迟

二、Benchmark 快照

SWE-bench Verified — Top 10

排名	模型	分数	数据日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

来源：live-swe-agent / mini-swe-agent

SWE-bench Pro Public — Top 10

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

快照时间：2026-05-09。来源：Scale Leaderboard

Terminal-Bench 2.0 — Top 10

排名	Agent / 模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4
6	ForgeCode / Gemini 3.1 Pro	78.4
7	Droid / GPT-5.3-Codex	77.3
8	Capy / Claude Opus 4.6	75.3
9	Simple Codex / GPT-5.3-Codex	75.1
10	Terminus-KIRA / Gemini 3.1 Pro	74.8

来源：tbench.ai

LM Arena Overall — Top 10

排名	模型	ELO 分数
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10
4	gemini-3.1-pro-preview	1492.56
5	claude-opus-4-7	1491.27
6	muse-spark	1491.21
7	gpt-5.5-high	1487.59
8	gemini-3-pro	1485.68
9	grok-4.20-beta1	1479.62
10	grok-4.20-beta-0309-reasoning	1477.23

快照时间：2026-05-01。来源：LM Arena

三、榜单变化

SWE-bench Verified 变化

模型	变化类型	旧排名 → 新排名	旧分 → 新分
Warp	排名+分数下降	#11 → #36	75.6 → 71.0
devlo	排名+分数大幅下降	#44 → #83/#94	70.2 → 58.2/54.2
Nemotron-CORTEXA	排名+分数下降	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	排名+分数上升	#103 → #76	52.2 → 60.4
Solver (2024-09-12)	排名+分数下降	#120 → #126	45.4 → 43.6
EPAM AI/Run + GPT4o	排名+分数下降	#156 → #162	27.0 → 24.0

Terminal-Bench 2.0 变化

模型	变化类型	旧排名 → 新排名	旧分 → 新分
Warp / Multiple	排名+分数下降	#32 → #37/#54	61.2 → 59.1/50.1

LM Arena Overall

本期无变动（快照日期 2026-05-01，与上期一致）。Top 3：claude-opus-4-7-thinking (1502.65)、claude-opus-4-6-thinking (1502.04)、claude-opus-4-6 (1497.10)。

SWE-bench Pro Public

本期无变动（快照日期 2026-05-09）。Top 3：gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9。

四、来源状态

所有新闻来源和 benchmark 数据源均采集成功，无失败记录。

来源 · 58 条

openai.com ×30 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×2 blog.google ×7 @xai ×4 @deepseek_ai ×2