AI 日报 2026-05-11 08:47

核心速览

1.【OpenAI】GPT-5.5 Instant 发布：更智能、更个性化 GPT-5.5 Instant 成为 ChatGPT 默认模型，在准确性、减少幻觉和个性化控制方面均有显著提升。同时发布 GPT-5.5-Cyber 专用于网络安全领域。这是 OpenAI 旗舰模型的又一次重要迭代。原文链接

2.【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中启动广告测试，以支持免费用户访问。广告将明确标注、独立于回答内容，并承诺强隐私保护和用户控制权。这是 ChatGPT 商业模式的重大转变，同时上线了自助广告管理器和 CPC 竞价。原文链接

3.【xAI】Grok 4.3 上线 API Grok 4.3 是 xAI 迄今最快、最智能的模型，在 Artificial Analysis 榜单的 agentic tool calling 和指令跟随领域排名第一，在 ValsAI 企业领域（案例法、企业金融）也排名第一。支持 100 万 token 上下文，定价 $1.25/m 输入、$2.50/m 输出。原文链接

4.【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs Anthropic 将开源 AI 对齐工具 Petri 捐赠给独立机构 Meridian Labs，以推动其独立发展。同步发布重大更新，提升测试的适应性、真实性和深度。此举体现了 Anthropic 在 AI 安全领域的开放策略。原文链接

5.【OpenAI】发布 MRC 超算网络协议 OpenAI 发布 MRC（Multipath Reliable Connection）新型超算网络协议，通过 OCP 开源，旨在提升大规模 AI 训练集群的网络弹性和性能。这是 OpenAI 在基础设施层面的重要技术贡献。原文链接

重大 Benchmark 变化

模型	Benchmark	排名变动	分数变动
devlo	SWE-bench Verified	#44 → #83/94	70.2 → 54.2（-22.8%）
Nemotron-CORTEXA	SWE-bench Verified	#50 → #82	68.2 → 58.2（-14.7%）
Warp	SWE-bench Verified	#11 → #36	75.6 → 71.0（-6.1%）
EntroPO + R2E + Qwen3-Coder-30B	SWE-bench Verified	#103 → #76	52.2 → 60.4（+15.7%）
Warp / Multiple	Terminal-bench 2.0	#32 → #54	61.2 → 50.1（-18.1%）

要点： devlo 和 Warp 在 SWE-bench 上排名大幅下滑，Warp 同时在 Terminal-bench 也出现显著下降。EntroPO + R2E + Qwen3-Coder-30B 是唯一上升项，排名提升 27 位、分数增长 15.7%，值得关注。

快速预览

OpenAI 发布 Codex 安全运行白皮书：详述沙箱、审批、网络策略及 agent-native 可观测性方案。
GPT-5.5 Instant 上线：成为 ChatGPT 默认模型，减少幻觉、提升个性化；同步发布系统安全卡。
xAI Grok 4.3 发布：在 Artificial Analys agentic tool calling 及 ValsAI 企业领域排名 #1，支持 100 万 token 上下文。
SWE-bench Verified 多项大幅变动：devlo 从 #44 跌至 #83/#94，Warp 从 #11 跌至 #36，Nemotron-CORTEXA 从 #50 跌至 #82。
LM Arena / SWE-bench Pro Public / Terminal-bench 2 Top 榜本期无变动；Terminal-bench 中 Warp/Multiple 排名下滑。

一、新闻

OpenAI

日期	标题	摘要	来源
2026-05-08	Running Codex safely at OpenAI	Codex 安全运行：沙箱、审批、网络策略、agent-native 遥测	链接
2026-05-07	Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber	GPT-5.5 及 GPT-5.5-Cyber 扩展网络安全可信访问，加速漏洞研究	链接
2026-05-07	Advancing voice intelligence with new models in the API	新实时语音模型：推理、翻译、转录，支持更自然的语音交互	链接
2026-05-07	Testing ads in ChatGPT	开始在 ChatGPT 中测试广告，支持免费用户访问，明确标注	链接
2026-05-07	Introducing Trusted Contact in ChatGPT	新增可信联系人功能：检测到严重自伤风险时通知指定联系人	链接
2026-05-07	Parloa builds service agents customers want to talk to	Parloa 利用 OpenAI 模型构建语音客服代理	链接
2026-05-07	Simplex rethinks software development with Codex	Simplex 用 Codex 缩短设计、构建和测试时间	链接
2026-05-06	How ChatGPT learns about the world while protecting privacy	ChatGPT 隐私保护机制：减少训练中的个人数据使用	链接
2026-05-06	Uber uses OpenAI to help people earn smarter and book faster	Uber 集成 OpenAI 驱动的 AI 助手与语音功能	链接
2026-05-06	How frontier firms are pulling ahead	B2B Signals 研究：前沿企业如何深化 AI 采纳与 Codex agentic 工作流	链接
2026-05-06	Introducing ChatGPT Futures: Class of 2026	ChatGPT Futures 2026 届学员计划	链接
2026-05-06	Singular Bank helps bankers move fast with ChatGPT and Codex	Singular Bank 内部助手每日为银行家节省 60-90 分钟	链接
2026-05-05	GPT-5.5 Instant: smarter, clearer, and more personalized	GPT-5.5 Instant 成为 ChatGPT 默认模型，减少幻觉、提升准确性	链接
2026-05-05	GPT-5.5 Instant System Card	GPT-5.5 Instant 系统安全卡发布	链接
2026-05-05	Unlocking large scale AI training networks with MRC	MRC（多路径可靠连接）新协议通过 OCP 发布，改善大规模训练集群的韧性和性能	链接
2026-05-05	Advancing youth safety and wellbeing in EMEA	欧洲青少年安全蓝图及 EMEA 青少年与福祉资助计划	链接
2026-05-05	New ways to buy ChatGPT ads	ChatGPT 广告自服务平台 beta、CPC 竞价、增强衡量工具	链接
2026-05-04	OpenAI and PwC collaborate to reimagine the office of the CFO	OpenAI 与 PwC 合作推动 CFO 职能的 AI 自动化	链接
2026-05-04	How OpenAI delivers low-latency voice AI at scale	WebRTC 栈重建以支撑低延迟全球实时语音 AI	链接
2026-04-30	Introducing Advanced Account Security	防钓鱼登录、更强恢复机制、防账户接管	链接
2026-04-29	Where the goblins came from	GPT-5 性格驱动怪异输出的根因分析与修复	链接
2026-04-29	Building the compute infrastructure for the Intelligence Age	Stargate 扩展以支撑 AGI 算力基础设施	链接
2026-04-29	Cybersecurity in the Intelligence Age	五项网络安全行动计划	链接
2026-04-28	OpenAI models, Codex, and Managed Agents come to AWS	OpenAI 模型、Codex 和 Managed Agents 登陆 AWS	链接
2026-04-28	Our commitment to community safety	ChatGPT 社区安全：模型防护、滥用检测、政策执行	链接
2026-04-27	OpenAI available at FedRAMP Moderate	ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权	链接
2026-04-27	The next phase of the Microsoft OpenAI partnership	OpenAI 与微软修订合作协议，简化伙伴关系并增加长期确定性	链接

OpenAI Codex Changelog

日期	版本/标题	摘要	来源
2026-05-08	Codex CLI 0.130.0	插件详情显示 bundled hooks；插件分享支持链接元数据与可发现性控制	链接
2026-05-07	Codex for Chrome	Chrome 扩展：跨标签页后台并行工作，用户控制可访问网站	链接
2026-05-07	Codex CLI 0.129.0	TUI composer 支持 Vim 编辑模式	链接
2026-05-06	Codex analytics governance docs	企业治理指南更新：Analytics 仪表盘、数据导出及 API 端点	链接
2026-04-30	Codex CLI 0.128.0	持久化 /goal 工作流：app-server API、模型工具、运行时续接、TUI 控制	链接

Anthropic

日期	标题	摘要	来源
2026-05-09	Claude Code v2.1.138	内部修复	链接
2026-05-09	Claude Code v2.1.137	VSCode 扩展在 Windows 上无法激活的问题已修复	链接
2026-05-08	Claude Code v2.1.136	新增 `CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL` 环境变量	链接
2026-05-07	Claude Code v2.1.133	新增 `worktree.baseRef` 设置（`fresh` / `head`），默认值变更	链接
2026-05-07	Anthropic 捐赠 Petri 对齐工具	将开源对齐工具 Petri 捐赠给 Meridian Labs 并发布重大更新	链接
2026-05-07	安全 Bug Bounty 公开上线 HackerOne	安全漏洞赏金计划从私有转为公开	链接
2026-05-06	Claude Code v2.1.132	新增 `CLAUDE_CODE_SESSION_ID` 环境变量到 Bash 工具子进程	链接

xAI

日期	标题	摘要	来源
2026-05-08	Grok 新增连接器	支持邮件、幻灯片、日历、Notion 等连接器，覆盖所有计划	链接
2026-05-07	Image Generation Quality Mode 上线 API	已驱动超 3 亿张图像生成；更高真实感、更强文字渲染	链接
2026-05-05	Grok 4.3 发布	最快最智能模型；Artificial Analys agentic tool calling 及 instruction following 排名 #1；ValsAI 企业领域（case law、corporate finance）排名 #1；100 万 token 上下文；定价 $1.25/M 输入、$2.50/M 输出	链接
2026-05-01	Voice Cloning 上线 API	2 分钟创建自定义语音；80+ 语音库覆盖 28 种语言	链接

Google

日期	标题	摘要	来源
2026-05-08	The Small Brief: Creative legends use AI to make ads	创意行业领袖用 AI 为小企业制作广告	链接
2026-05-06	5 gardening tips you can try right in Search	Search 新增园艺 AI 功能	链接
2026-05-05	Google + XPRIZE Future Vision film competition	联合 XPRIZE 和 Range Media Partners 推出 350 万美元 Future Vision 电影竞赛	链接
2026-05-04	Webhooks in Gemini API	Gemini API Webhooks：减少长时任务的摩擦与延迟	链接
2026-05-04	The latest AI news announced in April 2026	Google 2026 年 4 月 AI 动态汇总	链接
2026-04-28	Celebrating 20 years of Google Translate	Google Translate 20 周年	链接
2026-04-27	AI Agents Vibe Coding Course from Google and Kaggle	Google 与 Kaggle 合作推出 AI Agents Vibe Coding 课程	链接

DeepSeek

日期	标题	摘要	来源
2026-04-29	DeepSeek-V4-Pro 折扣延期	V4-Pro API 75% 折扣延长至 2026-05-31；支持 Claude Code、OpenCode、OpenClaw 集成	链接

二、Benchmark 快照与变化

SWE-bench Verified — 当前 Top 10

排名	模型	分数	来源
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	GitHub
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	sonarsource.com
3	TRAE + Doubao-Seed-Code	78.8	GitHub
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	GitHub
5	Atlassian Rovo Dev	76.8	atlassian.com
6	EPAM AI/Run Developer Agent + Claude 4 Sonnet	76.8	epam.com
7	mini-SWE-agent + Claude 4.5 Opus (high reasoning)	76.8	mini-swe-agent.com
8	ACoder	76.4	GitHub
9	mini-SWE-agent + Gemini 3 Flash (high reasoning)	75.8	mini-swe-agent.com
10	mini-SWE-agent + MiniMax M2.5 (high reasoning)	75.8	mini-swe-agent.com

SWE-bench Verified 变化明细：

模型	变化	旧排名 → 新排名	旧分数 → 新分数
devlo	排名↓ + 分数↓	#44 → #83 / #94	70.2 → 58.2 / 54.2
Warp	排名↓ + 分数↓	#11 → #36	75.6 → 71.0
Nemotron-CORTEXA	排名↓ + 分数↓	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	排名↑ + 分数↑	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	排名↓ + 分数↓	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	排名↓ + 分数↓	#120 → #126	45.4 → 43.6

最显著变动：devlo 分数从 70.2 骤降至 54.2（排名 #44 → #94），Warp 从 Top 10 边缘跌出至 #36。

SWE-bench Pro Public — 当前 Top 10

排名	模型	分数	来源
1	gpt-5.4 (xHigh)*	59.1	Scale Leaderboard
2	Muse Spark*	55.0	同上
3	claude-opus-4-6 (thinking)*	51.9	同上
4	gemini-3.1-pro (thinking)*	46.1	同上
5	claude-opus-4-5-20251101	45.89	同上
6	claude-4-5-Sonnet	43.6	同上
7	gemini-3-pro-preview	43.3	同上
8	claude-4-Sonnet	42.7	同上
9	gpt-5-2025-08-07 (High)	41.78	同上
10	gpt-5.2-codex	41.04	同上

本期无变动。 快照时间：2026-05-11。

Terminal-Bench 2.0 — 当前 Top 10

排名	模型	分数	来源
1	Codex CLI / GPT-5.5	82.0	tbench.ai
2	ForgeCode / GPT-5.4	81.8	同上
3	TongAgents / Gemini 3.1 Pro	80.2	同上
4	ForgeCode / Claude Opus 4.6	79.8	同上
5	SageAgent / GPT-5.3-Codex	78.4	同上
6	ForgeCode / Gemini 3.1 Pro	78.4	同上
7	Droid / GPT-5.3-Codex	77.3	同上
8	Capy / Claude Opus 4.6	75.3	同上
9	Simple Codex / GPT-5.3-Codex	75.1	同上
10	Terminus-KIRA / Gemini 3.1 Pro	74.8	同上

Terminal-Bench 2.0 变化明细：

模型	变化	旧排名 → 新排名	旧分数 → 新分数
Warp / Multiple	排名↓ + 分数↓	#32 → #37 / #54	61.2 → 59.1 / 50.1

Top 10 无变动；Warp/Multiple 在中后段出现下滑。

LM Arena (Overall) — 当前 Top 10

排名	模型	ELO 分数	来源
1	claude-opus-4-7-thinking	1502.65	HuggingFace Dataset
2	claude-opus-4-6-thinking	1502.04	同上
3	claude-opus-4-6	1497.10	同上
4	gemini-3.1-pro-preview	1492.56	同上
5	claude-opus-4-7	1491.27	同上
6	muse-spark	1491.21	同上
7	gpt-5.5-high	1487.59	同上
8	gemini-3-pro	1485.68	同上
9	grok-4.20-beta1	1479.62	同上
10	grok-4.20-beta-0309-reasoning	1477.23	同上

本期无变动。 Anthropic Claude 包揽前三，Google Gemini 和 xAI Grok 紧随其后。

三、来源采集状态

来源	状态
OpenAI News	正常
OpenAI Codex Changelog	正常
Claude Code Releases	正常
Anthropic (X)	正常
Google Blog AI	正常
xAI (X)	正常
DeepSeek (X)	正常
所有 Benchmark	正常

本期无采集失败来源。

来源 · 54 条

openai.com ×27 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×2 blog.google ×7 @xai ×4 @deepseek_ai