AI 日报 2026-05-11 08:47

2026-05-11 08:47 CST

核心速览

1.【OpenAI】GPT-5.5 Instant 发布:更智能、更个性化 GPT-5.5 Instant 成为 ChatGPT 默认模型,在准确性、减少幻觉和个性化控制方面均有显著提升。同时发布 GPT-5.5-Cyber 专用于网络安全领域。这是 OpenAI 旗舰模型的又一次重要迭代。 原文链接

2.【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中启动广告测试,以支持免费用户访问。广告将明确标注、独立于回答内容,并承诺强隐私保护和用户控制权。这是 ChatGPT 商业模式的重大转变,同时上线了自助广告管理器和 CPC 竞价。 原文链接

3.【xAI】Grok 4.3 上线 API Grok 4.3 是 xAI 迄今最快、最智能的模型,在 Artificial Analysis 榜单的 agentic tool calling 和指令跟随领域排名第一,在 ValsAI 企业领域(案例法、企业金融)也排名第一。支持 100 万 token 上下文,定价 $1.25/m 输入、$2.50/m 输出。 原文链接

4.【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs Anthropic 将开源 AI 对齐工具 Petri 捐赠给独立机构 Meridian Labs,以推动其独立发展。同步发布重大更新,提升测试的适应性、真实性和深度。此举体现了 Anthropic 在 AI 安全领域的开放策略。 原文链接

5.【OpenAI】发布 MRC 超算网络协议 OpenAI 发布 MRC(Multipath Reliable Connection)新型超算网络协议,通过 OCP 开源,旨在提升大规模 AI 训练集群的网络弹性和性能。这是 OpenAI 在基础设施层面的重要技术贡献。 原文链接


重大 Benchmark 变化

模型 Benchmark 排名变动 分数变动
devlo SWE-bench Verified #44 → #83/94 70.2 → 54.2(-22.8%)
Nemotron-CORTEXA SWE-bench Verified #50 → #82 68.2 → 58.2(-14.7%)
Warp SWE-bench Verified #11 → #36 75.6 → 71.0(-6.1%)
EntroPO + R2E + Qwen3-Coder-30B SWE-bench Verified #103 → #76 52.2 → 60.4(+15.7%)
Warp / Multiple Terminal-bench 2.0 #32 → #54 61.2 → 50.1(-18.1%)

要点: devlo 和 Warp 在 SWE-bench 上排名大幅下滑,Warp 同时在 Terminal-bench 也出现显著下降。EntroPO + R2E + Qwen3-Coder-30B 是唯一上升项,排名提升 27 位、分数增长 15.7%,值得关注。

快速预览

  • OpenAI 发布 Codex 安全运行白皮书:详述沙箱、审批、网络策略及 agent-native 可观测性方案。
  • GPT-5.5 Instant 上线:成为 ChatGPT 默认模型,减少幻觉、提升个性化;同步发布系统安全卡。
  • xAI Grok 4.3 发布:在 Artificial Analys agentic tool calling 及 ValsAI 企业领域排名 #1,支持 100 万 token 上下文。
  • SWE-bench Verified 多项大幅变动:devlo 从 #44 跌至 #83/#94,Warp 从 #11 跌至 #36,Nemotron-CORTEXA 从 #50 跌至 #82。
  • LM Arena / SWE-bench Pro Public / Terminal-bench 2 Top 榜本期无变动;Terminal-bench 中 Warp/Multiple 排名下滑。

一、新闻

OpenAI

日期 标题 摘要 来源
2026-05-08 Running Codex safely at OpenAI Codex 安全运行:沙箱、审批、网络策略、agent-native 遥测 链接
2026-05-07 Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber GPT-5.5 及 GPT-5.5-Cyber 扩展网络安全可信访问,加速漏洞研究 链接
2026-05-07 Advancing voice intelligence with new models in the API 新实时语音模型:推理、翻译、转录,支持更自然的语音交互 链接
2026-05-07 Testing ads in ChatGPT 开始在 ChatGPT 中测试广告,支持免费用户访问,明确标注 链接
2026-05-07 Introducing Trusted Contact in ChatGPT 新增可信联系人功能:检测到严重自伤风险时通知指定联系人 链接
2026-05-07 Parloa builds service agents customers want to talk to Parloa 利用 OpenAI 模型构建语音客服代理 链接
2026-05-07 Simplex rethinks software development with Codex Simplex 用 Codex 缩短设计、构建和测试时间 链接
2026-05-06 How ChatGPT learns about the world while protecting privacy ChatGPT 隐私保护机制:减少训练中的个人数据使用 链接
2026-05-06 Uber uses OpenAI to help people earn smarter and book faster Uber 集成 OpenAI 驱动的 AI 助手与语音功能 链接
2026-05-06 How frontier firms are pulling ahead B2B Signals 研究:前沿企业如何深化 AI 采纳与 Codex agentic 工作流 链接
2026-05-06 Introducing ChatGPT Futures: Class of 2026 ChatGPT Futures 2026 届学员计划 链接
2026-05-06 Singular Bank helps bankers move fast with ChatGPT and Codex Singular Bank 内部助手每日为银行家节省 60-90 分钟 链接
2026-05-05 GPT-5.5 Instant: smarter, clearer, and more personalized GPT-5.5 Instant 成为 ChatGPT 默认模型,减少幻觉、提升准确性 链接
2026-05-05 GPT-5.5 Instant System Card GPT-5.5 Instant 系统安全卡发布 链接
2026-05-05 Unlocking large scale AI training networks with MRC MRC(多路径可靠连接)新协议通过 OCP 发布,改善大规模训练集群的韧性和性能 链接
2026-05-05 Advancing youth safety and wellbeing in EMEA 欧洲青少年安全蓝图及 EMEA 青少年与福祉资助计划 链接
2026-05-05 New ways to buy ChatGPT ads ChatGPT 广告自服务平台 beta、CPC 竞价、增强衡量工具 链接
2026-05-04 OpenAI and PwC collaborate to reimagine the office of the CFO OpenAI 与 PwC 合作推动 CFO 职能的 AI 自动化 链接
2026-05-04 How OpenAI delivers low-latency voice AI at scale WebRTC 栈重建以支撑低延迟全球实时语音 AI 链接
2026-04-30 Introducing Advanced Account Security 防钓鱼登录、更强恢复机制、防账户接管 链接
2026-04-29 Where the goblins came from GPT-5 性格驱动怪异输出的根因分析与修复 链接
2026-04-29 Building the compute infrastructure for the Intelligence Age Stargate 扩展以支撑 AGI 算力基础设施 链接
2026-04-29 Cybersecurity in the Intelligence Age 五项网络安全行动计划 链接
2026-04-28 OpenAI models, Codex, and Managed Agents come to AWS OpenAI 模型、Codex 和 Managed Agents 登陆 AWS 链接
2026-04-28 Our commitment to community safety ChatGPT 社区安全:模型防护、滥用检测、政策执行 链接
2026-04-27 OpenAI available at FedRAMP Moderate ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权 链接
2026-04-27 The next phase of the Microsoft OpenAI partnership OpenAI 与微软修订合作协议,简化伙伴关系并增加长期确定性 链接

OpenAI Codex Changelog

日期 版本/标题 摘要 来源
2026-05-08 Codex CLI 0.130.0 插件详情显示 bundled hooks;插件分享支持链接元数据与可发现性控制 链接
2026-05-07 Codex for Chrome Chrome 扩展:跨标签页后台并行工作,用户控制可访问网站 链接
2026-05-07 Codex CLI 0.129.0 TUI composer 支持 Vim 编辑模式 链接
2026-05-06 Codex analytics governance docs 企业治理指南更新:Analytics 仪表盘、数据导出及 API 端点 链接
2026-04-30 Codex CLI 0.128.0 持久化 /goal 工作流:app-server API、模型工具、运行时续接、TUI 控制 链接

Anthropic

日期 标题 摘要 来源
2026-05-09 Claude Code v2.1.138 内部修复 链接
2026-05-09 Claude Code v2.1.137 VSCode 扩展在 Windows 上无法激活的问题已修复 链接
2026-05-08 Claude Code v2.1.136 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL 环境变量 链接
2026-05-07 Claude Code v2.1.133 新增 worktree.baseRef 设置(fresh / head),默认值变更 链接
2026-05-07 Anthropic 捐赠 Petri 对齐工具 将开源对齐工具 Petri 捐赠给 Meridian Labs 并发布重大更新 链接
2026-05-07 安全 Bug Bounty 公开上线 HackerOne 安全漏洞赏金计划从私有转为公开 链接
2026-05-06 Claude Code v2.1.132 新增 CLAUDE_CODE_SESSION_ID 环境变量到 Bash 工具子进程 链接

xAI

日期 标题 摘要 来源
2026-05-08 Grok 新增连接器 支持邮件、幻灯片、日历、Notion 等连接器,覆盖所有计划 链接
2026-05-07 Image Generation Quality Mode 上线 API 已驱动超 3 亿张图像生成;更高真实感、更强文字渲染 链接
2026-05-05 Grok 4.3 发布 最快最智能模型;Artificial Analys agentic tool calling 及 instruction following 排名 #1;ValsAI 企业领域(case law、corporate finance)排名 #1;100 万 token 上下文;定价 $1.25/M 输入、$2.50/M 输出 链接
2026-05-01 Voice Cloning 上线 API 2 分钟创建自定义语音;80+ 语音库覆盖 28 种语言 链接

Google

日期 标题 摘要 来源
2026-05-08 The Small Brief: Creative legends use AI to make ads 创意行业领袖用 AI 为小企业制作广告 链接
2026-05-06 5 gardening tips you can try right in Search Search 新增园艺 AI 功能 链接
2026-05-05 Google + XPRIZE Future Vision film competition 联合 XPRIZE 和 Range Media Partners 推出 350 万美元 Future Vision 电影竞赛 链接
2026-05-04 Webhooks in Gemini API Gemini API Webhooks:减少长时任务的摩擦与延迟 链接
2026-05-04 The latest AI news announced in April 2026 Google 2026 年 4 月 AI 动态汇总 链接
2026-04-28 Celebrating 20 years of Google Translate Google Translate 20 周年 链接
2026-04-27 AI Agents Vibe Coding Course from Google and Kaggle Google 与 Kaggle 合作推出 AI Agents Vibe Coding 课程 链接

DeepSeek

日期 标题 摘要 来源
2026-04-29 DeepSeek-V4-Pro 折扣延期 V4-Pro API 75% 折扣延长至 2026-05-31;支持 Claude Code、OpenCode、OpenClaw 集成 链接

二、Benchmark 快照与变化

SWE-bench Verified — 当前 Top 10

排名 模型 分数 来源
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 GitHub
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 sonarsource.com
3 TRAE + Doubao-Seed-Code 78.8 GitHub
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 GitHub
5 Atlassian Rovo Dev 76.8 atlassian.com
6 EPAM AI/Run Developer Agent + Claude 4 Sonnet 76.8 epam.com
7 mini-SWE-agent + Claude 4.5 Opus (high reasoning) 76.8 mini-swe-agent.com
8 ACoder 76.4 GitHub
9 mini-SWE-agent + Gemini 3 Flash (high reasoning) 75.8 mini-swe-agent.com
10 mini-SWE-agent + MiniMax M2.5 (high reasoning) 75.8 mini-swe-agent.com

SWE-bench Verified 变化明细:

模型 变化 旧排名 → 新排名 旧分数 → 新分数
devlo 排名↓ + 分数↓ #44 → #83 / #94 70.2 → 58.2 / 54.2
Warp 排名↓ + 分数↓ #11 → #36 75.6 → 71.0
Nemotron-CORTEXA 排名↓ + 分数↓ #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B 排名↑ + 分数↑ #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o 排名↓ + 分数↓ #156 → #162 27.0 → 24.0
Solver (2024-09-12) 排名↓ + 分数↓ #120 → #126 45.4 → 43.6

最显著变动:devlo 分数从 70.2 骤降至 54.2(排名 #44 → #94),Warp 从 Top 10 边缘跌出至 #36。


SWE-bench Pro Public — 当前 Top 10

排名 模型 分数 来源
1 gpt-5.4 (xHigh)* 59.1 Scale Leaderboard
2 Muse Spark* 55.0 同上
3 claude-opus-4-6 (thinking)* 51.9 同上
4 gemini-3.1-pro (thinking)* 46.1 同上
5 claude-opus-4-5-20251101 45.89 同上
6 claude-4-5-Sonnet 43.6 同上
7 gemini-3-pro-preview 43.3 同上
8 claude-4-Sonnet 42.7 同上
9 gpt-5-2025-08-07 (High) 41.78 同上
10 gpt-5.2-codex 41.04 同上

本期无变动。 快照时间:2026-05-11。


Terminal-Bench 2.0 — 当前 Top 10

排名 模型 分数 来源
1 Codex CLI / GPT-5.5 82.0 tbench.ai
2 ForgeCode / GPT-5.4 81.8 同上
3 TongAgents / Gemini 3.1 Pro 80.2 同上
4 ForgeCode / Claude Opus 4.6 79.8 同上
5 SageAgent / GPT-5.3-Codex 78.4 同上
6 ForgeCode / Gemini 3.1 Pro 78.4 同上
7 Droid / GPT-5.3-Codex 77.3 同上
8 Capy / Claude Opus 4.6 75.3 同上
9 Simple Codex / GPT-5.3-Codex 75.1 同上
10 Terminus-KIRA / Gemini 3.1 Pro 74.8 同上

Terminal-Bench 2.0 变化明细:

模型 变化 旧排名 → 新排名 旧分数 → 新分数
Warp / Multiple 排名↓ + 分数↓ #32 → #37 / #54 61.2 → 59.1 / 50.1

Top 10 无变动;Warp/Multiple 在中后段出现下滑。


LM Arena (Overall) — 当前 Top 10

排名 模型 ELO 分数 来源
1 claude-opus-4-7-thinking 1502.65 HuggingFace Dataset
2 claude-opus-4-6-thinking 1502.04 同上
3 claude-opus-4-6 1497.10 同上
4 gemini-3.1-pro-preview 1492.56 同上
5 claude-opus-4-7 1491.27 同上
6 muse-spark 1491.21 同上
7 gpt-5.5-high 1487.59 同上
8 gemini-3-pro 1485.68 同上
9 grok-4.20-beta1 1479.62 同上
10 grok-4.20-beta-0309-reasoning 1477.23 同上

本期无变动。 Anthropic Claude 包揽前三,Google Gemini 和 xAI Grok 紧随其后。


三、来源采集状态

来源 状态
OpenAI News 正常
OpenAI Codex Changelog 正常
Claude Code Releases 正常
Anthropic (X) 正常
Google Blog AI 正常
xAI (X) 正常
DeepSeek (X) 正常
所有 Benchmark 正常

本期无采集失败来源。

Sources