AI 日报 2026-05-09 08:35

2026-05-09 08:35 CST

核心速览

1.【OpenAI】GPT-5.5 Instant 发布,成为 ChatGPT 新默认模型 GPT-5.5 Instant 更新为 ChatGPT 默认模型,提供更智能、更准确的回答,显著降低幻觉率,并增强个性化控制能力。这是 OpenAI 持续迭代旗舰模型的重要一步,直接影响数亿用户的日常体验。 原文链接

2.【OpenAI】ChatGPT 开始测试广告功能 OpenAI 在 ChatGPT 中测试广告以支撑免费用户访问,广告将明确标注、与回答独立,配备强隐私保护和用户控制选项。这标志着 ChatGPT 商业模式的重大转变,可能重塑 AI 产品的变现路径。 原文链接

3.【xAI】Grok 4.3 上线 API,登顶多项排行榜 Grok 4.3 在 xAI API 上线,支持 100 万 token 上下文窗口,定价 $1.25/M 输入、$2.50/M 输出。该模型在 ArtificialAnlys 智能体工具调用和指令遵循排行榜登顶,并在 ValsAI 企业法律和金融领域排名第一。 原文链接

4.【OpenAI】GPT-5.5 及 GPT-5.5-Cyber 扩展网络安全可信访问 OpenAI 发布 GPT-5.5 和 GPT-5.5-Cyber,面向经验证的安全防御者开放可信访问,加速漏洞研究和关键基础设施保护。这体现了前沿模型在专业安全领域的深度定制化趋势。 原文链接

5.【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营,同时发布重大更新提升测试的适应性、真实性和深度。此举推动 AI 安全工具的社区化发展,降低独立研究门槛。 原文链接


重大 Benchmark 变化

SWE-bench Verified:

模型 排名变动 分数变动 说明
devlo #44 → #83/94 70.2 → 54.2~58.2 排名暴跌 39-50 位,分数下降 17%-23%,疑为评测修正或回退
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 排名下降 32 位,分数下降 14.7%,表现显著回落
Warp #11 → #36 75.6 → 71.0 排名下降 25 位,分数下降 6.1%,从头部梯队滑落
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 排名上升 27 位,分数提升 15.7%,30B 小模型表现亮眼

Terminal Bench 2.0:

模型 排名变动 分数变动 说明
Warp / Multiple #32 → #37~54 61.2 → 50.1~59.1 排名下降 5-22 位,分数最高下降 18.1%,跨基准同步下滑

快速预览

  • OpenAI 发布 Codex 安全运行指南,涵盖沙箱、审批、网络策略与 agent 原生遥测(5/8)
  • xAI 发布 Grok 4.3,称其在 ArtificialAnlys agentic tool calling 与 instruction following 榜单登顶,定价 $1.25/$2.50 per M tokens(5/5)
  • Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs,并公开 HackerOne 安全漏洞赏金计划(5/7)
  • SWE-bench Verified 榜单变动显著:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94;EntroPO+Qwen3-Coder 从 #103 升至 #76
  • LM Arena 总榜 Top 3 均为 Claude 系列:claude-opus-4-7-thinking (1502.7)、claude-opus-4-6-thinking (1502.0)、claude-opus-4-6 (1497.1)

一、新闻

OpenAI(按日期倒序)

日期 标题 要点
5/8 Running Codex safely Codex 安全运行:沙箱、审批、网络策略、agent 原生遥测
5/7 GPT-5.5 & GPT-5.5-Cyber Trusted Access 扩展网络安全可信访问,助力漏洞研究与关键基础设施保护
5/7 Parloa 客户服务案例 Parloa 用 OpenAI 模型构建可扩展的语音 AI 客服
5/7 新实时语音模型 API 支持推理、翻译、转录的实时语音模型上线
5/7 ChatGPT 测试广告 开始在 ChatGPT 中测试广告,明确标注、保护隐私
5/7 Trusted Contact 功能 检测到严重自伤风险时通知可信联系人
5/7 Simplex + Codex 案例 Simplex 用 Codex 缩短设计、构建和测试时间
5/6 ChatGPT 隐私保护 减少训练中的个人数据,用户可控制对话是否用于改进模型
5/6 Uber + OpenAI 案例 Uber 用 AI 助手和语音功能帮助司机和乘客
5/6 B2B Signals 研究 前沿企业如何通过 Codex agentic 工作流建立竞争优势
5/6 ChatGPT Futures 2026 26 名学生创新者计划
5/6 Singular Bank 案例 银行家每天节省 60-90 分钟
5/5 MRC 超算网络协议 通过 OCP 发布 MRC 协议,提升大规模 AI 训练集群的韧性和性能
5/5 GPT-5.5 Instant ChatGPT 默认模型更新:更智能、减少幻觉、改进个性化
5/5 GPT-5.5 Instant System Card 系统安全卡发布
5/5 EMEA 青少年安全 欧洲青少年安全蓝图与资助计划
5/5 ChatGPT 广告自助平台 推出 Ads Manager Beta、CPC 竞价和增强衡量工具
5/4 OpenAI + PwC CFO 合作 AI agent 自动化财务工作流、改善预测
5/4 低延迟语音 AI 架构 重建 WebRTC 栈以支持实时语音 AI

OpenAI Codex Changelog(按日期倒序)

日期 版本/标题 要点
5/8 CLI 0.130.0 插件详情显示 bundled hooks,插件分享暴露链接元数据
5/7 Codex for Chrome Chrome 扩展:跨标签页后台并行工作,用户控制网站权限
5/7 CLI 0.129.0 TUI 支持 Vim 编辑模式
5/6 Analytics 治理文档更新 企业治理指南更新:Analytics 图表、数据导出、API 端点

Anthropic(按日期倒序)

日期 标题 要点
5/9 Claude Code v2.1.137 修复 VSCode 扩展在 Windows 上激活失败
5/8 Claude Code v2.1.136 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL 环境变量
5/7 Claude Code v2.1.133 新增 worktree.baseRef 设置(fresh/head),默认改为 fresh
5/7 Petri 捐赠给 Meridian Labs 开源对齐工具 Petri 转交独立机构,同时发布重大更新
5/7 Bug Bounty 公开 HackerOne 安全漏洞赏金计划从私有转为公开
5/6 Claude Code v2.1.132 Bash 工具子进程新增 CLAUDE_CODE_SESSION_ID 环境变量
5/6 Claude Code v2.1.131 修复 VS Code 扩展 Windows 激活问题(createRequire polyfill bug)

xAI(按日期倒序)

日期 标题 要点
5/8 Grok Connectors Grok 支持连接邮件、日历、Notion 等,覆盖所有计划
5/7 Image Gen Quality Mode API 图像生成质量模式上线 API,已生成超 3 亿张图片
5/5 Grok 4.3 发布 最快最强模型,ArtificialAnlys agentic tool calling & instruction following 登顶,ValsAI 企业领域 #1,1M 上下文,$1.25/$2.50 per M tokens
5/1 Voice Cloning API 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言

DeepSeek(按日期倒序)

日期 标题 要点
4/29 V4-Pro 折扣延期 DeepSeek-V4-Pro 75% 折扣延长至 5/31;支持 Claude Code、OpenCode、OpenClaw 集成

Google(按日期倒序)

日期 标题 要点
5/8 AI 创意广告 创意大师用 AI 为小企业制作广告
5/6 Search 园艺提示 Search 中的 AI 园艺功能
5/5 XPRIZE 电影竞赛 与 XPRIZE 合作 $350 万 Future Vision 电影竞赛
5/4 April AI 更新汇总 4 月 AI 新闻汇总
5/4 Gemini API Webhooks Webhooks 减少长任务的摩擦和延迟

二、Benchmark 快照

SWE-bench Verified — Top 10

排名 模型 分数 数据日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

来源:live-swe-agent / mini-swe-agent

SWE-bench Pro Public — Top 10

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

快照时间:2026-05-09。来源:Scale Leaderboard

Terminal-Bench 2.0 — Top 10

排名 Agent / 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4
6 ForgeCode / Gemini 3.1 Pro 78.4
7 Droid / GPT-5.3-Codex 77.3
8 Capy / Claude Opus 4.6 75.3
9 Simple Codex / GPT-5.3-Codex 75.1
10 Terminus-KIRA / Gemini 3.1 Pro 74.8

来源:tbench.ai

LM Arena Overall — Top 10

排名 模型 ELO 分数
1 claude-opus-4-7-thinking 1502.65
2 claude-opus-4-6-thinking 1502.04
3 claude-opus-4-6 1497.10
4 gemini-3.1-pro-preview 1492.56
5 claude-opus-4-7 1491.27
6 muse-spark 1491.21
7 gpt-5.5-high 1487.59
8 gemini-3-pro 1485.68
9 grok-4.20-beta1 1479.62
10 grok-4.20-beta-0309-reasoning 1477.23

快照时间:2026-05-01。来源:LM Arena


三、榜单变化

SWE-bench Verified 变化

模型 变化类型 旧排名 → 新排名 旧分 → 新分
Warp 排名+分数下降 #11 → #36 75.6 → 71.0
devlo 排名+分数大幅下降 #44 → #83/#94 70.2 → 58.2/54.2
Nemotron-CORTEXA 排名+分数下降 #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B 排名+分数上升 #103 → #76 52.2 → 60.4
Solver (2024-09-12) 排名+分数下降 #120 → #126 45.4 → 43.6
EPAM AI/Run + GPT4o 排名+分数下降 #156 → #162 27.0 → 24.0

Terminal-Bench 2.0 变化

模型 变化类型 旧排名 → 新排名 旧分 → 新分
Warp / Multiple 排名+分数下降 #32 → #37/#54 61.2 → 59.1/50.1

LM Arena Overall

本期无变动(快照日期 2026-05-01,与上期一致)。Top 3:claude-opus-4-7-thinking (1502.65)、claude-opus-4-6-thinking (1502.04)、claude-opus-4-6 (1497.10)。

SWE-bench Pro Public

本期无变动(快照日期 2026-05-09)。Top 3:gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9。


四、来源状态

所有新闻来源和 benchmark 数据源均采集成功,无失败记录。

Sources