AI 日报 2026-05-09 08:35
2026-05-09 08:35 CST
核心速览
1.【OpenAI】GPT-5.5 Instant 发布,成为 ChatGPT 新默认模型 GPT-5.5 Instant 更新为 ChatGPT 默认模型,提供更智能、更准确的回答,显著降低幻觉率,并增强个性化控制能力。这是 OpenAI 持续迭代旗舰模型的重要一步,直接影响数亿用户的日常体验。 原文链接
2.【OpenAI】ChatGPT 开始测试广告功能 OpenAI 在 ChatGPT 中测试广告以支撑免费用户访问,广告将明确标注、与回答独立,配备强隐私保护和用户控制选项。这标志着 ChatGPT 商业模式的重大转变,可能重塑 AI 产品的变现路径。 原文链接
3.【xAI】Grok 4.3 上线 API,登顶多项排行榜 Grok 4.3 在 xAI API 上线,支持 100 万 token 上下文窗口,定价 $1.25/M 输入、$2.50/M 输出。该模型在 ArtificialAnlys 智能体工具调用和指令遵循排行榜登顶,并在 ValsAI 企业法律和金融领域排名第一。 原文链接
4.【OpenAI】GPT-5.5 及 GPT-5.5-Cyber 扩展网络安全可信访问 OpenAI 发布 GPT-5.5 和 GPT-5.5-Cyber,面向经验证的安全防御者开放可信访问,加速漏洞研究和关键基础设施保护。这体现了前沿模型在专业安全领域的深度定制化趋势。 原文链接
5.【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营,同时发布重大更新提升测试的适应性、真实性和深度。此举推动 AI 安全工具的社区化发展,降低独立研究门槛。 原文链接
重大 Benchmark 变化
SWE-bench Verified:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #83/94 | 70.2 → 54.2~58.2 | 排名暴跌 39-50 位,分数下降 17%-23%,疑为评测修正或回退 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 排名下降 32 位,分数下降 14.7%,表现显著回落 |
| Warp | #11 → #36 | 75.6 → 71.0 | 排名下降 25 位,分数下降 6.1%,从头部梯队滑落 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 排名上升 27 位,分数提升 15.7%,30B 小模型表现亮眼 |
Terminal Bench 2.0:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| Warp / Multiple | #32 → #37~54 | 61.2 → 50.1~59.1 | 排名下降 5-22 位,分数最高下降 18.1%,跨基准同步下滑 |
快速预览
- OpenAI 发布 Codex 安全运行指南,涵盖沙箱、审批、网络策略与 agent 原生遥测(5/8)
- xAI 发布 Grok 4.3,称其在 ArtificialAnlys agentic tool calling 与 instruction following 榜单登顶,定价 $1.25/$2.50 per M tokens(5/5)
- Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs,并公开 HackerOne 安全漏洞赏金计划(5/7)
- SWE-bench Verified 榜单变动显著:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94;EntroPO+Qwen3-Coder 从 #103 升至 #76
- LM Arena 总榜 Top 3 均为 Claude 系列:claude-opus-4-7-thinking (1502.7)、claude-opus-4-6-thinking (1502.0)、claude-opus-4-6 (1497.1)
一、新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 5/8 | Running Codex safely | Codex 安全运行:沙箱、审批、网络策略、agent 原生遥测 |
| 5/7 | GPT-5.5 & GPT-5.5-Cyber Trusted Access | 扩展网络安全可信访问,助力漏洞研究与关键基础设施保护 |
| 5/7 | Parloa 客户服务案例 | Parloa 用 OpenAI 模型构建可扩展的语音 AI 客服 |
| 5/7 | 新实时语音模型 API | 支持推理、翻译、转录的实时语音模型上线 |
| 5/7 | ChatGPT 测试广告 | 开始在 ChatGPT 中测试广告,明确标注、保护隐私 |
| 5/7 | Trusted Contact 功能 | 检测到严重自伤风险时通知可信联系人 |
| 5/7 | Simplex + Codex 案例 | Simplex 用 Codex 缩短设计、构建和测试时间 |
| 5/6 | ChatGPT 隐私保护 | 减少训练中的个人数据,用户可控制对话是否用于改进模型 |
| 5/6 | Uber + OpenAI 案例 | Uber 用 AI 助手和语音功能帮助司机和乘客 |
| 5/6 | B2B Signals 研究 | 前沿企业如何通过 Codex agentic 工作流建立竞争优势 |
| 5/6 | ChatGPT Futures 2026 | 26 名学生创新者计划 |
| 5/6 | Singular Bank 案例 | 银行家每天节省 60-90 分钟 |
| 5/5 | MRC 超算网络协议 | 通过 OCP 发布 MRC 协议,提升大规模 AI 训练集群的韧性和性能 |
| 5/5 | GPT-5.5 Instant | ChatGPT 默认模型更新:更智能、减少幻觉、改进个性化 |
| 5/5 | GPT-5.5 Instant System Card | 系统安全卡发布 |
| 5/5 | EMEA 青少年安全 | 欧洲青少年安全蓝图与资助计划 |
| 5/5 | ChatGPT 广告自助平台 | 推出 Ads Manager Beta、CPC 竞价和增强衡量工具 |
| 5/4 | OpenAI + PwC CFO 合作 | AI agent 自动化财务工作流、改善预测 |
| 5/4 | 低延迟语音 AI 架构 | 重建 WebRTC 栈以支持实时语音 AI |
OpenAI Codex Changelog(按日期倒序)
| 日期 | 版本/标题 | 要点 |
|---|---|---|
| 5/8 | CLI 0.130.0 | 插件详情显示 bundled hooks,插件分享暴露链接元数据 |
| 5/7 | Codex for Chrome | Chrome 扩展:跨标签页后台并行工作,用户控制网站权限 |
| 5/7 | CLI 0.129.0 | TUI 支持 Vim 编辑模式 |
| 5/6 | Analytics 治理文档更新 | 企业治理指南更新:Analytics 图表、数据导出、API 端点 |
Anthropic(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 5/9 | Claude Code v2.1.137 | 修复 VSCode 扩展在 Windows 上激活失败 |
| 5/8 | Claude Code v2.1.136 | 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL 环境变量 |
| 5/7 | Claude Code v2.1.133 | 新增 worktree.baseRef 设置(fresh/head),默认改为 fresh |
| 5/7 | Petri 捐赠给 Meridian Labs | 开源对齐工具 Petri 转交独立机构,同时发布重大更新 |
| 5/7 | Bug Bounty 公开 | HackerOne 安全漏洞赏金计划从私有转为公开 |
| 5/6 | Claude Code v2.1.132 | Bash 工具子进程新增 CLAUDE_CODE_SESSION_ID 环境变量 |
| 5/6 | Claude Code v2.1.131 | 修复 VS Code 扩展 Windows 激活问题(createRequire polyfill bug) |
xAI(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 5/8 | Grok Connectors | Grok 支持连接邮件、日历、Notion 等,覆盖所有计划 |
| 5/7 | Image Gen Quality Mode API | 图像生成质量模式上线 API,已生成超 3 亿张图片 |
| 5/5 | Grok 4.3 发布 | 最快最强模型,ArtificialAnlys agentic tool calling & instruction following 登顶,ValsAI 企业领域 #1,1M 上下文,$1.25/$2.50 per M tokens |
| 5/1 | Voice Cloning API | 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言 |
DeepSeek(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/29 | V4-Pro 折扣延期 | DeepSeek-V4-Pro 75% 折扣延长至 5/31;支持 Claude Code、OpenCode、OpenClaw 集成 |
Google(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 5/8 | AI 创意广告 | 创意大师用 AI 为小企业制作广告 |
| 5/6 | Search 园艺提示 | Search 中的 AI 园艺功能 |
| 5/5 | XPRIZE 电影竞赛 | 与 XPRIZE 合作 $350 万 Future Vision 电影竞赛 |
| 5/4 | April AI 更新汇总 | 4 月 AI 新闻汇总 |
| 5/4 | Gemini API Webhooks | Webhooks 减少长任务的摩擦和延迟 |
二、Benchmark 快照
SWE-bench Verified — Top 10
| 排名 | 模型 | 分数 | 数据日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
SWE-bench Pro Public — Top 10
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
快照时间:2026-05-09。来源:Scale Leaderboard
Terminal-Bench 2.0 — Top 10
| 排名 | Agent / 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
| 6 | ForgeCode / Gemini 3.1 Pro | 78.4 |
| 7 | Droid / GPT-5.3-Codex | 77.3 |
| 8 | Capy / Claude Opus 4.6 | 75.3 |
| 9 | Simple Codex / GPT-5.3-Codex | 75.1 |
| 10 | Terminus-KIRA / Gemini 3.1 Pro | 74.8 |
来源:tbench.ai
LM Arena Overall — Top 10
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
| 4 | gemini-3.1-pro-preview | 1492.56 |
| 5 | claude-opus-4-7 | 1491.27 |
| 6 | muse-spark | 1491.21 |
| 7 | gpt-5.5-high | 1487.59 |
| 8 | gemini-3-pro | 1485.68 |
| 9 | grok-4.20-beta1 | 1479.62 |
| 10 | grok-4.20-beta-0309-reasoning | 1477.23 |
快照时间:2026-05-01。来源:LM Arena
三、榜单变化
SWE-bench Verified 变化
| 模型 | 变化类型 | 旧排名 → 新排名 | 旧分 → 新分 |
|---|---|---|---|
| Warp | 排名+分数下降 | #11 → #36 | 75.6 → 71.0 |
| devlo | 排名+分数大幅下降 | #44 → #83/#94 | 70.2 → 58.2/54.2 |
| Nemotron-CORTEXA | 排名+分数下降 | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | 排名+分数上升 | #103 → #76 | 52.2 → 60.4 |
| Solver (2024-09-12) | 排名+分数下降 | #120 → #126 | 45.4 → 43.6 |
| EPAM AI/Run + GPT4o | 排名+分数下降 | #156 → #162 | 27.0 → 24.0 |
Terminal-Bench 2.0 变化
| 模型 | 变化类型 | 旧排名 → 新排名 | 旧分 → 新分 |
|---|---|---|---|
| Warp / Multiple | 排名+分数下降 | #32 → #37/#54 | 61.2 → 59.1/50.1 |
LM Arena Overall
本期无变动(快照日期 2026-05-01,与上期一致)。Top 3:claude-opus-4-7-thinking (1502.65)、claude-opus-4-6-thinking (1502.04)、claude-opus-4-6 (1497.10)。
SWE-bench Pro Public
本期无变动(快照日期 2026-05-09)。Top 3:gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9。
四、来源状态
所有新闻来源和 benchmark 数据源均采集成功,无失败记录。