AI 日报 2026-05-08 08:56

2026-05-08 08:56 CST

核心速览

2026年5月7日 AI 行业日报(快速版)


1. 【OpenAI】GPT-5.5 Instant 发布:更智能、更准确、更个性化

GPT-5.5 Instant 成为 ChatGPT 新默认模型,显著降低幻觉率,提升回答准确性,并增强个性化控制能力。这是 OpenAI 近期最重要的基础模型升级,直接影响数亿用户的日常体验。 原文链接

2. 【xAI】Grok 4.3 上线:登顶多项权威排行榜

Grok 4.3 在 xAI API 上线,支持 100 万 token 上下文窗口,定价 $1.25/M 输入、$2.50/M 输出。该模型在 Artificial Analysis 的 agentic tool calling 和 instruction following 排行榜中排名第一,同时在 ValsAI 企业级场景(案例法、企业金融)中也位列榜首。 原文链接

3. 【Anthropic】与 SpaceX 达成算力合作,提升 Claude 使用限额

Anthropic 宣布与 SpaceX 达成算力合作协议,将大幅增加其计算资源。配合近期其他算力交易,Claude Code 和 Claude API 的使用限额已相应提高,标志着 Anthropic 在算力基础设施上的重大投入。 原文链接

4. 【OpenAI】ChatGPT 开始测试广告

OpenAI 正式在 ChatGPT 中测试广告,旨在维持免费用户的访问。广告将明确标注,不影响回答内容独立性,并配备强隐私保护和用户控制选项。同时推出自助广告管理器和 CPC 竞价模式。 原文链接

5. 【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs

Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营,同时发布重大更新,提升测试的适应性、真实性和深度。此举体现了 Anthropic 将安全工具生态化的战略思路。 原文链接


重大 Benchmark 变化

SWE-bench Verified 排名显著变动:

模型 排名变动 分数变动 说明
devlo #44 → #83/#94 70.2 → 58.2/54.2 大幅下滑,分数降幅超 17%
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 排名下跌 32 位,分数降 14.7%
Warp #11 → #36 75.6 → 71.0 排名下跌 25 位,跌出头部梯队
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 逆势上升 27 位,分数提升 15.7%

Terminal Bench 2.0:

  • Warp / Multiple:#32 → #37/#54,分数从 61.2 降至 59.1/50.1,表现持续走弱。

本轮变动中,devlo 和 Nemotron-CORTEXA 的大幅下滑值得关注,可能与评测方法调整或模型回退有关;EntroPO + Qwen3-Coder 组合则是本轮最大赢家。

快速预览

  • OpenAI 发布 GPT-5.5 及 GPT-5.5-Cyber,扩展网络安全 Trusted Access,同日推出 GPT-5.5 Instant 更新默认模型
  • xAI Grok 4.3 上线 API,称在 Artificial Analys 工具调用与指令跟随榜单排名第一,定价 $1.25/$2.50 per million tokens
  • Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs,并公开 HackerOne 安全漏洞赏金计划;与 SpaceX 达成算力合作
  • SWE-bench Verified 榜单大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94,EntroPO+Qwen3-Coder 从 #103 升至 #76
  • LM Arena 总榜 Top 3 均为 Anthropic Claude 系列:claude-opus-4-7-thinking (1502.65)、claude-opus-4-6-thinking (1502.04)、claude-opus-4-6 (1497.10)

一、新闻动态

OpenAI(按日期倒序)

日期 标题 摘要
05-07 GPT-5.5 & GPT-5.5-Cyber Trusted Access 扩展网络安全可信访问,帮助防御者加速漏洞研究
05-07 Parloa 客服语音 Agent Parloa 基于 OpenAI 模型构建可扩展的语音客服 Agent
05-07 新实时语音模型 API 推出可推理、翻译、转录的实时语音模型
05-07 ChatGPT Trusted Contact 检测到严重自伤风险时通知信任联系人的安全功能
05-07 ChatGPT 广告测试 开始在 ChatGPT 中测试广告,支持免费用户使用
05-07 Codex Chrome 扩展 Codex 新增 Chrome 扩展,可在浏览器标签页中并行工作
05-07 Codex CLI 0.129.0 TUI 支持 Vim 模态编辑
05-06 ChatGPT Futures 2026 26 名学生创新者计划
05-06 B2B Signals 研究 前沿企业 AI 采纳深度研究
05-05 GPT-5.5 Instant 更新 ChatGPT 默认模型,减少幻觉、提升个性化
05-05 MRC 超算网络协议 通过 OCP 发布新网络协议,提升大规模训练集群韧性
05-05 ChatGPT 广告自助平台 推出 Ads Manager Beta、CPC 竞价和增强度量工具
05-04 OpenAI × PwC CFO 协作 AI Agent 自动化财务工作流

Anthropic

日期 来源 标题 摘要
05-07 X Petri 捐赠 Meridian Labs 将开源对齐工具 Petri 捐赠给独立机构,并发布重大更新
05-07 X Bug Bounty 公开 HackerOne 安全漏洞赏金计划转为公开
05-06 X SpaceX 算力合作 与 SpaceX 达成算力合作,提升 Claude Code 和 API 使用限额

Claude Code 发版

日期 版本 要点
05-07 v2.1.133 新增 worktree.baseRef 设置,默认改为 origin/ 基准
05-06 v2.1.132 Bash 子进程暴露 CLAUDE_CODE_SESSION_ID 环境变量
05-06 v2.1.131 修复 Windows VS Code 扩展激活失败
05-06 v2.1.129 新增 --plugin-url 标志
05-04 v2.1.128 /color 无参数时随机选色

xAI

日期 标题 摘要
05-07 图片生成 Quality Mode API 已生成超 3 亿张图片,更强真实感和文字渲染
05-05 Grok 4.3 上线 API 称在 Artificial Analys 工具调用/指令跟随榜单第一,ValsAI 企业领域第一;1M 上下文,$1.25/$2.50 per M tokens
05-01 Voice Cloning API 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言

DeepSeek

日期 标题 摘要
04-29 V4-Pro 折扣延长 DeepSeek-V4-Pro 75% 折扣延长至 5 月 31 日;支持 Claude Code / OpenCode / OpenClaw 集成

Google

日期 标题 摘要
05-06 Search 园艺提示 Search 新增园艺 AI 功能
05-05 XPRIZE 电影竞赛 与 XPRIZE 合作 $350 万 AI 电影竞赛
05-04 Gemini API Webhooks 新增 Webhooks 降低长任务延迟
04-27 Kaggle Vibe Coding 课程 Google × Kaggle 推出 AI Agent 编程课程

二、Benchmark 快照与变化

SWE-bench Verified — 当前 Top 10

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

Top 3 无变动。 以下为中下游显著变化:

模型 变化 旧排名→新排名 旧分→新分
Warp 排名+分数下降 #11 → #36 75.6 → 71.0
devlo 排名+分数大幅下降 #44 → #83 / #94 70.2 → 58.2 / 54.2
Nemotron-CORTEXA 排名+分数下降 #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B 排名+分数上升 #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o 排名+分数下降 #156 → #162 27.0 → 24.0
Solver (2024-09-12) 排名+分数下降 #120 → #126 45.4 → 43.6

来源:SWE-bench Verified


SWE-bench Pro Public — 当前 Top 10

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

本期无变动。 快照时间:2026-05-08。

来源:Scale AI Leaderboard


Terminal-Bench 2.0 — 当前 Top 10

排名 Agent / 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4
6 ForgeCode / Gemini 3.1 Pro 78.4
7 Droid / GPT-5.3-Codex 77.3
8 Capy / Claude Opus 4.6 75.3
9 Simple Codex / GPT-5.3-Codex 75.1
10 Terminus-KIRA / Gemini 3.1 Pro 74.8

变化:

模型 变化 旧排名→新排名 旧分→新分
Warp / Multiple 排名+分数下降 #32 → #37 / #54 61.2 → 59.1 / 50.1

来源:Terminal-Bench


LM Arena (Overall) — 当前 Top 10

排名 模型 ELO 分数
1 claude-opus-4-7-thinking 1502.65
2 claude-opus-4-6-thinking 1502.04
3 claude-opus-4-6 1497.10
4 gemini-3.1-pro-preview 1492.56
5 claude-opus-4-7 1491.27
6 muse-spark 1491.21
7 gpt-5.5-high 1487.59
8 gemini-3-pro 1485.68
9 grok-4.20-beta1 1479.62
10 grok-4.20-beta-0309-reasoning 1477.23

本期无变动。 快照时间:2026-05-01。

来源:LM Arena


三、来源状态

所有新闻来源和 benchmark 数据均采集成功,无失败来源。

Sources