AI 日报 2026-05-08 08:56

核心速览

2026年5月7日 AI 行业日报（快速版）

1. 【OpenAI】GPT-5.5 Instant 发布：更智能、更准确、更个性化

GPT-5.5 Instant 成为 ChatGPT 新默认模型，显著降低幻觉率，提升回答准确性，并增强个性化控制能力。这是 OpenAI 近期最重要的基础模型升级，直接影响数亿用户的日常体验。原文链接

2. 【xAI】Grok 4.3 上线：登顶多项权威排行榜

Grok 4.3 在 xAI API 上线，支持 100 万 token 上下文窗口，定价 $1.25/M 输入、$2.50/M 输出。该模型在 Artificial Analysis 的 agentic tool calling 和 instruction following 排行榜中排名第一，同时在 ValsAI 企业级场景（案例法、企业金融）中也位列榜首。原文链接

3. 【Anthropic】与 SpaceX 达成算力合作，提升 Claude 使用限额

Anthropic 宣布与 SpaceX 达成算力合作协议，将大幅增加其计算资源。配合近期其他算力交易，Claude Code 和 Claude API 的使用限额已相应提高，标志着 Anthropic 在算力基础设施上的重大投入。原文链接

4. 【OpenAI】ChatGPT 开始测试广告

OpenAI 正式在 ChatGPT 中测试广告，旨在维持免费用户的访问。广告将明确标注，不影响回答内容独立性，并配备强隐私保护和用户控制选项。同时推出自助广告管理器和 CPC 竞价模式。原文链接

5. 【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs

Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营，同时发布重大更新，提升测试的适应性、真实性和深度。此举体现了 Anthropic 将安全工具生态化的战略思路。原文链接

重大 Benchmark 变化

SWE-bench Verified 排名显著变动：

模型	排名变动	分数变动	说明
devlo	#44 → #83/#94	70.2 → 58.2/54.2	大幅下滑，分数降幅超 17%
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	排名下跌 32 位，分数降 14.7%
Warp	#11 → #36	75.6 → 71.0	排名下跌 25 位，跌出头部梯队
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	逆势上升 27 位，分数提升 15.7%

Terminal Bench 2.0：

Warp / Multiple：#32 → #37/#54，分数从 61.2 降至 59.1/50.1，表现持续走弱。

本轮变动中，devlo 和 Nemotron-CORTEXA 的大幅下滑值得关注，可能与评测方法调整或模型回退有关；EntroPO + Qwen3-Coder 组合则是本轮最大赢家。

快速预览

OpenAI 发布 GPT-5.5 及 GPT-5.5-Cyber，扩展网络安全 Trusted Access，同日推出 GPT-5.5 Instant 更新默认模型
xAI Grok 4.3 上线 API，称在 Artificial Analys 工具调用与指令跟随榜单排名第一，定价 $1.25/$2.50 per million tokens
Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs，并公开 HackerOne 安全漏洞赏金计划；与 SpaceX 达成算力合作
SWE-bench Verified 榜单大幅变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94，EntroPO+Qwen3-Coder 从 #103 升至 #76
LM Arena 总榜 Top 3 均为 Anthropic Claude 系列：claude-opus-4-7-thinking (1502.65)、claude-opus-4-6-thinking (1502.04)、claude-opus-4-6 (1497.10)

一、新闻动态

OpenAI（按日期倒序）

日期	标题	摘要
05-07	GPT-5.5 & GPT-5.5-Cyber Trusted Access	扩展网络安全可信访问，帮助防御者加速漏洞研究
05-07	Parloa 客服语音 Agent	Parloa 基于 OpenAI 模型构建可扩展的语音客服 Agent
05-07	新实时语音模型 API	推出可推理、翻译、转录的实时语音模型
05-07	ChatGPT Trusted Contact	检测到严重自伤风险时通知信任联系人的安全功能
05-07	ChatGPT 广告测试	开始在 ChatGPT 中测试广告，支持免费用户使用
05-07	Codex Chrome 扩展	Codex 新增 Chrome 扩展，可在浏览器标签页中并行工作
05-07	Codex CLI 0.129.0	TUI 支持 Vim 模态编辑
05-06	ChatGPT Futures 2026	26 名学生创新者计划
05-06	B2B Signals 研究	前沿企业 AI 采纳深度研究
05-05	GPT-5.5 Instant	更新 ChatGPT 默认模型，减少幻觉、提升个性化
05-05	MRC 超算网络协议	通过 OCP 发布新网络协议，提升大规模训练集群韧性
05-05	ChatGPT 广告自助平台	推出 Ads Manager Beta、CPC 竞价和增强度量工具
05-04	OpenAI × PwC CFO 协作	AI Agent 自动化财务工作流

Anthropic

日期	来源	标题	摘要
05-07	X	Petri 捐赠 Meridian Labs	将开源对齐工具 Petri 捐赠给独立机构，并发布重大更新
05-07	X	Bug Bounty 公开	HackerOne 安全漏洞赏金计划转为公开
05-06	X	SpaceX 算力合作	与 SpaceX 达成算力合作，提升 Claude Code 和 API 使用限额

Claude Code 发版

日期	版本	要点
05-07	v2.1.133	新增 `worktree.baseRef` 设置，默认改为 `origin/` 基准
05-06	v2.1.132	Bash 子进程暴露 `CLAUDE_CODE_SESSION_ID` 环境变量
05-06	v2.1.131	修复 Windows VS Code 扩展激活失败
05-06	v2.1.129	新增 `--plugin-url` 标志
05-04	v2.1.128	`/color` 无参数时随机选色

xAI

日期	标题	摘要
05-07	图片生成 Quality Mode API	已生成超 3 亿张图片，更强真实感和文字渲染
05-05	Grok 4.3 上线 API	称在 Artificial Analys 工具调用/指令跟随榜单第一，ValsAI 企业领域第一；1M 上下文，$1.25/$2.50 per M tokens
05-01	Voice Cloning API	2 分钟创建自定义语音，80+ 语音库覆盖 28 种语言

DeepSeek

日期	标题	摘要
04-29	V4-Pro 折扣延长	DeepSeek-V4-Pro 75% 折扣延长至 5 月 31 日；支持 Claude Code / OpenCode / OpenClaw 集成

Google

日期	标题	摘要
05-06	Search 园艺提示	Search 新增园艺 AI 功能
05-05	XPRIZE 电影竞赛	与 XPRIZE 合作 $350 万 AI 电影竞赛
05-04	Gemini API Webhooks	新增 Webhooks 降低长任务延迟
04-27	Kaggle Vibe Coding 课程	Google × Kaggle 推出 AI Agent 编程课程

二、Benchmark 快照与变化

SWE-bench Verified — 当前 Top 10

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

Top 3 无变动。 以下为中下游显著变化：

模型	变化	旧排名→新排名	旧分→新分
Warp	排名+分数下降	#11 → #36	75.6 → 71.0
devlo	排名+分数大幅下降	#44 → #83 / #94	70.2 → 58.2 / 54.2
Nemotron-CORTEXA	排名+分数下降	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	排名+分数上升	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	排名+分数下降	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	排名+分数下降	#120 → #126	45.4 → 43.6

来源：SWE-bench Verified

SWE-bench Pro Public — 当前 Top 10

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

本期无变动。 快照时间：2026-05-08。

来源：Scale AI Leaderboard

Terminal-Bench 2.0 — 当前 Top 10

排名	Agent / 模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4
6	ForgeCode / Gemini 3.1 Pro	78.4
7	Droid / GPT-5.3-Codex	77.3
8	Capy / Claude Opus 4.6	75.3
9	Simple Codex / GPT-5.3-Codex	75.1
10	Terminus-KIRA / Gemini 3.1 Pro	74.8

变化：

模型	变化	旧排名→新排名	旧分→新分
Warp / Multiple	排名+分数下降	#32 → #37 / #54	61.2 → 59.1 / 50.1

来源：Terminal-Bench

LM Arena (Overall) — 当前 Top 10

排名	模型	ELO 分数
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10
4	gemini-3.1-pro-preview	1492.56
5	claude-opus-4-7	1491.27
6	muse-spark	1491.21
7	gpt-5.5-high	1487.59
8	gemini-3-pro	1485.68
9	grok-4.20-beta1	1479.62
10	grok-4.20-beta-0309-reasoning	1477.23

本期无变动。 快照时间：2026-05-01。

来源：LM Arena

三、来源状态

所有新闻来源和 benchmark 数据均采集成功，无失败来源。

来源 · 53 条

openai.com ×27 developers.openai.com ×3 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×3 blog.google ×7 @xai ×3 @deepseek_ai ×2