AI 日报 2026-05-07 08:50

核心速览

1.【OpenAI】GPT-5.5 Instant 发布：更快、更准、更个性化 GPT-5.5 Instant 作为 ChatGPT 默认模型更新，显著减少幻觉、提升回答准确性，并增强个性化控制能力。这是 GPT-5.5 系列的轻量推理版本，面向日常高频场景优化。原文链接

2.【xAI】Grok 4.3 上线 API：登顶多项权威榜单 Grok 4.3 是 xAI 最快、最强模型，在 Artificial Analysis 智能体工具调用和指令跟随榜单排名第一，在 ValsAI 企业法律和金融领域也位列榜首。支持 100 万 token 上下文，定价 $1.25/$2.50 per million tokens。原文链接

3.【Anthropic】与 SpaceX 达成算力合作，提升 Claude Code 和 API 用量上限 Anthropic 宣布与 SpaceX 签署算力合作协议，将大幅增加计算容量。配合近期其他算力交易，Claude Code 和 Claude API 的使用限额已相应提高。原文链接

4.【OpenAI】发布 MRC 超算网络协议，开源至 OCP OpenAI 推出 MRC（Multipath Reliable Connection）新型超算网络协议，通过 OCP 开源，旨在提升大规模 AI 训练集群的网络韧性和性能。这是基础设施层面的关键技术突破。原文链接

5.【DeepSeek】V4-Pro 折扣延期至 5 月 31 日，已支持 Claude Code 集成 DeepSeek-V4-Pro API 75% 折扣延长至 5 月 31 日。V4-Pro 和 V4-Flash 已支持 OpenAI 和 Anthropic 双接口，旧模型名 deepseek-chat/deepseek-reasoner 将于 7 月 24 日停用。原文链接

重大 Benchmark 变化

SWE-bench Verified 排名大幅波动：

模型	排名变动	分数变动	变动幅度
EntroPO + R2E + Qwen3-Coder-30B	103 → 76 ⬆️	52.2 → 60.4	+15.7%
devlo	44 → 83/94 ⬇️	70.2 → 58.2/54.2	-17%~-23%
Nemotron-CORTEXA	50 → 82 ⬇️	68.2 → 58.2	-14.7%
Warp	11 → 36 ⬇️	75.6 → 71.0	-6.1%

Terminal-Bench 2.0：

Warp / Multiple：排名 32 → 54 ⬇️，分数 61.2 → 50.1（-18.1%）

注：devlo 出现两条记录，分数分别降至 58.2 和 54.2，疑为不同配置提交。Warp 在两个榜单均出现显著下滑。

快速预览

OpenAI 发布 GPT-5.5 Instant：默认模型升级，减少幻觉、提升个性化，同步发布 System Card
xAI Grok 4.3 上线：在 ArtificialAnlys 智能体工具调用与指令跟随榜单排名第一，定价 $1.25/$2.50 per M tokens
Anthropic 与 SpaceX 达成算力合作：提升 Claude Code 和 API 使用限额
SWE-bench Verified 榜单大幅变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94
LM Arena 总榜 Top 3 均为 Claude 系列：claude-opus-4-7-thinking (1502.65) 领先

一、新闻动态

OpenAI（按日期倒序）

日期	标题	摘要
05-06	Singular Bank × ChatGPT & Codex	Singular Bank 用 ChatGPT + Codex 构建内部助手，银行家每日节省 60–90 分钟
05-06	ChatGPT Futures: Class of 2026	26 名学生创新者使用 AI 进行研究与实践
05-06	B2B Signals 研究	前沿企业如何通过 Codex 驱动的 Agentic 工作流构建 AI 竞争优势
05-06	Uber × OpenAI	Uber 使用 OpenAI 驱动 AI 助手与语音功能，帮助司机增收、乘客更快叫车
05-05	GPT-5.5 Instant System Card	GPT-5.5 Instant 安全评估卡发布
05-05	MRC 超算网络协议	OpenAI 发布 MRC（Multipath Reliable Connection），通过 OCP 开源，提升大规模 AI 训练集群的韧性和性能
05-05	GPT-5.5 Instant 发布	ChatGPT 默认模型升级——更智能、更准确、减少幻觉、增强个性化控制
05-05	ChatGPT 广告自助投放	推出自助 Ads Manager、CPC 竞价和增强衡量工具（Beta）
05-04	OpenAI × PwC CFO 合作	联合帮助企业用 AI Agent 自动化财务工作流、改善预测
05-04	低延迟语音 AI 架构	详解 OpenAI 如何重建 WebRTC 栈以实现全球规模实时语音 AI
04-30	高级账户安全	推出防钓鱼登录、增强恢复和账户接管防护
04-29	GPT-5 "Goblin" 行为溯源	解释 GPT-5 人格化怪异输出的根因与修复
04-29	Stargate 算力基建	扩展 Stargate 数据中心容量以支撑 AGI 需求
04-29	智能时代网络安全	五部分行动计划：民主化 AI 网络防御
04-28	社区安全承诺	模型保障、滥用检测、政策执行与安全专家协作
04-28	OpenAI 登陆 AWS	GPT 模型、Codex、Managed Agents 在 AWS 上可用
04-27	FedRAMP Moderate 认证	ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
04-27	微软合作新阶段	修订协议简化合作关系，增加长期确定性
04-27	Symphony 开源编排规范	将 issue tracker 变为 always-on Agent 系统
04-27	Choco × OpenAI	Choco 用 OpenAI API 自动化食品分销
04-26	Our Principles	Sam Altman 分享指导 OpenAI 工作的五项原则
04-23	GPT-5.5 发布	最智能模型——更快、更强，适用于编码、研究和数据分析
04-23	GPT-5.5 System Card	GPT-5.5 安全评估卡

Codex CLI 更新

版本	日期	要点
0.128.0	04-30	持久化 /goal 工作流、app-server API、运行时续接、TUI 控制
0.125.0	04-24	Unix socket 传输、分页恢复/fork、sticky 环境、远程线程配置

Anthropic（按日期倒序）

日期	来源	标题	摘要
05-06	X	SpaceX 算力合作	与 SpaceX 达成合作，显著增加算力，提升 Claude Code 和 API 使用限额
05-05	X	Sandbagging 研究	Anthropic Fellows 发现：可用弱模型监督训练出接近满能力的模型，防止战略性能力隐藏
04-29	X	Introspection Adapters	训练语言模型自我报告训练中学到的行为（包括潜在的不对齐），可泛化检测隐藏后门和安全移除

Claude Code 发布

版本	日期	要点
v2.1.132	05-06	新增 `CLAUDE_CODE_SESSION_ID` 环境变量
v2.1.131	05-06	修复 Windows 上 VS Code 扩展激活失败（`createRequire` polyfill bug）
v2.1.129	05-06	新增 `--plugin-url` 标志，支持从 URL 加载插件 zip
v2.1.128	05-04	`/color` 无参数时随机选择会话颜色
v2.1.126	05-01	`/model` 选择器支持从网关 `/v1/models` 端点列出模型

xAI（按日期倒序）

日期	来源	标题	摘要
05-07	X	Image Gen Quality Mode API	已生成超 3 亿张图像，更高真实感、更强文字渲染、更好创意控制
05-05	X	Grok 4.3 上线	最快最智能模型；ArtificialAnlys 智能体工具调用 & 指令跟随 #1；ValsAI 企业领域（案例法、公司金融）#1；100 万 token 上下文；定价 $1.25/$2.50 per M
05-01	X	Voice Cloning API	2 分钟创建自定义语音，80+ 语音库覆盖 28 种语言

Google（按日期倒序）

日期	标题	摘要
05-06	Search 园艺技巧	Search 中新增园艺提示功能
05-05	XPRIZE Future Vision 影片竞赛	Google × XPRIZE × Range Media Partners，350 万美元奖金
05-04	2026 年 4 月 AI 更新汇总	四月 AI 新闻回顾
05-04	Gemini API Webhooks	事件驱动 Webhooks 减少长任务延迟
04-28	Google Translate 20 周年	新功能与趣味回顾
04-27	Kaggle AI Agents Vibe Coding 课程	Google × Kaggle 推出 AI Agent 编程课程
04-24	Gemini 整理空间技巧	8 个 Gemini 使用技巧
04-23	TPU 驱动 AI 工作负载	TPU 如何支撑日益增长的 AI 负载
04-23	奥地利首个数据中心	Google 在阿尔卑斯山区投资首个数据中心

DeepSeek（按日期倒序）

日期	来源	标题	摘要
04-29	X	V4-Pro 折扣延期	75% 折扣延至 2026-05-31 15:59 UTC
04-25	X	V4-Pro 75% OFF	Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 100 万上下文
04-24	API Docs	DeepSeek-V4 发布	支持 V4-Pro 和 V4-Flash；旧名称 `deepseek-chat` / `deepseek-reasoner` 将于 07-24 停用

二、Benchmark 快照与变化

SWE-bench Verified — 当前 Top 10

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

本期变化（显著项）：

模型	排名变化	分数变化	备注
Warp	#11 → #36	75.6 → 71.0	大幅下滑
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2	多条记录均大幅下滑
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	显著上升
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	大幅下滑
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	小幅下滑
Solver (2024-09-12)	#120 → #126	45.4 → 43.6	小幅下滑

SWE-bench Pro Public — 当前 Top 10

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

采集时间：2026-05-07。本期无排名/分数变动记录。

Terminal-Bench 2.0 — 当前 Top 10

排名	Agent / 模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4
6	ForgeCode / Gemini 3.1 Pro	78.4
7	Droid / GPT-5.3-Codex	77.3
8	Capy / Claude Opus 4.6	75.3
9	Simple Codex / GPT-5.3-Codex	75.1
10	Terminus-KIRA / Gemini 3.1 Pro	74.8

本期变化：

模型	排名变化	分数变化
Warp / Multiple	#32 → #37 / #54	61.2 → 59.1 / 50.1

LM Arena (Overall) — 当前 Top 10

排名	模型	ELO 分数
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10
4	gemini-3.1-pro-preview	1492.56
5	claude-opus-4-7	1491.27
6	muse-spark	1491.21
7	gpt-5.5-high	1487.59
8	gemini-3-pro	1485.68
9	grok-4.20-beta1	1479.62
10	grok-4.20-beta-0309-reasoning	1477.23

采集时间：2026-05-01。本期无变动记录。Claude 系列占据前 3 及第 5 位，GPT-5.5-high 排第 7。

三、来源状态

所有新闻来源和 benchmark 数据源均采集成功，无失败记录。

来源 · 58 条

openai.com ×30 developers.openai.com ×2 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×3 blog.google ×9 @xai ×3 api-docs.deepseek.com @deepseek_ai ×2