AI 日报 2026-05-02 16:31

核心速览

1. 【OpenAI】发布 GPT-5.5：迄今最强模型 OpenAI 推出 GPT-5.5，定位为"最智能模型"，在编码、研究、数据分析等复杂任务上更快更强。同步发布 System Card 和 Bio Bug Bounty（最高 $25,000 奖励），GPT-5.5 已上线 Codex 平台。原文链接

2. 【DeepSeek】发布 DeepSeek-V4 系列，API 75% 折扣 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型，支持 OpenAI 和 Anthropic 双接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 限时 75% 折扣延长至 5 月 31 日，支持 Claude Code 1M 上下文。原文链接

3. 【xAI/SpaceX】与 Cursor 达成深度合作，$600 亿收购权 SpaceXAI 与 Cursor 合作，结合 Cursor 的开发者产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算，目标打造世界最强编码与知识工作 AI。Cursor 赋予 SpaceX 今年内以 600 亿美元收购的选择权。原文链接

4. 【OpenAI】与微软合作进入新阶段 OpenAI 与微软宣布修订合作协议，简化合作关系、增加长期确定性，支持大规模 AI 创新。此举为 OpenAI 的独立发展和上市路径扫清障碍。原文链接

5. 【Anthropic】提出"内省适配器"：让模型自我报告不当行为 Anthropic Fellows 研究提出 Introspection Adapter，通过训练单一适配器使微调后的模型能自我描述其学到的行为，包括潜在的错位、后门和安全防护移除，泛化能力良好。原文链接

重大 Benchmark 变化

SWE-bench Verified 排名显著变动：

模型	排名变动	分数变动	说明
devlo	#44 → #83/#94	70.2 → 58.2/54.2	大幅下滑，分数降幅超 17%
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	排名下降 32 位，分数降 14.7%
Warp	#11 → #36	75.6 → 71.0	排名下降 25 位
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	排名上升 27 位，分数提升 15.7%

Terminal Bench 2.0：

Warp / Multiple：#32 → #37/#54，分数从 61.2 降至 59.1/50.1，排名最大下滑 22 位。

快速预览

OpenAI 发布 GPT-5.5：4/23 发布最强模型 GPT-5.5，同步上线 Codex CLI 0.123–0.128 多个版本，Codex WAU 达 400 万
DeepSeek-V4 上线：V4-Pro / V4-Flash 开放 API，V4-Pro 75% 折扣延至 5/31；旧模型名 deepseek-chat / deepseek-reasoner 将于 7/24 停用
xAI 推出 Voice Cloning API：2 分钟克隆自定义语音，支持 80+ 预置音色 / 28 种语言
LM Arena 榜首易主：claude-opus-4-7-thinking 以 1502.65 分登顶，claude-opus-4-6-thinking 紧随其后（1502.04）
SWE-bench Verified 大幅洗牌：Warp 从 #11 跌至 #36（75.6→71.0），devlo 从 #44 跌至 #83–94（70.2→58.2）

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
4/30	Advanced Account Security	推出防钓鱼登录、增强恢复与账户保护
4/29	Where the goblins came from	GPT-5 人格化输出（"goblin"）的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心支撑 AGI 算力需求
4/29	Cybersecurity in the Intelligence Age	五步网络安全行动计划，推动 AI 驱动的网络防御民主化
4/28	Community safety	ChatGPT 模型安全、滥用检测与政策执行
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 上线 AWS
4/27	FedRAMP Moderate	ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27	Microsoft partnership next phase	修订合作协议，简化结构、增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
4/27	Choco 客户案例	Choco 用 OpenAI API 自动化食品分销
4/26	Our principles	Sam Altman 分享五项指导原则
4/23	Introducing GPT-5.5	最强模型，面向编码、研究、数据分析等复杂任务
4/23	GPT-5.5 System Card	GPT-5.5 系统安全卡
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25,000 奖励
4/23	Codex 系列教程（6 篇）	What is Codex · Getting started · Settings · Working with Codex · Plugins & skills · Top 10 uses · Automations
4/22	ChatGPT for Clinicians 免费	面向美国执业医师、NP、药剂师免费开放
4/22	Workspace agents	Codex 驱动的 ChatGPT 工作区 Agent
4/22	WebSockets 加速 agentic workflows	WebSocket + 连接级缓存降低 API 开销
4/22	OpenAI Privacy Filter	开放权重 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Scaling Codex to enterprises	Codex Labs 成立，与 Accenture/PwC/Infosys 合作，WAU 达 400 万
4/20	Hyatt 案例	Hyatt 全球部署 ChatGPT Enterprise

OpenAI Codex CLI Changelog

日期	版本	要点
4/30	0.128.0	持久化 /goal 工作流、app-server API、TUI 控制
4/24	0.125.0	Unix socket 传输、分页 resume/fork、sticky 环境
4/23	GPT-5.5 + Codex app	GPT-5.5 上线 Codex
4/23	0.124.0	TUI 快速推理控制（Alt+, / Alt+.）
4/23	0.123.0	内置 Amazon Bedrock 模型提供方

Anthropic / Claude Code

日期	版本	要点
5/1	v2.1.126	`/model` picker 支持列出网关 `/v1/models` 端点模型
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP server 配置新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`

Anthropic 研究（4/29）：发布"Introspection Adapters"研究——训练单一适配器让微调模型自我报告训练中学到的行为（含潜在错位、后门、安全移除）。来源

Google

日期	标题	摘要
4/28	Google Translate 20 周年	新功能与使用技巧
4/27	AI Agents Vibe Coding Course	Google × Kaggle 联合 AI Agent 编码课程
4/24	Gemini 春季整理技巧	8 个 Gemini 整理空间与生活技巧
4/23	TPU 驱动 AI 工作负载	TPU 如何支撑日益增长的 AI 算力
4/23	奥地利首个数据中心	Google 在阿尔卑斯山区投资首个数据中心
4/22	TPU v8t & v8i 发布	第八代 TPU，两款专用芯片面向 agentic 时代
4/21	Ads Advisor 3 项更新	Google Ads 更安全、更快速

xAI

日期	标题	摘要
5/1	Voice Cloning API 上线	2 分钟克隆自定义语音，80+ 预置音色，28 种语言
4/21	SpaceXAI × Cursor 合作	SpaceX 百万 H100 等效 Colossus 超算 + Cursor 产品分发，$600 亿收购权

DeepSeek

日期	标题	摘要
4/29	V4-Pro 折扣延至 5/31	75% OFF 延期；Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文
4/25	V4-Pro 75% OFF	截止 5/5；集成 Claude Code / OpenCode / OpenClaw
4/24	DeepSeek-V4 发布	V4-Pro & V4-Flash 上线，支持 OpenAI & Anthropic 接口；旧名 deepseek-chat / deepseek-reasoner 7/24 停用

二、Benchmark 快照与变化

LM Arena（Overall）— 2026-05-01 采集

排名	模型	分数
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10
4	gemini-3.1-pro-preview	1492.56
5	claude-opus-4-7	1491.27
6	muse-spark	1491.21
7	gpt-5.5-high	1487.59
8	gemini-3-pro	1485.68
9	grok-4.20-beta1	1479.62
10	grok-4.20-beta-0309-reasoning	1477.23

本期无变动记录。 Anthropic Claude 系列包揽前三，GPT-5.5-high 排第 7，xAI Grok 4.20 两个版本进入 Top 10。

SWE-bench Verified（Top 10）— 快照

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8
6	EPAM AI/Run + Claude 4 Sonnet	76.8
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8
8	ACoder	76.4
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8

本期变化（显著项）：

模型	排名变化	分数变化
Warp	#11 → #36	75.6 → 71.0
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76 ↑	52.2 → 60.4
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	#120 → #126	45.4 → 43.6

Warp、devlo、Nemotron-CORTEXA 排名大幅下滑，可能与评测方法更新或提交版本回退有关。EntroPO + Qwen3-Coder-30B 是唯一显著上升的模型。

SWE-bench Pro Public（Top 10）— 2026-05-02 采集

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

本期无变动记录。 GPT-5.4 (xHigh) 以 59.1 领跑，Muse Spark 紧随其后。

Terminal-Bench 2.0（Top 10）— 快照

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4
6	ForgeCode / Gemini 3.1 Pro	78.4
7	Droid / GPT-5.3-Codex	77.3
8	Capy / Claude Opus 4.6	75.3
9	Simple Codex / GPT-5.3-Codex	75.1
10	Terminus-KIRA / Gemini 3.1 Pro	74.8

本期变化：

模型	排名变化	分数变化
Warp / Multiple	#32 → #37 / #54	61.2 → 59.1 / 50.1

GPT-5.5 + Codex CLI 登顶 82.0，GPT 系列在终端编码场景占据主导。

三、来源状态

所有新闻来源与 benchmark 数据源均采集成功，无失败记录。

来源 · 55 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×7 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2