AI 日报 2026-05-02 15:52

核心速览

1.【OpenAI】发布 GPT-5.5，定位"最强模型" OpenAI 推出 GPT-5.5，定位为迄今最智能的模型，在编程、研究和数据分析等复杂任务上速度更快、能力更强。GPT-5.5 已同步上线 Codex，支持跨工具工作流。LM Arena 排名从第 15 升至第 13，分数 1475.5。原文链接

2.【DeepSeek】发布 V4 系列模型，API 75 折促销 DeepSeek 发布 V4-Pro 和 V4-Flash 两款新模型，同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 限时 75 折至 5 月 31 日，支持 Claude Code 1M 上下文接入。原文链接

3.【OpenAI × Microsoft】宣布合作协议修订，进入新阶段 OpenAI 与微软宣布修订合作协议，简化合作关系、增加长期确定性，支持双方在大规模 AI 创新上的持续协作。这是两家公司战略关系的重要里程碑。原文链接

4.【xAI × SpaceX × Cursor】三方联手打造最强编程 AI SpaceXAI 与 Cursor 达成深度合作，结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算，目标打造世界最强编程与知识工作 AI。Cursor 同时授予 SpaceX 以 600 亿美元收购的选择权。原文链接

5.【Anthropic】提出"内省适配器"，让模型自我报告训练中学到的不良行为 Anthropic Fellows 研究提出 Introspection Adapter（IA），可让微调后的语言模型自我报告其学到的行为，包括潜在的错位、后门和安全防护移除。该方法具有泛化能力，为 AI 对齐研究提供新工具。原文链接

重大 Benchmark 变化

SWE-bench Verified（排名变动 ≥5）

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B	103 → 76（↑27）	52.2 → 60.4（↑15.7%）	大幅跃升，编码能力显著提升
Warp	11 → 36（↓25）	75.6 → 71.0（↓6.1%）	排名大幅下滑
Nemotron-CORTEXA	50 → 82（↓32）	68.2 → 58.2（↓14.7%）	分数与排名双降
devlo	44 → 83/94（↓39-50）	70.2 → 58.2/54.2（↓17-23%）	多条目大幅下跌

LM Arena Overall（排名变动 ≥5）

模型	排名变动	分数	说明
grok-4.3	新上榜	34 名（1455.7）	xAI 新模型首次入榜
GPT-5.5	15 → 13（↑2）	1475.5（↑1.4）	新发布后排名上升
deepseek-v4-flash-thinking	52 → 55（↓3）	1438.8	小幅下滑

注：LM Arena 本轮变动以 1-3 名微调为主，无 ≥5 名的大幅变动。SWE-bench 变动最为剧烈。

快速预览

OpenAI 发布 GPT-5.5（4/23），号称最强模型，Terminal-Bench 2.0 以 82.0 分登顶；同期推出 Codex CLI 0.123–0.128 系列更新
DeepSeek-V4-Pro/V4-Flash 上线（4/24），API 75% 折扣延至 5/31；LM Arena 排名 24–27 位区间
xAI 上线 Voice Cloning API（5/1），80+ 语音、28 种语言；LM Arena 新增 grok-4.3（rank 34）
Anthropic 发布"内省适配器"研究（4/29），让模型自报告训练中学到的不当行为；Claude Code 迭代至 v2.1.126
LM Arena Top 3 不变：claude-opus-4-7-thinking (1502.7)、claude-opus-4-6-thinking (1502.0)、claude-opus-4-6 (1497.1)；gpt-5.5 升至第 13 位

一、新闻（按厂商 / 日期倒序）

OpenAI

日期	标题	要点
4/30	Advanced Account Security	防钓鱼登录、增强恢复、防账户接管
4/29	Where the goblins came from	GPT-5 性格驱动怪癖的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心
4/29	Cybersecurity in the Intelligence Age	五步网络安全行动计划
4/28	Community safety	ChatGPT 模型保障、滥用检测、政策执行
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/27	FedRAMP Moderate	ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27	Microsoft partnership next phase	修订合作协议，简化结构、增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
4/23	Introducing GPT-5.5	最强模型，面向编码/研究/数据分析；同步发布 System Card
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25,000
4/23	Codex 系列教程（6 篇）	What is Codex · Getting started · Settings · Working with Codex · Plugins & skills · Top 10 uses · Automations
4/22	ChatGPT for Clinicians 免费	面向美国执业医师、NP、药剂师免费开放
4/22	Workspace agents in ChatGPT	Codex 驱动的云端 agent，自动化复杂工作流
4/22	Privacy Filter	开放权重 PII 检测与脱敏模型
4/22	WebSockets 加速 agentic workflows	Responses API 中 WebSocket + 连接级缓存降低延迟
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Codex 企业扩展	Codex Labs + Accenture/PwC/Infosys 合作；Codex WAU 达 400 万

OpenAI Codex Changelog

日期	版本	要点
4/30	CLI 0.128.0	持久化 /goal 工作流、app-server API、TUI 控制
4/24	CLI 0.125.0	Unix socket 传输、分页 resume/fork、sticky 环境
4/23	GPT-5.5 + Codex app 更新	GPT-5.5 在 Codex 中可用
4/23	CLI 0.124.0	TUI 快速推理控制（Alt+,/Alt+.）
4/23	CLI 0.123.0	内置 Amazon Bedrock provider

Anthropic / Claude Code

日期	标题	要点
5/1	Claude Code v2.1.126	`/model` picker 支持 gateway `/v1/models` 端点
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP server config 新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`
4/29	Introspection Adapters 研究	训练模型自报告学到的行为（含潜在错位），可泛化检测隐藏后门

Google

日期	标题	要点
4/28	Google Translate 20 周年	新功能与使用技巧
4/27	AI Agents Vibe Coding Course	Google + Kaggle 联合课程
4/24	Gemini 春季整理技巧	8 个 Gemini 实用提示
4/23	TPU 驱动 AI 工作负载	新视频介绍 TPU 能力
4/23	奥地利首个数据中心	Google 在阿尔卑斯山区投资建设
4/22	TPU v8t & v8i	第八代 TPU，面向 agentic 时代
4/21	Ads Advisor 3 项更新	Google Ads 更安全、更快

xAI

日期	标题	要点
5/1	Voice Cloning API	2 分钟创建自定义语音，80+ 语音、28 种语言
4/21	SpaceXAI × Cursor 合作	Cursor 与 SpaceX 联合打造编码/知识工作 AI；Cursor 可被 $600 亿收购

DeepSeek

日期	标题	要点
4/29	V4-Pro 折扣延至 5/31	75% OFF 延期；支持 Claude Code 1M 上下文
4/25	V4-Pro 75% OFF	截止 5/5；集成 Claude Code / OpenCode / OpenClaw
4/24	DeepSeek-V4 发布	V4-Pro & V4-Flash 上线；旧名 deepseek-chat / deepseek-reasoner 三个月后停用

二、Benchmark 快照（当前 Top 10）

LM Arena — Overall（2026-05-01）

Rank	Model	Score
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10
4	gemini-3.1-pro-preview	1492.56
5	claude-opus-4-7	1491.27
6	muse-spark	1491.21
7	gpt-5.5-high	1487.59
8	gemini-3-pro	1485.68
9	grok-4.20-beta1	1479.62
10	grok-4.20-beta-0309-reasoning	1477.23

SWE-bench Verified（截至 2026-02-17）

Rank	Model	Score
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8

SWE-bench Pro Public（2026-05-02）

Rank	Model	Score
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

Terminal-Bench 2.0（截至 2026-04-23）

Rank	Model	Score
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4

三、榜单变化

LM Arena — 本期显著变化

新模型入场：

grok-4.3 首次上榜，直接进入 rank 34（score 1455.67）

排名上升：

gpt-5.5：15 → 13（score 1474.02 → 1475.46）
grok-4.20-beta-0309-reasoning：11 → 10
deepseek-v4-pro：25 → 24
deepseek-v4-pro-thinking：28 → 27
mimo-v2.5-pro：24 → 22
mimo-v2.5：72 → 70（score 上升）
qwen3.6-max-preview：32 → 31
qwen3.6-plus：47 → 46（score 上升）
glm-5：33 → 32

排名下降：

gpt-5.4-high：10 → 11
ernie-5.1-preview：14 → 15
grok-4.20-multi-agent-beta-0309：13 → 14
gpt-5.4-mini-high：31 → 33（score 下降）
kimi-k2.6：27 → 28（score 下降）
qwen3.5-max-preview：23 → 25
deepseek-v4-flash-thinking：52 → 55

分数微调（Top 3）：

claude-opus-4-7-thinking：1504.00 → 1502.65（↓1.35）
claude-opus-4-7：1492.58 → 1491.27（↓1.31）

SWE-bench Verified — 本期变化

模型	变化	详情
Warp	排名大幅下降	11 → 36（75.6 → 71.0）
devlo	排名大幅下降	44 → 83/94（70.2 → 58.2/54.2）
Nemotron-CORTEXA	排名下降	50 → 82（68.2 → 58.2）
EntroPO + R2E + Qwen3-Coder-30B	排名大幅上升	103 → 76（52.2 → 60.4）
EPAM AI/Run + GPT4o	小幅下降	156 → 162（27.0 → 24.0）
Solver (2024-09-12)	小幅下降	120 → 126（45.4 → 43.6）

Terminal-Bench 2.0 — 本期变化

模型	变化	详情
Warp / Multiple	排名下降	32 → 37（61.2 → 59.1）

注：Terminal-Bench 2.0 Top 3 无变动，仍为 Codex CLI / GPT-5.5 (82.0)、ForgeCode / GPT-5.4 (81.8)、TongAgents / Gemini 3.1 Pro (80.2)。

SWE-bench Pro Public — 本期无变动

Top 3 为 gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9，排名与分数均未变化。

来源 · 55 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×7 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2