AI 日报 2026-05-02 08:38

核心速览

【OpenAI】发布 GPT-5.5，号称"最智能模型" GPT-5.5 正式发布，定位为 OpenAI 迄今最强模型，在编程、研究、数据分析等复杂任务上更快更强。同步上线 Codex 集成及 Bio Bug Bounty（最高 $25,000 奖励），并发布系统安全卡。原文链接

【DeepSeek】发布 DeepSeek-V4 系列，API 75% 折扣 DeepSeek API 新增 V4-Pro 和 V4-Flash 两个模型，同时支持 OpenAI 和 Anthropic 接口格式。V4-Pro 限时 75% 折扣延长至 5 月 31 日，支持 Claude Code 1M 上下文。旧模型名 deepseek-chat/reasoner 将于 3 个月后停用。原文链接

【xAI/SpaceX】与 Cursor 达成深度合作，$600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作，结合 Cursor 的开发者产品分发与 SpaceX 百万 H100 等效 Colossus 超算，目标打造最强编程与知识工作 AI。Cursor 赋予 SpaceX 今年内以 $600 亿收购或支付 $100 亿合作费的选择权。原文链接

【OpenAI】GPT 模型、Codex 及 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 和 Managed Agents 正式在 AWS 上线，企业可在自有 AWS 环境中安全构建 AI 应用。同期 Codex 周活用户达 400 万，并联合 Accenture、PwC 等成立 Codex Labs 推动企业落地。原文链接

【Anthropic】提出"内省适配器"，让模型自我报告训练中的不良行为 Anthropic Fellows 研究提出 Introspection Adapter（IA），使微调后的模型能自我报告训练中学到的行为，包括潜在的错位、后门和安全防护移除。该方法具有泛化能力，为 AI 对齐研究提供新工具。原文链接

重大 Benchmark 变化

Terminal Bench 2.0

模型	变动	详情
Codex CLI / GPT-5.5	🆕 新上榜	直接登顶第 1 名，得分 82.0
Warp / Multiple	排名 32→54	得分 61.2→50.1（-18.2%）

SWE-bench Verified

模型	变动	详情
Warp	排名 11→36	得分 75.6→71.0（-6.1%）
devlo	排名 44→83/94	得分 70.2→54.2（-22.8%）
Nemotron-CORTEXA	排名 50→82	得分 68.2→58.2（-14.7%）
EntroPO + R2E + Qwen3-Coder	排名 103→76 ↑	得分 52.2→60.4（+15.7%）

LMArena Overall（头部变动）

模型	变动	详情
gemini-3.1-pro-preview	排名 5→4	超越 claude-opus-4-7 升至第 4
claude-opus-4-7	排名 4→5	得分 1494.8→1492.6（-0.15%）
gpt-5.3-chat-latest	排名 38→43	得分 1449.7→1448.5
gpt-5.5	排名 16→15	得分 1473.2→1474.0
qwen3.6-max-preview	🆕 新上榜	直接进入第 32 名，得分 1456.9
hunyuan-hy3-preview	🆕 新上榜	进入第 79 名，得分 1419.1

快速预览

OpenAI 发布 GPT-5.5：4/23 发布最智能模型，Codex CLI / GPT-5.5 以 82.0 分登顶 Terminal-Bench 2.0 榜首
DeepSeek-V4 系列上线：V4-Pro 和 V4-Flash 开放 API，V4-Pro 75% 折扣延长至 5/31
xAI 上线 Voice Cloning API：2 分钟克隆自定义语音，支持 28 种语言 80+ 预置音色
LM Arena 榜首易位：claude-opus-4-7-thinking 以 1504.0 分稳居第一，gemini-3.1-pro-preview 升至第 4
SWE-bench Verified 重大变动：Warp 从第 11 跌至第 36（75.6→71.0），devlo 从第 44 跌至第 83/94

一、新闻动态

OpenAI（按日期倒序）

日期	标题	摘要
4/30	Advanced Account Security	推出防钓鱼登录、增强恢复与账户保护
4/29	Where the goblins came from	GPT-5 性格驱动怪癖的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心支撑 AGI 算力需求
4/29	Cybersecurity in the Intelligence Age	五部分行动计划，民主化 AI 网络防御
4/28	Community safety	ChatGPT 模型安全、滥用检测与政策执行
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/27	FedRAMP Moderate	ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
4/27	Microsoft partnership next phase	修订协议简化合作，增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 转为 always-on agent 系统
4/23	Introducing GPT-5.5	最智能模型，擅长编码、研究与数据分析
4/23	GPT-5.5 System Card	系统安全卡发布
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25,000 奖励
4/23	Codex Academy 系列（6 篇）	涵盖 Codex 入门、自动化、插件、设置等
4/22	ChatGPT for Clinicians 免费	面向美国执业医师、护士和药剂师免费开放
4/22	Workspace Agents in ChatGPT	Codex 驱动的云端 agent，自动化复杂工作流
4/22	OpenAI Privacy Filter	开放权重 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Codex 企业扩展	Codex Labs 成立，WAU 达 400 万

OpenAI Codex Changelog

日期	版本	要点
4/30	CLI 0.128.0	持久化 /goal 工作流、app-server API、TUI 控制
4/24	CLI 0.125.0	Unix socket 传输、分页恢复/fork、sticky 环境
4/23	GPT-5.5 + Codex 更新	GPT-5.5 在 Codex 中可用
4/23	CLI 0.124.0	TUI 快速推理控制（Alt+,/.）
4/23	CLI 0.123.0	内置 Amazon Bedrock provider

Anthropic / Claude Code

日期	版本	要点
5/1	v2.1.126	`/model` 选择器支持网关 `/v1/models` 端点
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP server 配置新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`

Anthropic 研究

日期	内容
4/29	Introspection Adapters：让 LLM 自我报告训练中学到的行为（含潜在错位），可泛化检测隐藏后门与安全移除

Google

日期	标题
4/28	Google Translate 20 周年
4/27	AI Agents Vibe Coding 课程（Google + Kaggle）
4/24	Gemini 春季整理技巧
4/23	TPU 驱动 AI 工作负载
4/23	Google 奥地利首个数据中心
4/22	TPU v8t / v8i 发布：第八代 TPU，两款专用芯片面向 agentic 时代

xAI

日期	内容
5/1	Voice Cloning API 上线：2 分钟克隆自定义语音，80+ 预置音色，28 种语言
4/21	SpaceXAI × Cursor 合作：百万 H100 等效 Colossus 超算 + Cursor 产品分发，Cursor 可被 $600 亿收购

DeepSeek

日期	内容
4/29	V4-Pro 折扣延长至 5/31
4/25	V4-Pro 75% OFF 至 5/5；Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文
4/24	DeepSeek-V4 发布：V4-Pro 和 V4-Flash 上线，旧名称 `deepseek-chat`/`deepseek-reasoner` 三个月后停用

二、Benchmark 快照与变化

LM Arena（Overall）— 采集日期 2026-04-30

当前 Top 10：

排名	模型	分数
1	claude-opus-4-7-thinking	1504.00
2	claude-opus-4-6-thinking	1502.37
3	claude-opus-4-6	1496.77
4	gemini-3.1-pro-preview	1492.85
5	claude-opus-4-7	1492.58
6	muse-spark	1490.52
7	gpt-5.5-high	1488.12
8	gemini-3-pro	1485.76
9	grok-4.20-beta1	1479.80
10	gpt-5.4-high	1477.32

本期关键变化：

模型	变化类型	详情
claude-opus-4-7-thinking	分数↑	1502.93 → 1504.00（稳居第 1）
claude-opus-4-7	排名↓	第 4 → 第 5（分数 1494.81 → 1492.58）
gemini-3.1-pro-preview	排名↑	第 5 → 第 4
gpt-5.5	排名↑	第 16 → 第 15
gpt-5.3-chat-latest	排名↓	第 38 → 第 43（分数下降 1.2）
ernie-5.1-preview	排名↓	第 13 → 第 14（分数 1475.80 → 1474.28）
grok-4.20-multi-agent-beta	排名↑	第 14 → 第 13
kimi-k2.6	排名↑ + 分数↑	第 28 → 第 27（1460.71 → 1462.10）
qwen3.5-max-preview	排名↑	第 25 → 第 23
qwen3.6-max-preview	新上榜	直接进入第 32 名（1456.87）
hunyuan-hy3-preview	新上榜	直接进入第 79 名（1419.11）
deepseek-v4-pro	排名↓	第 23 → 第 25
deepseek-v4-flash-thinking	排名↓	第 50 → 第 52
longcat-flash-chat-2602-exp	排名↑ + 分数↑	第 58 → 第 57（1433.10 → 1435.41）
gpt-5.4-nano-high	分数↑	1404.03 → 1406.40（排名不变 #98）
minimax-m2.7	分数↑	1403.87 → 1405.40（排名不变 #99）

SWE-bench Verified — 当前 Top 10

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8
6	EPAM AI/Run + Claude 4 Sonnet	76.8
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8
8	ACoder	76.4
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8

本期变化：

模型	变化	详情
Warp	排名大幅下跌	#11 → #36（75.6 → 71.0）
devlo	排名大幅下跌	#44 → #83/#94（70.2 → 58.2/54.2）
Nemotron-CORTEXA	排名下跌	#50 → #82（68.2 → 58.2）
EntroPO + R2E + Qwen3-Coder-30B	排名大幅上升	#103 → #76（52.2 → 60.4）
EPAM AI/Run + GPT4o	排名下跌	#156 → #162（27.0 → 24.0）
Solver (2024-09-12)	排名下跌	#120 → #126（45.4 → 43.6）

SWE-bench Pro Public — 当前 Top 5（采集 2026-05-02）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

本期无变动。

Terminal-Bench 2.0 — 当前 Top 5

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4

本期变化：

模型	变化	详情
Codex CLI / GPT-5.5	新上榜登顶	直接进入第 1 名（82.0）
Warp / Multiple	排名下跌	#32 → #37/#54（61.2 → 59.1/50.1）

三、来源状态

所有新闻来源和 benchmark 数据源均采集成功，无失败记录。

来源 · 55 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×7 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2