AI 日报 2026-05-03 08:52

核心速览

1. 【OpenAI】发布 GPT-5.5：迄今最强模型 OpenAI 发布 GPT-5.5，定位为"最智能模型"，在编码、研究、数据分析等复杂任务上更快更强。同步推出 System Card 和 Bio Bug Bounty（最高 $25,000 奖励），GPT-5.5 已上线 Codex 平台。原文链接

2. 【DeepSeek】发布 V4 系列：V4-Pro 与 V4-Flash 上线 DeepSeek API 新增 deepseek-v4-pro 和 deepseek-v4-flash 两个模型，同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 当前 75% 折扣，已延长至 5 月 31 日。原文链接

3. 【xAI/SpaceX】xAI 与 Cursor 深度合作，潜在收购价 $600 亿 SpaceXAI 与 Cursor 宣布深度合作，结合 Cursor 的开发者产品分发能力与 SpaceX 百万 H100 等效 Colossus 超算，目标打造最强编码与知识工作 AI。Cursor 同时授予 SpaceX 今年内以 $600 亿收购的选择权。原文链接

4. 【OpenAI】与微软合作进入新阶段 OpenAI 与微软宣布修订合作协议，简化合作结构、增加长期确定性，支持双方在规模化 AI 创新上的持续投入。这是两家公司合作关系的重要里程碑。原文链接

5. 【Anthropic】提出"内省适配器"：让模型自我报告训练中学到的不良行为 Anthropic Fellows 研究提出 Introspection Adapter（IA），可让微调后的模型自我描述其行为特征，包括潜在的错位行为、后门和安全防护移除，泛化能力良好。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
devlo	#44 → #83/94	70.2 → 54.2/58.2	排名暴跌 39-50 位，分数下降 17%-23%，疑为评测结果修正
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	排名下降 32 位，分数下降 14.7%
Warp	#11 → #36	75.6 → 71.0	排名下降 25 位，跌出 Top 30
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	排名上升 27 位，分数提升 15.7%，表现亮眼

Terminal-bench 2.0

模型	排名变动	分数变动	说明
Warp / Multiple	#32 → #37/54	61.2 → 50.1/59.1	排名下降 5-22 位，分数最高下降 18.1%

快速预览

OpenAI 发布 GPT-5.5：4/23 发布，Codex CLI 同步支持，LM Arena 排名第 7（1487.6 分）
DeepSeek-V4 上线：V4-Pro / V4-Flash 可用，API 75% 折扣延至 5/31，支持 Claude Code 1M 上下文
xAI 推出 Voice Cloning API：2 分钟克隆自定义语音，80+ 预置语音覆盖 28 种语言
LM Arena 前三：Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)
SWE-bench Verified 重大变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
4/30	Advanced Account Security	推出防钓鱼登录、增强恢复与账户保护
4/29	Where the goblins came from	GPT-5 行为异常（"goblin"输出）的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心支撑 AGI 算力需求
4/29	Cybersecurity in the Intelligence Age	五步网络安全行动计划，推动 AI 驱动的网络防御民主化
4/28	Community safety	ChatGPT 安全保障：模型防护、滥用检测、政策执行
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/27	FedRAMP Moderate	ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27	Microsoft partnership next phase	修订合作协议，简化伙伴关系，增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
4/27	Choco 客户案例	Choco 用 OpenAI API 自动化食品分销
4/26	Our principles	Sam Altman 分享指导工作的五项原则
4/23	Introducing GPT-5.5	最新旗舰模型，面向编码、研究、数据分析等复杂任务
4/23	GPT-5.5 System Card	GPT-5.5 系统安全卡
4/23	Codex 系列教程	6 篇 Codex 使用指南（入门、设置、插件、自动化等）
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25,000 奖励
4/22	ChatGPT for Clinicians 免费	面向美国执业医师免费开放
4/22	Workspace agents in ChatGPT	Codex 驱动的云端工作流自动化 agent
4/22	OpenAI Privacy Filter	开源 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Scaling Codex to enterprises	Codex Labs 成立，WAU 达 400 万

OpenAI Codex Changelog

日期	版本	要点
4/30	CLI 0.128.0	持久化 /goal 工作流、app-server API、TUI 控制
4/24	CLI 0.125.0	Unix socket 传输、分页恢复/fork、sticky 环境
4/23	GPT-5.5 & Codex 更新	GPT-5.5 在 Codex 中可用
4/23	CLI 0.124.0	TUI 快速推理控制（Alt+,/.）
4/23	CLI 0.123.0	内置 Amazon Bedrock 模型提供者

Anthropic / Claude Code

日期	版本	要点
5/1	v2.1.126	`/model` 选择器支持网关 `/v1/models` 端点
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP server 配置新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`

Anthropic 研究（4/29）：发布"introspection adapters"研究，使语言模型能自我报告训练中学到的行为（包括潜在的不对齐），可泛化至检测隐藏后门和安全防护移除。来源

DeepSeek

日期	标题	摘要
4/29	V4-Pro 折扣延期	75% OFF 延至 5/31 UTC 15:59
4/25	V4-Pro 促销	Claude Code 设 `deepseek-v4-pro[1m]` 可解锁 1M 上下文
4/24	DeepSeek-V4 发布	V4-Pro / V4-Flash 上线，旧名称 `deepseek-chat`/`deepseek-reasoner` 三个月后停用

xAI

日期	标题	摘要
5/1	Voice Cloning API	2 分钟克隆自定义语音，80+ 预置语音，28 种语言
4/21	SpaceX AI × Cursor	SpaceXAI 与 Cursor 合作，Colossus 超算 + Cursor 产品分发

Google

日期	标题	摘要
4/28	Google Translate 20 周年	新功能与使用技巧
4/27	AI Agents Vibe Coding 课程	Google × Kaggle 联合课程
4/22	TPU v8 (8T & 8I)	两款专用 TPU 面向 agentic 时代
4/23	奥地利首个数据中心	Google 在阿尔卑斯山区投资建设数据中心

二、Benchmark 快照

LM Arena（Overall）— 2026-05-01

排名	模型	分数
1	claude-opus-4-7-thinking	1502.7
2	claude-opus-4-6-thinking	1502.0
3	claude-opus-4-6	1497.1
4	gemini-3.1-pro-preview	1492.6
5	claude-opus-4-7	1491.3

来源：LM Arena Leaderboard

SWE-bench Verified（Top 10）— 快照截至 2026-02-17

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8

来源：live-swe-agent / Sonar / ByteDance TRAE

SWE-bench Pro Public（Top 5）— 2026-05-03

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.9

来源：Scale Leaderboard

Terminal-Bench 2.0（Top 5）— 快照截至 2026-04-23

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4

来源：Terminal-Bench Leaderboard

三、Benchmark 变化

SWE-bench Verified

模型	变化	旧排名 → 新排名	旧分 → 新分
Warp	排名+分数下降	#11 → #36	75.6 → 71.0
devlo	排名+分数大幅下降	#44 → #83/#94	70.2 → 58.2/54.2
Nemotron-CORTEXA	排名+分数下降	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	排名+分数上升	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	排名+分数下降	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	排名+分数下降	#120 → #126	45.4 → 43.6

Terminal-Bench 2.0

模型	变化	旧排名 → 新排名	旧分 → 新分
Warp / Multiple	排名+分数下降	#32 → #37/#54	61.2 → 59.1/50.1

LM Arena

本期无变动（快照为 2026-05-01 最新数据，Top 3 见上方快照表）。

数据截止：2026-05-03。所有信息均来自上述来源，未做额外编造。

来源 · 55 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×7 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2