AI 日报 2026-05-02 15:58

核心速览

1. 【OpenAI】发布 GPT-5.5，号称"最智能模型" OpenAI 发布 GPT-5.5，定位为迄今最强模型，在编码、研究和数据分析等复杂任务上更快、更强。同步推出 System Card、Bio Bug Bounty（最高 $25,000 奖励），并已在 Codex 中上线。原文链接

2. 【DeepSeek】发布 DeepSeek-V4 系列，API 75% 折扣 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型，同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 限时 75% 折扣，已延长至 5 月 31 日。原文链接

3. 【OpenAI × Microsoft】宣布合作协议新阶段 OpenAI 与微软宣布修订合作协议，简化合作关系、增加长期确定性，支持双方在大规模 AI 创新上的持续推进。这是两家公司伙伴关系的重要里程碑。原文链接

4. 【xAI × SpaceX × Cursor】三方深度合作 SpaceXAI 与 Cursor 宣布深度合作，结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算，打造最强编码与知识工作 AI。Cursor 同时授予 SpaceX 今年以 600 亿美元收购的选择权。原文链接

5. 【Anthropic】提出"内省适配器"研究，让模型自报告不良行为 Anthropic Fellows 研究提出 Introspection Adapter，可让微调后的语言模型自我报告训练中学到的行为——包括潜在的错位、后门和安全防护移除，为 AI 对齐研究提供新工具。原文链接

重大 Benchmark 变化

SWE-bench Verified：

模型	排名变动	分数变动	说明
devlo	#44 → #83~#94	70.2 → 54.2~58.2	排名暴跌 39-50 位，分数下降 17%-23%，疑为评测方法变更或回退
Warp	#11 → #36	75.6 → 71.0	排名下降 25 位，跌出 Top 10
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	排名下降 32 位，分数下降 14.7%
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	排名上升 27 位，分数提升 15.7%，表现亮眼

Terminal-bench 2.0：

模型	排名变动	分数变动	说明
Warp / Multiple	#32 → #37~#54	61.2 → 50.1~59.1	排名下降 5-22 位，分数下降 3.4%-18.1%

快速预览

OpenAI 发布 GPT-5.5：4/23 发布，Codex CLI 同步集成，Terminal-Bench 2.0 登顶 82.0 分
DeepSeek-V4 上线：V4-Pro / V4-Flash 可用，API 75% 折扣延至 5/31
xAI 上线 Voice Cloning API：80+ 语音、28 种语言，2 分钟内克隆自定义语音
LMArena 榜首：Claude Opus 4.7 Thinking 以 1502.65 分登顶，Anthropic 包揽前三
SWE-bench Verified 有变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
4/30	Advanced Account Security	推出防钓鱼登录、增强恢复与账户保护
4/29	Where the goblins came from	GPT-5 行为"小毛病"的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心以满足 AI 算力需求
4/29	Cybersecurity in the Intelligence Age	五步网络安全行动计划，推动 AI 驱动的网络防御民主化
4/28	Community Safety	ChatGPT 模型安全、滥用检测与政策执行
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/27	FedRAMP Moderate	ChatGPT Enterprise 与 API 获 FedRAMP Moderate 授权
4/27	Microsoft 合作新阶段	修订协议，简化合作结构，增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
4/27	Choco 客户案例	Choco 用 OpenAI API 自动化食品分销
4/26	Our Principles	Sam Altman 分享五项指导原则
4/23	GPT-5.5 发布	最新旗舰模型，更快更强，面向编码/研究/数据分析
4/23	GPT-5.5 System Card	GPT-5.5 系统安全卡
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25,000 奖励
4/23	Codex 系列教程（6 篇）	What is Codex · Getting Started · Settings · Working with Codex · Plugins & Skills · Top 10 Uses · Automations
4/22	ChatGPT for Clinicians 免费	面向美国执业医师、NP、药剂师免费开放
4/22	Workspace Agents	Codex 驱动的 ChatGPT 工作区代理，自动化复杂工作流
4/22	WebSockets 加速 Agentic 工作流	Responses API 通过 WebSocket 降低延迟
4/22	OpenAI Privacy Filter	开源 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Codex 企业扩展	Codex Labs 成立，与 Accenture/PwC/Infosys 合作，Codex WAU 达 400 万
4/20	Hyatt 案例	Hyatt 全球部署 ChatGPT Enterprise

OpenAI Codex Changelog

日期	版本	要点
4/30	CLI 0.128.0	持久化 /goal 工作流、app-server API、TUI 控制
4/24	CLI 0.125.0	Unix socket 传输、分页 resume/fork、sticky 环境
4/23	GPT-5.5 & Codex 更新	GPT-5.5 在 Codex 中可用
4/23	CLI 0.124.0	TUI 快速推理控制（Alt+,/Alt+.）
4/23	CLI 0.123.0	内置 Amazon Bedrock 模型提供者

Anthropic / Claude Code

日期	版本	要点
5/1	v2.1.126	`/model` 选择器支持网关 `/v1/models` 端点
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP server 配置新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`

Anthropic 研究（4/29）：发布"Introspection Adapters"研究——让模型自我报告训练中学到的行为（包括潜在的不对齐），可泛化检测隐藏后门与安全护栏移除。来源

Google

日期	标题	摘要
4/28	Google Translate 20 周年	新功能与使用技巧
4/27	AI Agents Vibe Coding 课程	Google × Kaggle 联合课程
4/24	Gemini 春季整理技巧	8 个 Gemini 使用技巧
4/23	TPU 驱动 AI 工作负载	TPU 技术视频
4/23	奥地利首个数据中心	Google 在阿尔卑斯山区投资首个数据中心
4/22	TPU v8t & v8i 发布	第八代 TPU，两款专用芯片面向 agentic 时代
4/21	Ads Advisor 3 项更新	Google Ads 更安全、更快

xAI

日期	标题	摘要
5/1	Voice Cloning API 上线	80+ 语音、28 种语言，2 分钟克隆自定义语音
4/21	SpaceXAI × Cursor 合作	SpaceX 百万 H100 Colossus 超算 + Cursor 产品分发，$600 亿收购权

DeepSeek

日期	标题	摘要
4/29	V4-Pro 折扣延至 5/31	75% OFF 延期；Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文
4/25	V4-Pro 75% OFF	截止 5/5，集成 Claude Code / OpenCode / OpenClaw
4/24	DeepSeek-V4 发布	V4-Pro 与 V4-Flash 上线，支持 OpenAI 与 Anthropic 接口；旧名称 3 个月后停用

二、Benchmark 快照

SWE-bench Verified（Top 10）

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

来源：live-swe-agent 等

SWE-bench Pro Public（Top 10）

排名	模型	分数	采集日期
1	gpt-5.4 (xHigh)*	59.1	2026-05-02
2	Muse Spark*	55.0	2026-05-02
3	claude-opus-4-6 (thinking)*	51.9	2026-05-02
4	gemini-3.1-pro (thinking)*	46.1	2026-05-02
5	claude-opus-4-5-20251101	45.89	2026-05-02
6	claude-4-5-Sonnet	43.6	2026-05-02
7	gemini-3-pro-preview	43.3	2026-05-02
8	claude-4-Sonnet	42.7	2026-05-02
9	gpt-5-2025-08-07 (High)	41.78	2026-05-02
10	gpt-5.2-codex	41.04	2026-05-02

来源：Scale Leaderboard；* 标记为近期提交

Terminal-Bench 2.0（Top 10）

排名	模型	分数	采集日期
1	Codex CLI / GPT-5.5	82.0	2026-04-23
2	ForgeCode / GPT-5.4	81.8	2026-03-12
3	TongAgents / Gemini 3.1 Pro	80.2	2026-03-13
4	ForgeCode / Claude Opus 4.6	79.8	2026-03-12
5	SageAgent / GPT-5.3-Codex	78.4	2026-03-13
6	ForgeCode / Gemini 3.1 Pro	78.4	2026-03-02
7	Droid / GPT-5.3-Codex	77.3	2026-02-24
8	Capy / Claude Opus 4.6	75.3	2026-03-12
9	Simple Codex / GPT-5.3-Codex	75.1	2026-02-06
10	Terminus-KIRA / Gemini 3.1 Pro	74.8	2026-02-23

来源：tbench.ai；GPT-5.5 于 4/23 登顶

LMArena Overall（Top 10）

排名	模型	ELO 分数	采集日期
1	claude-opus-4-7-thinking	1502.65	2026-05-01
2	claude-opus-4-6-thinking	1502.04	2026-05-01
3	claude-opus-4-6	1497.10	2026-05-01
4	gemini-3.1-pro-preview	1492.56	2026-05-01
5	claude-opus-4-7	1491.27	2026-05-01
6	muse-spark	1491.21	2026-05-01
7	gpt-5.5-high	1487.59	2026-05-01
8	gemini-3-pro	1485.68	2026-05-01
9	grok-4.20-beta1	1479.62	2026-05-01
10	grok-4.20-beta-0309-reasoning	1477.23	2026-05-01

来源：LMArena / HuggingFace

三、榜单变化

SWE-bench Verified 变动

模型	变化	排名	分数
Warp	大幅下滑	#11 → #36	75.6 → 71.0
devlo	大幅下滑	#44 → #83 / #94	70.2 → 58.2 / 54.2
Nemotron-CORTEXA	下滑	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	上升	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	小幅下滑	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	小幅下滑	#120 → #126	45.4 → 43.6

Terminal-Bench 2.0 变动

模型	变化	排名	分数
Warp / Multiple	下滑	#32 → #37 / #54	61.2 → 59.1 / 50.1

LMArena / SWE-bench Pro Public

本期无变动。

来源 · 55 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×7 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2