AI 日报 2026-05-01 08:41

核心速览

1. 【OpenAI】发布 GPT-5.5，定位最强前沿模型 OpenAI 发布 GPT-5.5，定位为"最智能模型"，在编码、研究、数据分析等复杂任务上更快更强。同步发布 System Card 和 Bio Bug Bounty（最高 $25,000 奖励），GPT-5.5 已集成至 Codex 平台。原文链接

2. 【DeepSeek】发布 DeepSeek-V4，API 75 折促销 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型，同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 75 折优惠已延至 5 月 31 日，支持 Claude Code 1M 上下文。原文链接

3. 【xAI/SpaceX】与 Cursor 深度合作，含 $600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作，结合 Cursor 的开发者分发能力和 xAI 百万 H100 等效 Colossus 超算。协议包含年内以 $600 亿收购 Cursor 的权利，或支付 $100 亿合作费用。原文链接

4. 【OpenAI】GPT 模型、Codex 和 Managed Agents 登陆 AWS OpenAI 全线产品正式上线 AWS，企业可在 AWS 环境中直接使用 GPT 模型、Codex 和 Managed Agents 构建安全 AI 应用，大幅扩展企业分发渠道。原文链接

5. 【Anthropic】提出"内省适配器"，让模型自我报告异常行为 Anthropic Fellows 研究提出 Introspection Adapters，通过训练单一适配器让微调后的模型自我报告学到的行为，包括潜在的错位、后门和安全防护移除，泛化能力良好。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B	103 → 76 (↑27)	52.2 → 60.4 (+15.8%)	显著提升，30B 参数量级表现亮眼
devlo	44 → 83/94 (↓39-50)	70.2 → 54.2-58.2 (-17.1~22.8%)	大幅下滑，可能为评测方法调整
Nemotron-CORTEXA	50 → 82 (↓32)	68.2 → 58.2 (-14.7%)	NVIDIA 系模型排名显著下跌
Warp	11 → 36 (↓25)	75.6 → 71.0 (-6.1%)	从 Top 11 跌出 Top 30

Terminal-Bench 2.0

模型	排名变动	分数变动	说明
Warp / Multiple	32 → 54 (↓22)	61.2 → 50.1 (-18.1%)	双榜同步下跌，Warp 整体表现承压

快速预览

OpenAI 发布 GPT-5.5：4/23 发布，Codex 已集成，Terminal-Bench 2.0 登顶 82.0 分
DeepSeek-V4 上线：V4-Pro / V4-Flash 可用，API 75% 折扣延至 5/31；旧模型名 7/24 停用
LM Arena 总榜：Claude Opus 4.7 Thinking 以 1502.93 分居首，前四均为 Anthropic 模型
SWE-bench Verified 变动：Warp 从 #11 跌至 #36（75.6→71.0），devlo 从 #44 跌至 #83/#94
xAI × Cursor：SpaceXAI 与 Cursor 深度合作，可选 $600 亿收购

一、新闻（按厂商 / 日期倒序）

OpenAI

日期	标题	要点
4/30	Advanced Account Security	抗钓鱼登录、增强恢复、防账户接管
4/29	Where the goblins came from	GPT-5 人格化怪癖的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心
4/29	Cybersecurity in the Intelligence Age	五步网络安全行动计划
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 上线 AWS
4/28	Community Safety	ChatGPT 安全保障机制说明
4/27	FedRAMP Moderate	ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27	Microsoft 合作新阶段	修订协议，简化合作结构
4/27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
4/27	Choco 案例	食品分销 AI Agent 实践
4/26	Our Principles	Sam Altman 分享五项指导原则
4/23	Introducing GPT-5.5	最新旗舰模型，编码/研究/数据分析全面升级
4/23	GPT-5.5 System Card	系统卡发布
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25K 奖励
4/23	Codex 系列教程（6 篇）	What is Codex · Getting Started · Settings · Working with Codex · Plugins & Skills · Top 10 Uses · Automations
4/22	ChatGPT for Clinicians 免费	美国执业医师/药师免费使用
4/22	Workspace Agents	Codex 驱动的 ChatGPT 工作区 Agent
4/22	WebSockets 加速 Agent 工作流	Responses API 连接级缓存降低延迟
4/22	OpenAI Privacy Filter	开源 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言
4/21	Codex 企业扩展	Codex Labs 成立，WAU 达 400 万
4/20	Hyatt 案例	Hyatt 全球部署 ChatGPT Enterprise

OpenAI Codex Changelog

日期	版本	要点
4/30	CLI 0.128.0	持久化 /goal 工作流、TUI 控制
4/24	CLI 0.125.0	Unix socket 传输、分页 resume/fork
4/23	GPT-5.5 & Codex 更新	GPT-5.5 在 Codex 中可用
4/23	CLI 0.124.0	TUI 快速推理控制
4/23	CLI 0.123.0	内置 Amazon Bedrock provider

Anthropic（Claude Code）

日期	版本	要点
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP server 新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`
4/23	v2.1.118	新增 vim visual mode (`v`/`V`)

Anthropic Research

日期	标题	要点
4/29	Introspection Adapters	训练模型自我报告训练中学到的行为（含潜在错位），可泛化检测隐藏后门与安全移除

DeepSeek

日期	标题	要点
4/29	V4-Pro 折扣延期	75% OFF 延至 5/31 UTC 15:59
4/25	V4-Pro 促销	Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文
4/24	DeepSeek-V4 发布	V4-Pro / V4-Flash 上线；旧名 `deepseek-chat`/`deepseek-reasoner` 7/24 停用

Google

日期	标题	要点
4/28	Google Translate 20 周年	新功能与回顾
4/27	AI Agents Vibe Coding 课程	Google × Kaggle 联合课程
4/24	Gemini 春季整理技巧	8 个 Gemini 使用技巧
4/23	TPU 驱动 AI 工作负载	TPU 技术介绍视频
4/23	奥地利首个数据中心	Google 在阿尔卑斯山区投资数据中心
4/22	TPU v8t & v8i	第八代 TPU，面向 Agent 时代
4/21	Ads Advisor 更新	3 项新功能

xAI

日期	标题	要点
4/21	xAI × Cursor 合作	SpaceXAI 与 Cursor 深度合作，可选 $600 亿收购或 $100 亿合作费
4/18	Grok STT API	25 语言语音转文字 API 上线

二、Benchmark 快照与变化

SWE-bench Verified（Top 10）

#	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

本期变化：

模型	变化	旧排名→新排名	旧分→新分
Warp	排名+分数↓	#11 → #36	75.6 → 71.0
devlo	排名+分数↓	#44 → #83/#94	70.2 → 58.2/54.2
Nemotron-CORTEXA	排名+分数↓	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	排名+分数↑	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	排名+分数↓	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	排名+分数↓	#120 → #126	45.4 → 43.6

SWE-bench Pro Public（Top 10，快照 2026-05-01）

#	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

来源：Scale Leaderboard。本期无额外变化记录。

Terminal-Bench 2.0（Top 10）

#	模型	分数	采集日期
1	Codex / GPT-5.5	82.0	2026-04-23
2	ForgeCode / GPT-5.4	81.8	2026-03-12
3	TongAgents / Gemini 3.1 Pro	80.2	2026-03-13
4	ForgeCode / Claude Opus 4.6	79.8	2026-03-12
5	SageAgent / GPT-5.3-Codex	78.4	2026-03-13
6	ForgeCode / Gemini 3.1 Pro	78.4	2026-03-02
7	Droid / GPT-5.3-Codex	77.3	2026-02-24
8	Capy / Claude Opus 4.6	75.3	2026-03-12
9	Simple Codex / GPT-5.3-Codex	75.1	2026-02-06
10	Terminus-KIRA / Gemini 3.1 Pro	74.8	2026-02-23

本期变化：

模型	变化	旧排名→新排名	旧分→新分
Warp / Multiple	排名+分数↓	#32 → #37/#54	61.2 → 59.1/50.1

LM Arena Overall（Top 10，快照 2026-04-29）

#	模型	ELO 分数
1	claude-opus-4-7-thinking	1502.93
2	claude-opus-4-6-thinking	1502.09
3	claude-opus-4-6	1496.54
4	claude-opus-4-7	1494.81
5	gemini-3.1-pro-preview	1492.99
6	muse-spark	1489.49
7	gpt-5.5-high	1487.97
8	gemini-3-pro	1485.78
9	grok-4.20-beta1	1479.41
10	gpt-5.4-high	1477.79

来源：LM Arena。本期无额外变化记录。

三、采集状态

所有来源均采集成功，无失败记录。

来源 · 56 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×8 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2