AI 日报 2026-05-04 09:00

核心速览

1. 【OpenAI】发布 GPT-5.5，号称"最智能模型" GPT-5.5 正式发布，定位为 OpenAI 最强模型，在编程、研究和数据分析等复杂任务上更快更强。同步上线 Codex 集成、System Card 及 Bio Bug Bounty（最高 $25,000 奖励），并随附 Codex CLI 多个版本更新。原文链接

2. 【DeepSeek】发布 DeepSeek-V4，API 75% 折扣延长至 5 月底 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型，同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 3 个月后停用。V4-Pro API 75% 折扣延长至 2026 年 5 月 31 日，支持 Claude Code 1M 上下文。原文链接

3. 【xAI/SpaceX】与 Cursor 达成深度合作，附 $600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作，结合 Cursor 的产品分发能力与 SpaceX 百万 H100 等效 Colossus 超算，目标打造世界最强编程与知识工作 AI。Cursor 赋予 SpaceX 今年内以 600 亿美元收购的权利，或支付 100 亿美元合作费用。原文链接

4. 【OpenAI/Microsoft】宣布合作伙伴关系新阶段 OpenAI 与微软宣布修订合作协议，简化合作关系、增加长期确定性，支持双方在大规模 AI 创新上的持续协作。同期 OpenAI 的 GPT 模型、Codex 和 Managed Agents 正式登陆 AWS。原文链接

5. 【Google】发布第八代 TPU 8T 和 8I，专为 Agent 时代设计 Google 推出两款专用 TPU 芯片（8T 和 8I），为 AI Agent 工作负载提供算力支撑。这是 Google TPU 第八代产品，标志着芯片战略从通用训练向 Agent 推理场景倾斜。原文链接

重大 Benchmark 变化

以下为 SWE-bench Verified 和 Terminal Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目：

模型	Benchmark	排名变动	分数变动
devlo	SWE-bench Verified	#44 → #83/#94	70.2 → 58.2/54.2（↓17%-23%）
Nemotron-CORTEXA	SWE-bench Verified	#50 → #82	68.2 → 58.2（↓15%）
Warp	SWE-bench Verified	#11 → #36	75.6 → 71.0（↓6%）
EntroPO + R2E + Qwen3-Coder-30B	SWE-bench Verified	#103 → #76	52.2 → 60.4（↑16%）
Warp / Multiple	Terminal Bench 2.0	#32 → #37/#54	61.2 → 59.1/50.1（↓3%-18%）

要点：devlo 和 Nemotron-CORTEXA 在 SWE-bench 上大幅下滑；Warp 在两个榜单均出现明显退步；EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型，排名跃升 27 位。

快速预览

OpenAI 发布 GPT-5.5：4/23 发布，Codex CLI 同步支持，LM Arena 排名第 7（1487.6 分）
DeepSeek V4 系列上线：V4-Pro / V4-Flash 可用，75% 折扣延至 5/31，旧模型名 3 个月后停用
xAI 上线 Voice Cloning API：80+ 预置声音、28 种语言，2 分钟内克隆自定义语音
LM Arena Top 3：Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)
SWE-bench Verified 变动显著：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94

一、新闻动态

OpenAI（按日期倒序）

日期	标题	摘要
4/30	Advanced Account Security	推出防钓鱼登录、增强恢复与账户保护
4/29	Where the goblins came from	GPT-5 行为怪癖的时间线、根因与修复
4/29	Building compute infrastructure	Stargate 扩容，新增数据中心算力
4/29	Cybersecurity in the Intelligence Age	五部分网络安全行动计划
4/28	Community safety	ChatGPT 模型安全、滥用检测与政策执行
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/27	FedRAMP Moderate	ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27	Microsoft partnership next phase	修订合作协议，简化结构、增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
4/27	Choco 客户案例	AI agent 自动化食品分销
4/26	Our principles	Sam Altman 分享五项指导原则
4/23	Introducing GPT-5.5	最新旗舰模型，面向编码、研究、数据分析
4/23	GPT-5.5 System Card	安全评估报告
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25K 奖励
4/23	Codex 系列教程（6 篇）	What is Codex · Getting started · Settings · Working with Codex · Plugins & skills · Top 10 uses · Automations
4/22	ChatGPT for Clinicians 免费	面向美国执业医师、NP、药剂师免费开放
4/22	Workspace agents in ChatGPT	Codex 驱动的云端工作流自动化 agent
4/22	WebSockets 加速 agentic workflows	连接级缓存降低 API 开销和延迟
4/22	OpenAI Privacy Filter	开放权重 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Scaling Codex to enterprises	Codex Labs 成立，WAU 达 400 万

OpenAI Codex Changelog

日期	版本	要点
4/30	CLI 0.128.0	持久化 /goal 工作流、TUI 控制
4/24	CLI 0.125.0	Unix socket 传输、分页恢复/分叉
4/23	GPT-5.5 & Codex app	GPT-5.5 上线 Codex
4/23	CLI 0.124.0	TUI 快速推理控制 (Alt+< / Alt+>)
4/23	CLI 0.123.0	内置 Amazon Bedrock 模型提供方

Anthropic / Claude Code

日期	版本	要点
5/1	v2.1.126	`/model` 选择器支持网关 `/v1/models` 端点
4/29	v2.1.123	修复 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
4/28	v2.1.121	MCP 服务器配置新增 `alwaysLoad` 选项
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`

Anthropic 研究：4/29 发布 Introspection Adapters 研究——让模型自我报告训练中学到的行为（含潜在错位、后门、安全移除）。

Google

日期	标题	摘要
4/28	Google Translate 20 周年	新功能与使用技巧
4/27	AI Agents Vibe Coding 课程	Google × Kaggle 联合课程，6 月开课
4/24	Gemini 春季整理技巧	8 个 Gemini 实用提示
4/23	TPU 驱动 AI 工作负载	新视频介绍 TPU 架构
4/23	奥地利首个数据中心	Google 在阿尔卑斯山区投资建设
4/22	TPU v8t & v8i 发布	第八代 TPU，面向 agentic 时代的专用芯片
4/21	Ads Advisor 3 项更新	Google Ads 更安全、更快速

xAI

日期	标题	摘要
5/1	Voice Cloning API 上线	80+ 预置声音、28 种语言，2 分钟克隆
4/21	SpaceX AI × Cursor 合作	Cursor 与 SpaceX Colossus 超算联合，$60B 收购权

DeepSeek

日期	标题	摘要
4/29	V4-Pro 折扣延长	75% OFF 延至 5/31 UTC 15:59
4/25	V4-Pro 促销 & 集成更新	Claude Code / OpenCode / OpenClaw 集成
4/24	DeepSeek-V4 发布	V4-Pro & V4-Flash 上线，旧名称 3 个月后停用

二、Benchmark 快照与变化

LM Arena（Overall）— 2026-05-01 采集

本期无变动记录。 当前 Top 3：

排名	模型	分数
1	claude-opus-4-7-thinking	1502.7
2	claude-opus-4-6-thinking	1502.0
3	claude-opus-4-6	1497.1

Top 10 中还包括：gemini-3.1-pro-preview (1492.6)、claude-opus-4-7 (1491.3)、muse-spark (1491.2)、gpt-5.5-high (1487.6)、gemini-3-pro (1485.7)、grok-4.20-beta1 (1479.6)、grok-4.20-beta-0309-reasoning (1477.2)

SWE-bench Verified — 当前 Top 10

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8

本期变化：

模型	排名变化	分数变化	备注
Warp	#11 → #36	75.6 → 71.0	大幅下滑
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2	两条记录均大幅下滑
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	显著下降
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	上升
Solver (2024-09-12)	#120 → #126	45.4 → 43.6	小幅下降
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	小幅下降

SWE-bench Pro Public — 2026-05-04 采集

本期无变动记录。 当前 Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

来源：Scale AI Leaderboard

Terminal-Bench 2.0 — 当前 Top 5

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4

本期变化：

模型	排名变化	分数变化
Warp / Multiple	#32 → #37 / #54	61.2 → 59.1 / 50.1

来源：tbench.ai

三、来源状态

所有新闻来源与 benchmark 数据源均采集成功，无失败记录。

来源 · 54 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI blog.google ×7 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2