AI 日报 2026-05-05 08:39

核心速览

1. 【OpenAI】发布 GPT-5.5，号称"最智能模型" GPT-5.5 正式发布，定位为 OpenAI 最新旗舰模型，在编程、研究和数据分析等复杂任务上能力更强、速度更快。同步上线 System Card 和 Bio Bug Bounty（最高 $25,000 奖励），GPT-5.5 已集成至 Codex 平台。原文链接

2. 【DeepSeek】发布 DeepSeek-V4 系列，API 75 折促销 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型，同时支持 OpenAI 和 Anthropic 接口格式。V4-Pro 支持 1M 上下文窗口，已兼容 Claude Code 等工具。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用，V4-Pro 75% 折扣延长至 5 月 31 日。原文链接

3. 【xAI/SpaceX】与 Cursor 达成合作，或以 $600 亿收购 SpaceXAI 与 Cursor 宣布深度合作，结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算，目标打造最强编程与知识工作 AI。协议包含年内以 $600 亿收购 Cursor 的选择权，或支付 $100 亿合作费用。原文链接

4. 【Google】发布第八代 TPU，推出 TPU v8t 和 v8i 两款专用芯片 Google 在 Cloud Next 上发布第八代 TPU，包含 v8t 和 v8i 两款专用芯片，面向 agentic AI 时代设计，旨在为日益增长的 AI 工作负载提供更强算力支撑。原文链接

5. 【OpenAI】GPT 模型、Codex 和 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 及 Managed Agents 正式在 AWS 上线，企业可在自有 AWS 环境中安全构建 AI 应用。同期 OpenAI 还获得 FedRAMP Moderate 授权，面向美国联邦机构开放。原文链接

重大 Benchmark 变化

SWE-bench Verified：

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct	103 → 76 (↑27)	52.2 → 60.4 (+15.7%)	大幅跃升，30B 参数编码模型表现亮眼
devlo	44 → 83/94 (↓39-50)	70.2 → 54.2-58.2 (-17%~-23%)	排名和分数均大幅下跌
Nemotron-CORTEXA	50 → 82 (↓32)	68.2 → 58.2 (-14.7%)	NVIDIA 系模型排名显著下滑
Warp	11 → 36 (↓25)	75.6 → 71.0 (-6.1%)	从 Top 11 跌出 Top 30

Terminal-Bench 2.0：

模型	排名变动	分数变动	说明
Warp / Multiple	32 → 37-54 (↓5-22)	61.2 → 50.1-59.1 (-3.4%~-18.1%)	在终端任务基准上同步下滑

快速预览

OpenAI 发布 GPT-5.5：4/23 发布最强模型 GPT-5.5，同步上线 Codex 教程系列及 Bio Bug Bounty（最高 $25,000）
DeepSeek V4 系列上线：V4-Pro / V4-Flash 可用，V4-Pro 75% 折扣延长至 5/31；旧模型名 3 个月后停用
xAI 推出 Voice Cloning API：2 分钟创建自定义语音，支持 80+ 语音 / 28 种语言
LM Arena 榜首：claude-opus-4-7-thinking 以 1502.65 分登顶，Anthropic 包揽前三
SWE-bench Verified 变动显著：Warp 从 #11 跌至 #36（75.6→71.0），devlo 从 #44 跌至 #83/#94

一、新闻动态

OpenAI（按日期倒序）

日期	标题	摘要
05-04	低延迟语音 AI 架构	重建 WebRTC 栈，实现全球规模实时语音 AI
04-30	高级账户安全	抗钓鱼登录、增强恢复与防接管保护
04-29	GPT-5 "goblin" 行为溯源	GPT-5 人格化怪异输出的时间线、根因与修复
04-29	Stargate 算力基建	扩展 Stargate 数据中心以支撑 AGI 算力需求
04-29	智能时代网络安全	五步行动计划，推动 AI 驱动的网络防御民主化
04-28	OpenAI 登陆 AWS	GPT 模型、Codex、Managed Agents 在 AWS 上线
04-28	社区安全承诺	ChatGPT 模型保障、滥用检测与政策执行
04-27	FedRAMP Moderate 授权	ChatGPT Enterprise & API 获美国联邦机构可用认证
04-27	微软合作新阶段	修订协议简化合作、增加长期确定性
04-27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
04-27	Choco 客户案例	用 OpenAI API 自动化食品分销
04-26	Our Principles	Sam Altman 分享五项指导原则
04-23	GPT-5.5 发布	最快最强模型，面向编码/研究/数据分析
04-23	GPT-5.5 System Card	系统安全卡
04-23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，奖金最高 $25,000
04-23	Codex 教程系列（6 篇）	什么是 Codex · 设置 · 使用 · 插件 · Top 10 用例 · 自动化
04-22	ChatGPT 临床版免费	面向美国执业医师、NP、药剂师免费开放
04-22	Workspace Agents	Codex 驱动的云端 agent，自动化复杂工作流
04-22	WebSocket 加速 agentic 工作流	Responses API 连接级缓存降低延迟
04-22	OpenAI Privacy Filter	开源 PII 检测与脱敏模型
04-21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持

OpenAI Codex Changelog

日期	版本	要点
04-30	CLI 0.128.0	持久化 /goal 工作流、app-server API、TUI 控制
04-24	CLI 0.125.0	Unix socket 传输、分页 resume/fork、sticky 环境
04-23	GPT-5.5 & Codex 更新	GPT-5.5 在 Codex 中可用
04-23	CLI 0.124.0	TUI 快速推理控制（Alt+,/Alt+.）
04-23	CLI 0.123.0	内置 Amazon Bedrock 模型提供方

Anthropic — Claude Code

日期	版本	要点
05-04	v2.1.128	`/color` 无参数时随机选择会话颜色
05-01	v2.1.126	`/model` 选择器支持网关 `/v1/models` 端点
04-29	v2.1.123	修复 OAuth 401 重试循环
04-28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
04-28	v2.1.121	MCP server 配置新增 `alwaysLoad` 选项

Google AI Blog

日期	标题	摘要
05-04	4 月 AI 更新汇总	月度回顾
05-04	Gemini API Webhooks	事件驱动 Webhook 降低长任务延迟
04-28	Google Translate 20 周年	新功能与趣味回顾
04-27	AI Agents Vibe Coding 课程	Google × Kaggle 联合课程
04-24	Gemini 生活整理技巧	8 个 Gemini 实用提示
04-23	TPU 驱动 AI 工作负载	视频介绍 TPU 原理
04-23	奥地利首个数据中心	Google 在阿尔卑斯山区投资建设
04-22	TPU v8t & v8i 发布	第八代 TPU，面向 agentic 时代
04-21	Ads Advisor 3 项更新	Google Ads 更安全更快

xAI

日期	标题	摘要
05-01	Voice Cloning API 上线	2 分钟创建自定义语音，80+ 语音 / 28 种语言
04-21	SpaceXAI × Cursor 合作	Cursor 联合 Colossus 超算打造编码 AI；SpaceX 持有 $600 亿收购权

DeepSeek

日期	来源	要点
04-29	X	V4-Pro 75% 折扣延长至 5/31 15:59 UTC
04-25	X	V4-Pro 75% 折扣（原截止 5/5）；Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文
04-24	API Docs	V4-Pro / V4-Flash 正式上线，支持 ChatCompletions & Anthropic 接口；旧名 `deepseek-chat` / `deepseek-reasoner` 7/24 停用

二、Benchmark 快照与变化

LM Arena（Overall）— 2026-05-01 采集

本期无变动（仅有快照数据，无变化记录）

排名	模型	分数
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10
4	gemini-3.1-pro-preview	1492.56
5	claude-opus-4-7	1491.27

Anthropic 占据 Top 5 中 4 席；GPT-5.5-high 排第 7（1487.59）；xAI grok-4.20-beta1 排第 9（1479.62）

SWE-bench Verified（Top 10）— 快照

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8

本期变化（显著项）：

模型	排名变化	分数变化
Warp	#11 → #36	75.6 → 71.0 ↓
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2 ↓
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2 ↓
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76 ↑	52.2 → 60.4 ↑
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0 ↓
Solver (2024-09-12)	#120 → #126	45.4 → 43.6 ↓

SWE-bench Pro Public（Top 5）— 2026-05-05 采集

本期无变动

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

Terminal-bench 2.0（Top 5）— 快照

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4

本期变化：

模型	排名变化	分数变化
Warp / Multiple	#32 → #37 / #54	61.2 → 59.1 / 50.1 ↓

三、来源状态

所有来源均采集成功，无失败记录。

来源 · 55 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 blog.google ×9 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2