AI 日报 2026-05-04 09:00

2026-05-04 09:00 CST

核心速览

1. 【OpenAI】发布 GPT-5.5,号称"最智能模型" GPT-5.5 正式发布,定位为 OpenAI 最强模型,在编程、研究和数据分析等复杂任务上更快更强。同步上线 Codex 集成、System Card 及 Bio Bug Bounty(最高 $25,000 奖励),并随附 Codex CLI 多个版本更新。 原文链接

2. 【DeepSeek】发布 DeepSeek-V4,API 75% 折扣延长至 5 月底 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 3 个月后停用。V4-Pro API 75% 折扣延长至 2026 年 5 月 31 日,支持 Claude Code 1M 上下文。 原文链接

3. 【xAI/SpaceX】与 Cursor 达成深度合作,附 $600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的产品分发能力与 SpaceX 百万 H100 等效 Colossus 超算,目标打造世界最强编程与知识工作 AI。Cursor 赋予 SpaceX 今年内以 600 亿美元收购的权利,或支付 100 亿美元合作费用。 原文链接

4. 【OpenAI/Microsoft】宣布合作伙伴关系新阶段 OpenAI 与微软宣布修订合作协议,简化合作关系、增加长期确定性,支持双方在大规模 AI 创新上的持续协作。同期 OpenAI 的 GPT 模型、Codex 和 Managed Agents 正式登陆 AWS。 原文链接

5. 【Google】发布第八代 TPU 8T 和 8I,专为 Agent 时代设计 Google 推出两款专用 TPU 芯片(8T 和 8I),为 AI Agent 工作负载提供算力支撑。这是 Google TPU 第八代产品,标志着芯片战略从通用训练向 Agent 推理场景倾斜。 原文链接


重大 Benchmark 变化

以下为 SWE-bench Verified 和 Terminal Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:

模型 Benchmark 排名变动 分数变动
devlo SWE-bench Verified #44 → #83/#94 70.2 → 58.2/54.2(↓17%-23%)
Nemotron-CORTEXA SWE-bench Verified #50 → #82 68.2 → 58.2(↓15%)
Warp SWE-bench Verified #11 → #36 75.6 → 71.0(↓6%)
EntroPO + R2E + Qwen3-Coder-30B SWE-bench Verified #103 → #76 52.2 → 60.4(↑16%)
Warp / Multiple Terminal Bench 2.0 #32 → #37/#54 61.2 → 59.1/50.1(↓3%-18%)

要点:devlo 和 Nemotron-CORTEXA 在 SWE-bench 上大幅下滑;Warp 在两个榜单均出现明显退步;EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型,排名跃升 27 位。

快速预览

  • OpenAI 发布 GPT-5.5:4/23 发布,Codex CLI 同步支持,LM Arena 排名第 7(1487.6 分)
  • DeepSeek V4 系列上线:V4-Pro / V4-Flash 可用,75% 折扣延至 5/31,旧模型名 3 个月后停用
  • xAI 上线 Voice Cloning API:80+ 预置声音、28 种语言,2 分钟内克隆自定义语音
  • LM Arena Top 3:Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)
  • SWE-bench Verified 变动显著:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94

一、新闻动态

OpenAI(按日期倒序)

日期 标题 摘要
4/30 Advanced Account Security 推出防钓鱼登录、增强恢复与账户保护
4/29 Where the goblins came from GPT-5 行为怪癖的时间线、根因与修复
4/29 Building compute infrastructure Stargate 扩容,新增数据中心算力
4/29 Cybersecurity in the Intelligence Age 五部分网络安全行动计划
4/28 Community safety ChatGPT 模型安全、滥用检测与政策执行
4/28 OpenAI on AWS GPT 模型、Codex、Managed Agents 登陆 AWS
4/27 FedRAMP Moderate ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27 Microsoft partnership next phase 修订合作协议,简化结构、增加长期确定性
4/27 Symphony 开源编排规范 将 issue tracker 变为 always-on agent 系统
4/27 Choco 客户案例 AI agent 自动化食品分销
4/26 Our principles Sam Altman 分享五项指导原则
4/23 Introducing GPT-5.5 最新旗舰模型,面向编码、研究、数据分析
4/23 GPT-5.5 System Card 安全评估报告
4/23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,最高 $25K 奖励
4/23 Codex 系列教程(6 篇) What is Codex · Getting started · Settings · Working with Codex · Plugins & skills · Top 10 uses · Automations
4/22 ChatGPT for Clinicians 免费 面向美国执业医师、NP、药剂师免费开放
4/22 Workspace agents in ChatGPT Codex 驱动的云端工作流自动化 agent
4/22 WebSockets 加速 agentic workflows 连接级缓存降低 API 开销和延迟
4/22 OpenAI Privacy Filter 开放权重 PII 检测与脱敏模型
4/21 ChatGPT Images 2.0 新一代图像生成,改进文字渲染与多语言支持
4/21 Scaling Codex to enterprises Codex Labs 成立,WAU 达 400 万

OpenAI Codex Changelog

日期 版本 要点
4/30 CLI 0.128.0 持久化 /goal 工作流、TUI 控制
4/24 CLI 0.125.0 Unix socket 传输、分页恢复/分叉
4/23 GPT-5.5 & Codex app GPT-5.5 上线 Codex
4/23 CLI 0.124.0 TUI 快速推理控制 (Alt+< / Alt+>)
4/23 CLI 0.123.0 内置 Amazon Bedrock 模型提供方

Anthropic / Claude Code

日期 版本 要点
5/1 v2.1.126 /model 选择器支持网关 /v1/models 端点
4/29 v2.1.123 修复 OAuth 401 重试循环
4/28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量
4/28 v2.1.121 MCP 服务器配置新增 alwaysLoad 选项
4/23 v2.1.119 /config 设置持久化至 ~/.claude/settings.json

Anthropic 研究:4/29 发布 Introspection Adapters 研究——让模型自我报告训练中学到的行为(含潜在错位、后门、安全移除)。

Google

日期 标题 摘要
4/28 Google Translate 20 周年 新功能与使用技巧
4/27 AI Agents Vibe Coding 课程 Google × Kaggle 联合课程,6 月开课
4/24 Gemini 春季整理技巧 8 个 Gemini 实用提示
4/23 TPU 驱动 AI 工作负载 新视频介绍 TPU 架构
4/23 奥地利首个数据中心 Google 在阿尔卑斯山区投资建设
4/22 TPU v8t & v8i 发布 第八代 TPU,面向 agentic 时代的专用芯片
4/21 Ads Advisor 3 项更新 Google Ads 更安全、更快速

xAI

日期 标题 摘要
5/1 Voice Cloning API 上线 80+ 预置声音、28 种语言,2 分钟克隆
4/21 SpaceX AI × Cursor 合作 Cursor 与 SpaceX Colossus 超算联合,$60B 收购权

DeepSeek

日期 标题 摘要
4/29 V4-Pro 折扣延长 75% OFF 延至 5/31 UTC 15:59
4/25 V4-Pro 促销 & 集成更新 Claude Code / OpenCode / OpenClaw 集成
4/24 DeepSeek-V4 发布 V4-Pro & V4-Flash 上线,旧名称 3 个月后停用

二、Benchmark 快照与变化

LM Arena(Overall)— 2026-05-01 采集

本期无变动记录。 当前 Top 3:

排名 模型 分数
1 claude-opus-4-7-thinking 1502.7
2 claude-opus-4-6-thinking 1502.0
3 claude-opus-4-6 1497.1

Top 10 中还包括:gemini-3.1-pro-preview (1492.6)、claude-opus-4-7 (1491.3)、muse-spark (1491.2)、gpt-5.5-high (1487.6)、gemini-3-pro (1485.7)、grok-4.20-beta1 (1479.6)、grok-4.20-beta-0309-reasoning (1477.2)


SWE-bench Verified — 当前 Top 10

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8
4 live-SWE-agent + Gemini 3 Pro Preview 77.4
5 Atlassian Rovo Dev 76.8

本期变化:

模型 排名变化 分数变化 备注
Warp #11 → #36 75.6 → 71.0 大幅下滑
devlo #44 → #83 / #94 70.2 → 58.2 / 54.2 两条记录均大幅下滑
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 显著下降
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 上升
Solver (2024-09-12) #120 → #126 45.4 → 43.6 小幅下降
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 小幅下降

SWE-bench Pro Public — 2026-05-04 采集

本期无变动记录。 当前 Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

来源:Scale AI Leaderboard


Terminal-Bench 2.0 — 当前 Top 5

排名 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4

本期变化:

模型 排名变化 分数变化
Warp / Multiple #32 → #37 / #54 61.2 → 59.1 / 50.1

来源:tbench.ai


三、来源状态

所有新闻来源与 benchmark 数据源均采集成功,无失败记录。

Sources