AI 日报 2026-05-05 08:39

2026-05-05 08:39 CST

核心速览

1. 【OpenAI】发布 GPT-5.5,号称"最智能模型" GPT-5.5 正式发布,定位为 OpenAI 最新旗舰模型,在编程、研究和数据分析等复杂任务上能力更强、速度更快。同步上线 System Card 和 Bio Bug Bounty(最高 $25,000 奖励),GPT-5.5 已集成至 Codex 平台。 原文链接

2. 【DeepSeek】发布 DeepSeek-V4 系列,API 75 折促销 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型,同时支持 OpenAI 和 Anthropic 接口格式。V4-Pro 支持 1M 上下文窗口,已兼容 Claude Code 等工具。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用,V4-Pro 75% 折扣延长至 5 月 31 日。 原文链接

3. 【xAI/SpaceX】与 Cursor 达成合作,或以 $600 亿收购 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算,目标打造最强编程与知识工作 AI。协议包含年内以 $600 亿收购 Cursor 的选择权,或支付 $100 亿合作费用。 原文链接

4. 【Google】发布第八代 TPU,推出 TPU v8t 和 v8i 两款专用芯片 Google 在 Cloud Next 上发布第八代 TPU,包含 v8t 和 v8i 两款专用芯片,面向 agentic AI 时代设计,旨在为日益增长的 AI 工作负载提供更强算力支撑。 原文链接

5. 【OpenAI】GPT 模型、Codex 和 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 及 Managed Agents 正式在 AWS 上线,企业可在自有 AWS 环境中安全构建 AI 应用。同期 OpenAI 还获得 FedRAMP Moderate 授权,面向美国联邦机构开放。 原文链接


重大 Benchmark 变化

SWE-bench Verified:

模型 排名变动 分数变动 说明
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 103 → 76 (↑27) 52.2 → 60.4 (+15.7%) 大幅跃升,30B 参数编码模型表现亮眼
devlo 44 → 83/94 (↓39-50) 70.2 → 54.2-58.2 (-17%~-23%) 排名和分数均大幅下跌
Nemotron-CORTEXA 50 → 82 (↓32) 68.2 → 58.2 (-14.7%) NVIDIA 系模型排名显著下滑
Warp 11 → 36 (↓25) 75.6 → 71.0 (-6.1%) 从 Top 11 跌出 Top 30

Terminal-Bench 2.0:

模型 排名变动 分数变动 说明
Warp / Multiple 32 → 37-54 (↓5-22) 61.2 → 50.1-59.1 (-3.4%~-18.1%) 在终端任务基准上同步下滑

快速预览

  • OpenAI 发布 GPT-5.5:4/23 发布最强模型 GPT-5.5,同步上线 Codex 教程系列及 Bio Bug Bounty(最高 $25,000)
  • DeepSeek V4 系列上线:V4-Pro / V4-Flash 可用,V4-Pro 75% 折扣延长至 5/31;旧模型名 3 个月后停用
  • xAI 推出 Voice Cloning API:2 分钟创建自定义语音,支持 80+ 语音 / 28 种语言
  • LM Arena 榜首:claude-opus-4-7-thinking 以 1502.65 分登顶,Anthropic 包揽前三
  • SWE-bench Verified 变动显著:Warp 从 #11 跌至 #36(75.6→71.0),devlo 从 #44 跌至 #83/#94

一、新闻动态

OpenAI(按日期倒序)

日期 标题 摘要
05-04 低延迟语音 AI 架构 重建 WebRTC 栈,实现全球规模实时语音 AI
04-30 高级账户安全 抗钓鱼登录、增强恢复与防接管保护
04-29 GPT-5 "goblin" 行为溯源 GPT-5 人格化怪异输出的时间线、根因与修复
04-29 Stargate 算力基建 扩展 Stargate 数据中心以支撑 AGI 算力需求
04-29 智能时代网络安全 五步行动计划,推动 AI 驱动的网络防御民主化
04-28 OpenAI 登陆 AWS GPT 模型、Codex、Managed Agents 在 AWS 上线
04-28 社区安全承诺 ChatGPT 模型保障、滥用检测与政策执行
04-27 FedRAMP Moderate 授权 ChatGPT Enterprise & API 获美国联邦机构可用认证
04-27 微软合作新阶段 修订协议简化合作、增加长期确定性
04-27 Symphony 开源编排规范 将 issue tracker 变为 always-on agent 系统
04-27 Choco 客户案例 用 OpenAI API 自动化食品分销
04-26 Our Principles Sam Altman 分享五项指导原则
04-23 GPT-5.5 发布 最快最强模型,面向编码/研究/数据分析
04-23 GPT-5.5 System Card 系统安全卡
04-23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,奖金最高 $25,000
04-23 Codex 教程系列(6 篇) 什么是 Codex · 设置 · 使用 · 插件 · Top 10 用例 · 自动化
04-22 ChatGPT 临床版免费 面向美国执业医师、NP、药剂师免费开放
04-22 Workspace Agents Codex 驱动的云端 agent,自动化复杂工作流
04-22 WebSocket 加速 agentic 工作流 Responses API 连接级缓存降低延迟
04-22 OpenAI Privacy Filter 开源 PII 检测与脱敏模型
04-21 ChatGPT Images 2.0 新一代图像生成,改进文字渲染与多语言支持

OpenAI Codex Changelog

日期 版本 要点
04-30 CLI 0.128.0 持久化 /goal 工作流、app-server API、TUI 控制
04-24 CLI 0.125.0 Unix socket 传输、分页 resume/fork、sticky 环境
04-23 GPT-5.5 & Codex 更新 GPT-5.5 在 Codex 中可用
04-23 CLI 0.124.0 TUI 快速推理控制(Alt+,/Alt+.)
04-23 CLI 0.123.0 内置 Amazon Bedrock 模型提供方

Anthropic — Claude Code

日期 版本 要点
05-04 v2.1.128 /color 无参数时随机选择会话颜色
05-01 v2.1.126 /model 选择器支持网关 /v1/models 端点
04-29 v2.1.123 修复 OAuth 401 重试循环
04-28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量
04-28 v2.1.121 MCP server 配置新增 alwaysLoad 选项

Google AI Blog

日期 标题 摘要
05-04 4 月 AI 更新汇总 月度回顾
05-04 Gemini API Webhooks 事件驱动 Webhook 降低长任务延迟
04-28 Google Translate 20 周年 新功能与趣味回顾
04-27 AI Agents Vibe Coding 课程 Google × Kaggle 联合课程
04-24 Gemini 生活整理技巧 8 个 Gemini 实用提示
04-23 TPU 驱动 AI 工作负载 视频介绍 TPU 原理
04-23 奥地利首个数据中心 Google 在阿尔卑斯山区投资建设
04-22 TPU v8t & v8i 发布 第八代 TPU,面向 agentic 时代
04-21 Ads Advisor 3 项更新 Google Ads 更安全更快

xAI

日期 标题 摘要
05-01 Voice Cloning API 上线 2 分钟创建自定义语音,80+ 语音 / 28 种语言
04-21 SpaceXAI × Cursor 合作 Cursor 联合 Colossus 超算打造编码 AI;SpaceX 持有 $600 亿收购权

DeepSeek

日期 来源 要点
04-29 X V4-Pro 75% 折扣延长至 5/31 15:59 UTC
04-25 X V4-Pro 75% 折扣(原截止 5/5);Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文
04-24 API Docs V4-Pro / V4-Flash 正式上线,支持 ChatCompletions & Anthropic 接口;旧名 deepseek-chat / deepseek-reasoner 7/24 停用

二、Benchmark 快照与变化

LM Arena(Overall)— 2026-05-01 采集

本期无变动(仅有快照数据,无变化记录)

排名 模型 分数
1 claude-opus-4-7-thinking 1502.65
2 claude-opus-4-6-thinking 1502.04
3 claude-opus-4-6 1497.10
4 gemini-3.1-pro-preview 1492.56
5 claude-opus-4-7 1491.27

Anthropic 占据 Top 5 中 4 席;GPT-5.5-high 排第 7(1487.59);xAI grok-4.20-beta1 排第 9(1479.62)

SWE-bench Verified(Top 10)— 快照

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8
4 live-SWE-agent + Gemini 3 Pro Preview 77.4
5 Atlassian Rovo Dev 76.8

本期变化(显著项):

模型 排名变化 分数变化
Warp #11 → #36 75.6 → 71.0
devlo #44 → #83 / #94 70.2 → 58.2 / 54.2
Nemotron-CORTEXA #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 ↓
Solver (2024-09-12) #120 → #126 45.4 → 43.6 ↓

SWE-bench Pro Public(Top 5)— 2026-05-05 采集

本期无变动

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

Terminal-bench 2.0(Top 5)— 快照

排名 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4

本期变化:

模型 排名变化 分数变化
Warp / Multiple #32 → #37 / #54 61.2 → 59.1 / 50.1

三、来源状态

所有来源均采集成功,无失败记录。

Sources