AI 日报 2026-05-05 08:39
2026-05-05 08:39 CST
核心速览
1. 【OpenAI】发布 GPT-5.5,号称"最智能模型" GPT-5.5 正式发布,定位为 OpenAI 最新旗舰模型,在编程、研究和数据分析等复杂任务上能力更强、速度更快。同步上线 System Card 和 Bio Bug Bounty(最高 $25,000 奖励),GPT-5.5 已集成至 Codex 平台。 原文链接
2. 【DeepSeek】发布 DeepSeek-V4 系列,API 75 折促销 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型,同时支持 OpenAI 和 Anthropic 接口格式。V4-Pro 支持 1M 上下文窗口,已兼容 Claude Code 等工具。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用,V4-Pro 75% 折扣延长至 5 月 31 日。 原文链接
3. 【xAI/SpaceX】与 Cursor 达成合作,或以 $600 亿收购 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算,目标打造最强编程与知识工作 AI。协议包含年内以 $600 亿收购 Cursor 的选择权,或支付 $100 亿合作费用。 原文链接
4. 【Google】发布第八代 TPU,推出 TPU v8t 和 v8i 两款专用芯片 Google 在 Cloud Next 上发布第八代 TPU,包含 v8t 和 v8i 两款专用芯片,面向 agentic AI 时代设计,旨在为日益增长的 AI 工作负载提供更强算力支撑。 原文链接
5. 【OpenAI】GPT 模型、Codex 和 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 及 Managed Agents 正式在 AWS 上线,企业可在自有 AWS 环境中安全构建 AI 应用。同期 OpenAI 还获得 FedRAMP Moderate 授权,面向美国联邦机构开放。 原文链接
重大 Benchmark 变化
SWE-bench Verified:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct | 103 → 76 (↑27) | 52.2 → 60.4 (+15.7%) | 大幅跃升,30B 参数编码模型表现亮眼 |
| devlo | 44 → 83/94 (↓39-50) | 70.2 → 54.2-58.2 (-17%~-23%) | 排名和分数均大幅下跌 |
| Nemotron-CORTEXA | 50 → 82 (↓32) | 68.2 → 58.2 (-14.7%) | NVIDIA 系模型排名显著下滑 |
| Warp | 11 → 36 (↓25) | 75.6 → 71.0 (-6.1%) | 从 Top 11 跌出 Top 30 |
Terminal-Bench 2.0:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| Warp / Multiple | 32 → 37-54 (↓5-22) | 61.2 → 50.1-59.1 (-3.4%~-18.1%) | 在终端任务基准上同步下滑 |
快速预览
- OpenAI 发布 GPT-5.5:4/23 发布最强模型 GPT-5.5,同步上线 Codex 教程系列及 Bio Bug Bounty(最高 $25,000)
- DeepSeek V4 系列上线:V4-Pro / V4-Flash 可用,V4-Pro 75% 折扣延长至 5/31;旧模型名 3 个月后停用
- xAI 推出 Voice Cloning API:2 分钟创建自定义语音,支持 80+ 语音 / 28 种语言
- LM Arena 榜首:claude-opus-4-7-thinking 以 1502.65 分登顶,Anthropic 包揽前三
- SWE-bench Verified 变动显著:Warp 从 #11 跌至 #36(75.6→71.0),devlo 从 #44 跌至 #83/#94
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-04 | 低延迟语音 AI 架构 | 重建 WebRTC 栈,实现全球规模实时语音 AI |
| 04-30 | 高级账户安全 | 抗钓鱼登录、增强恢复与防接管保护 |
| 04-29 | GPT-5 "goblin" 行为溯源 | GPT-5 人格化怪异输出的时间线、根因与修复 |
| 04-29 | Stargate 算力基建 | 扩展 Stargate 数据中心以支撑 AGI 算力需求 |
| 04-29 | 智能时代网络安全 | 五步行动计划,推动 AI 驱动的网络防御民主化 |
| 04-28 | OpenAI 登陆 AWS | GPT 模型、Codex、Managed Agents 在 AWS 上线 |
| 04-28 | 社区安全承诺 | ChatGPT 模型保障、滥用检测与政策执行 |
| 04-27 | FedRAMP Moderate 授权 | ChatGPT Enterprise & API 获美国联邦机构可用认证 |
| 04-27 | 微软合作新阶段 | 修订协议简化合作、增加长期确定性 |
| 04-27 | Symphony 开源编排规范 | 将 issue tracker 变为 always-on agent 系统 |
| 04-27 | Choco 客户案例 | 用 OpenAI API 自动化食品分销 |
| 04-26 | Our Principles | Sam Altman 分享五项指导原则 |
| 04-23 | GPT-5.5 发布 | 最快最强模型,面向编码/研究/数据分析 |
| 04-23 | GPT-5.5 System Card | 系统安全卡 |
| 04-23 | GPT-5.5 Bio Bug Bounty | 生物安全红队挑战,奖金最高 $25,000 |
| 04-23 | Codex 教程系列(6 篇) | 什么是 Codex · 设置 · 使用 · 插件 · Top 10 用例 · 自动化 |
| 04-22 | ChatGPT 临床版免费 | 面向美国执业医师、NP、药剂师免费开放 |
| 04-22 | Workspace Agents | Codex 驱动的云端 agent,自动化复杂工作流 |
| 04-22 | WebSocket 加速 agentic 工作流 | Responses API 连接级缓存降低延迟 |
| 04-22 | OpenAI Privacy Filter | 开源 PII 检测与脱敏模型 |
| 04-21 | ChatGPT Images 2.0 | 新一代图像生成,改进文字渲染与多语言支持 |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 04-30 | CLI 0.128.0 | 持久化 /goal 工作流、app-server API、TUI 控制 |
| 04-24 | CLI 0.125.0 | Unix socket 传输、分页 resume/fork、sticky 环境 |
| 04-23 | GPT-5.5 & Codex 更新 | GPT-5.5 在 Codex 中可用 |
| 04-23 | CLI 0.124.0 | TUI 快速推理控制(Alt+,/Alt+.) |
| 04-23 | CLI 0.123.0 | 内置 Amazon Bedrock 模型提供方 |
Anthropic — Claude Code
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-04 | v2.1.128 | /color 无参数时随机选择会话颜色 |
| 05-01 | v2.1.126 | /model 选择器支持网关 /v1/models 端点 |
| 04-29 | v2.1.123 | 修复 OAuth 401 重试循环 |
| 04-28 | v2.1.122 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量 |
| 04-28 | v2.1.121 | MCP server 配置新增 alwaysLoad 选项 |
Google AI Blog
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-04 | 4 月 AI 更新汇总 | 月度回顾 |
| 05-04 | Gemini API Webhooks | 事件驱动 Webhook 降低长任务延迟 |
| 04-28 | Google Translate 20 周年 | 新功能与趣味回顾 |
| 04-27 | AI Agents Vibe Coding 课程 | Google × Kaggle 联合课程 |
| 04-24 | Gemini 生活整理技巧 | 8 个 Gemini 实用提示 |
| 04-23 | TPU 驱动 AI 工作负载 | 视频介绍 TPU 原理 |
| 04-23 | 奥地利首个数据中心 | Google 在阿尔卑斯山区投资建设 |
| 04-22 | TPU v8t & v8i 发布 | 第八代 TPU,面向 agentic 时代 |
| 04-21 | Ads Advisor 3 项更新 | Google Ads 更安全更快 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-01 | Voice Cloning API 上线 | 2 分钟创建自定义语音,80+ 语音 / 28 种语言 |
| 04-21 | SpaceXAI × Cursor 合作 | Cursor 联合 Colossus 超算打造编码 AI;SpaceX 持有 $600 亿收购权 |
DeepSeek
| 日期 | 来源 | 要点 |
|---|---|---|
| 04-29 | X | V4-Pro 75% 折扣延长至 5/31 15:59 UTC |
| 04-25 | X | V4-Pro 75% 折扣(原截止 5/5);Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文 |
| 04-24 | API Docs | V4-Pro / V4-Flash 正式上线,支持 ChatCompletions & Anthropic 接口;旧名 deepseek-chat / deepseek-reasoner 7/24 停用 |
二、Benchmark 快照与变化
LM Arena(Overall)— 2026-05-01 采集
本期无变动(仅有快照数据,无变化记录)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
| 4 | gemini-3.1-pro-preview | 1492.56 |
| 5 | claude-opus-4-7 | 1491.27 |
Anthropic 占据 Top 5 中 4 席;GPT-5.5-high 排第 7(1487.59);xAI grok-4.20-beta1 排第 9(1479.62)
SWE-bench Verified(Top 10)— 快照
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 |
| 5 | Atlassian Rovo Dev | 76.8 |
本期变化(显著项):
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| Warp | #11 → #36 | 75.6 → 71.0 ↓ |
| devlo | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 ↓ |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 ↓ |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 ↑ | 52.2 → 60.4 ↑ |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 ↓ |
| Solver (2024-09-12) | #120 → #126 | 45.4 → 43.6 ↓ |
SWE-bench Pro Public(Top 5)— 2026-05-05 采集
本期无变动
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
Terminal-bench 2.0(Top 5)— 快照
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
本期变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| Warp / Multiple | #32 → #37 / #54 | 61.2 → 59.1 / 50.1 ↓ |
三、来源状态
所有来源均采集成功,无失败记录。