AI 日报 2026-05-02 08:38

2026-05-02 08:38 CST

核心速览

【OpenAI】发布 GPT-5.5,号称"最智能模型" GPT-5.5 正式发布,定位为 OpenAI 迄今最强模型,在编程、研究、数据分析等复杂任务上更快更强。同步上线 Codex 集成及 Bio Bug Bounty(最高 $25,000 奖励),并发布系统安全卡。 原文链接

【DeepSeek】发布 DeepSeek-V4 系列,API 75% 折扣 DeepSeek API 新增 V4-Pro 和 V4-Flash 两个模型,同时支持 OpenAI 和 Anthropic 接口格式。V4-Pro 限时 75% 折扣延长至 5 月 31 日,支持 Claude Code 1M 上下文。旧模型名 deepseek-chat/reasoner 将于 3 个月后停用。 原文链接

【xAI/SpaceX】与 Cursor 达成深度合作,$600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的开发者产品分发与 SpaceX 百万 H100 等效 Colossus 超算,目标打造最强编程与知识工作 AI。Cursor 赋予 SpaceX 今年内以 $600 亿收购或支付 $100 亿合作费的选择权。 原文链接

【OpenAI】GPT 模型、Codex 及 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 和 Managed Agents 正式在 AWS 上线,企业可在自有 AWS 环境中安全构建 AI 应用。同期 Codex 周活用户达 400 万,并联合 Accenture、PwC 等成立 Codex Labs 推动企业落地。 原文链接

【Anthropic】提出"内省适配器",让模型自我报告训练中的不良行为 Anthropic Fellows 研究提出 Introspection Adapter(IA),使微调后的模型能自我报告训练中学到的行为,包括潜在的错位、后门和安全防护移除。该方法具有泛化能力,为 AI 对齐研究提供新工具。 原文链接


重大 Benchmark 变化

Terminal Bench 2.0

模型 变动 详情
Codex CLI / GPT-5.5 🆕 新上榜 直接登顶 第 1 名,得分 82.0
Warp / Multiple 排名 32→54 得分 61.2→50.1(-18.2%)

SWE-bench Verified

模型 变动 详情
Warp 排名 11→36 得分 75.6→71.0(-6.1%)
devlo 排名 44→83/94 得分 70.2→54.2(-22.8%)
Nemotron-CORTEXA 排名 50→82 得分 68.2→58.2(-14.7%)
EntroPO + R2E + Qwen3-Coder 排名 103→76 ↑ 得分 52.2→60.4(+15.7%)

LMArena Overall(头部变动)

模型 变动 详情
gemini-3.1-pro-preview 排名 5→4 超越 claude-opus-4-7 升至第 4
claude-opus-4-7 排名 4→5 得分 1494.8→1492.6(-0.15%)
gpt-5.3-chat-latest 排名 38→43 得分 1449.7→1448.5
gpt-5.5 排名 16→15 得分 1473.2→1474.0
qwen3.6-max-preview 🆕 新上榜 直接进入 第 32 名,得分 1456.9
hunyuan-hy3-preview 🆕 新上榜 进入 第 79 名,得分 1419.1

快速预览

  • OpenAI 发布 GPT-5.5:4/23 发布最智能模型,Codex CLI / GPT-5.5 以 82.0 分登顶 Terminal-Bench 2.0 榜首
  • DeepSeek-V4 系列上线:V4-Pro 和 V4-Flash 开放 API,V4-Pro 75% 折扣延长至 5/31
  • xAI 上线 Voice Cloning API:2 分钟克隆自定义语音,支持 28 种语言 80+ 预置音色
  • LM Arena 榜首易位:claude-opus-4-7-thinking 以 1504.0 分稳居第一,gemini-3.1-pro-preview 升至第 4
  • SWE-bench Verified 重大变动:Warp 从第 11 跌至第 36(75.6→71.0),devlo 从第 44 跌至第 83/94

一、新闻动态

OpenAI(按日期倒序)

日期 标题 摘要
4/30 Advanced Account Security 推出防钓鱼登录、增强恢复与账户保护
4/29 Where the goblins came from GPT-5 性格驱动怪癖的时间线、根因与修复
4/29 Building compute infrastructure Stargate 扩容,新增数据中心支撑 AGI 算力需求
4/29 Cybersecurity in the Intelligence Age 五部分行动计划,民主化 AI 网络防御
4/28 Community safety ChatGPT 模型安全、滥用检测与政策执行
4/28 OpenAI on AWS GPT 模型、Codex、Managed Agents 登陆 AWS
4/27 FedRAMP Moderate ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
4/27 Microsoft partnership next phase 修订协议简化合作,增加长期确定性
4/27 Symphony 开源编排规范 将 issue tracker 转为 always-on agent 系统
4/23 Introducing GPT-5.5 最智能模型,擅长编码、研究与数据分析
4/23 GPT-5.5 System Card 系统安全卡发布
4/23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,最高 $25,000 奖励
4/23 Codex Academy 系列(6 篇) 涵盖 Codex 入门、自动化、插件、设置等
4/22 ChatGPT for Clinicians 免费 面向美国执业医师、护士和药剂师免费开放
4/22 Workspace Agents in ChatGPT Codex 驱动的云端 agent,自动化复杂工作流
4/22 OpenAI Privacy Filter 开放权重 PII 检测与脱敏模型
4/21 ChatGPT Images 2.0 新一代图像生成,改进文字渲染与多语言支持
4/21 Codex 企业扩展 Codex Labs 成立,WAU 达 400 万

OpenAI Codex Changelog

日期 版本 要点
4/30 CLI 0.128.0 持久化 /goal 工作流、app-server API、TUI 控制
4/24 CLI 0.125.0 Unix socket 传输、分页恢复/fork、sticky 环境
4/23 GPT-5.5 + Codex 更新 GPT-5.5 在 Codex 中可用
4/23 CLI 0.124.0 TUI 快速推理控制(Alt+,/.)
4/23 CLI 0.123.0 内置 Amazon Bedrock provider

Anthropic / Claude Code

日期 版本 要点
5/1 v2.1.126 /model 选择器支持网关 /v1/models 端点
4/29 v2.1.123 修复 OAuth 401 重试循环
4/28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量
4/28 v2.1.121 MCP server 配置新增 alwaysLoad 选项
4/23 v2.1.119 /config 设置持久化至 ~/.claude/settings.json

Anthropic 研究

日期 内容
4/29 Introspection Adapters:让 LLM 自我报告训练中学到的行为(含潜在错位),可泛化检测隐藏后门与安全移除

Google

日期 标题
4/28 Google Translate 20 周年
4/27 AI Agents Vibe Coding 课程(Google + Kaggle)
4/24 Gemini 春季整理技巧
4/23 TPU 驱动 AI 工作负载
4/23 Google 奥地利首个数据中心
4/22 TPU v8t / v8i 发布:第八代 TPU,两款专用芯片面向 agentic 时代

xAI

日期 内容
5/1 Voice Cloning API 上线:2 分钟克隆自定义语音,80+ 预置音色,28 种语言
4/21 SpaceXAI × Cursor 合作:百万 H100 等效 Colossus 超算 + Cursor 产品分发,Cursor 可被 $600 亿收购

DeepSeek

日期 内容
4/29 V4-Pro 折扣延长至 5/31
4/25 V4-Pro 75% OFF 至 5/5;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文
4/24 DeepSeek-V4 发布:V4-Pro 和 V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 三个月后停用

二、Benchmark 快照与变化

LM Arena(Overall)— 采集日期 2026-04-30

当前 Top 10:

排名 模型 分数
1 claude-opus-4-7-thinking 1504.00
2 claude-opus-4-6-thinking 1502.37
3 claude-opus-4-6 1496.77
4 gemini-3.1-pro-preview 1492.85
5 claude-opus-4-7 1492.58
6 muse-spark 1490.52
7 gpt-5.5-high 1488.12
8 gemini-3-pro 1485.76
9 grok-4.20-beta1 1479.80
10 gpt-5.4-high 1477.32

本期关键变化:

模型 变化类型 详情
claude-opus-4-7-thinking 分数↑ 1502.93 → 1504.00(稳居第 1)
claude-opus-4-7 排名↓ 第 4 → 第 5(分数 1494.81 → 1492.58)
gemini-3.1-pro-preview 排名↑ 第 5 → 第 4
gpt-5.5 排名↑ 第 16 → 第 15
gpt-5.3-chat-latest 排名↓ 第 38 → 第 43(分数下降 1.2)
ernie-5.1-preview 排名↓ 第 13 → 第 14(分数 1475.80 → 1474.28)
grok-4.20-multi-agent-beta 排名↑ 第 14 → 第 13
kimi-k2.6 排名↑ + 分数↑ 第 28 → 第 27(1460.71 → 1462.10)
qwen3.5-max-preview 排名↑ 第 25 → 第 23
qwen3.6-max-preview 新上榜 直接进入第 32 名(1456.87)
hunyuan-hy3-preview 新上榜 直接进入第 79 名(1419.11)
deepseek-v4-pro 排名↓ 第 23 → 第 25
deepseek-v4-flash-thinking 排名↓ 第 50 → 第 52
longcat-flash-chat-2602-exp 排名↑ + 分数↑ 第 58 → 第 57(1433.10 → 1435.41)
gpt-5.4-nano-high 分数↑ 1404.03 → 1406.40(排名不变 #98)
minimax-m2.7 分数↑ 1403.87 → 1405.40(排名不变 #99)

SWE-bench Verified — 当前 Top 10

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8
4 live-SWE-agent + Gemini 3 Pro Preview 77.4
5 Atlassian Rovo Dev 76.8
6 EPAM AI/Run + Claude 4 Sonnet 76.8
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8
8 ACoder 76.4
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8

本期变化:

模型 变化 详情
Warp 排名大幅下跌 #11 → #36(75.6 → 71.0)
devlo 排名大幅下跌 #44 → #83/#94(70.2 → 58.2/54.2)
Nemotron-CORTEXA 排名下跌 #50 → #82(68.2 → 58.2)
EntroPO + R2E + Qwen3-Coder-30B 排名大幅上升 #103 → #76(52.2 → 60.4)
EPAM AI/Run + GPT4o 排名下跌 #156 → #162(27.0 → 24.0)
Solver (2024-09-12) 排名下跌 #120 → #126(45.4 → 43.6)

SWE-bench Pro Public — 当前 Top 5(采集 2026-05-02)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

本期无变动。

Terminal-Bench 2.0 — 当前 Top 5

排名 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4

本期变化:

模型 变化 详情
Codex CLI / GPT-5.5 新上榜登顶 直接进入第 1 名(82.0)
Warp / Multiple 排名下跌 #32 → #37/#54(61.2 → 59.1/50.1)

三、来源状态

所有新闻来源和 benchmark 数据源均采集成功,无失败记录。

Sources