AI 日报 2026-05-02 08:38
2026-05-02 08:38 CST
核心速览
【OpenAI】发布 GPT-5.5,号称"最智能模型" GPT-5.5 正式发布,定位为 OpenAI 迄今最强模型,在编程、研究、数据分析等复杂任务上更快更强。同步上线 Codex 集成及 Bio Bug Bounty(最高 $25,000 奖励),并发布系统安全卡。 原文链接
【DeepSeek】发布 DeepSeek-V4 系列,API 75% 折扣 DeepSeek API 新增 V4-Pro 和 V4-Flash 两个模型,同时支持 OpenAI 和 Anthropic 接口格式。V4-Pro 限时 75% 折扣延长至 5 月 31 日,支持 Claude Code 1M 上下文。旧模型名 deepseek-chat/reasoner 将于 3 个月后停用。 原文链接
【xAI/SpaceX】与 Cursor 达成深度合作,$600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的开发者产品分发与 SpaceX 百万 H100 等效 Colossus 超算,目标打造最强编程与知识工作 AI。Cursor 赋予 SpaceX 今年内以 $600 亿收购或支付 $100 亿合作费的选择权。 原文链接
【OpenAI】GPT 模型、Codex 及 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 和 Managed Agents 正式在 AWS 上线,企业可在自有 AWS 环境中安全构建 AI 应用。同期 Codex 周活用户达 400 万,并联合 Accenture、PwC 等成立 Codex Labs 推动企业落地。 原文链接
【Anthropic】提出"内省适配器",让模型自我报告训练中的不良行为 Anthropic Fellows 研究提出 Introspection Adapter(IA),使微调后的模型能自我报告训练中学到的行为,包括潜在的错位、后门和安全防护移除。该方法具有泛化能力,为 AI 对齐研究提供新工具。 原文链接
重大 Benchmark 变化
Terminal Bench 2.0
| 模型 | 变动 | 详情 |
|---|---|---|
| Codex CLI / GPT-5.5 | 🆕 新上榜 | 直接登顶 第 1 名,得分 82.0 |
| Warp / Multiple | 排名 32→54 | 得分 61.2→50.1(-18.2%) |
SWE-bench Verified
| 模型 | 变动 | 详情 |
|---|---|---|
| Warp | 排名 11→36 | 得分 75.6→71.0(-6.1%) |
| devlo | 排名 44→83/94 | 得分 70.2→54.2(-22.8%) |
| Nemotron-CORTEXA | 排名 50→82 | 得分 68.2→58.2(-14.7%) |
| EntroPO + R2E + Qwen3-Coder | 排名 103→76 ↑ | 得分 52.2→60.4(+15.7%) |
LMArena Overall(头部变动)
| 模型 | 变动 | 详情 |
|---|---|---|
| gemini-3.1-pro-preview | 排名 5→4 | 超越 claude-opus-4-7 升至第 4 |
| claude-opus-4-7 | 排名 4→5 | 得分 1494.8→1492.6(-0.15%) |
| gpt-5.3-chat-latest | 排名 38→43 | 得分 1449.7→1448.5 |
| gpt-5.5 | 排名 16→15 | 得分 1473.2→1474.0 |
| qwen3.6-max-preview | 🆕 新上榜 | 直接进入 第 32 名,得分 1456.9 |
| hunyuan-hy3-preview | 🆕 新上榜 | 进入 第 79 名,得分 1419.1 |
快速预览
- OpenAI 发布 GPT-5.5:4/23 发布最智能模型,Codex CLI / GPT-5.5 以 82.0 分登顶 Terminal-Bench 2.0 榜首
- DeepSeek-V4 系列上线:V4-Pro 和 V4-Flash 开放 API,V4-Pro 75% 折扣延长至 5/31
- xAI 上线 Voice Cloning API:2 分钟克隆自定义语音,支持 28 种语言 80+ 预置音色
- LM Arena 榜首易位:claude-opus-4-7-thinking 以 1504.0 分稳居第一,gemini-3.1-pro-preview 升至第 4
- SWE-bench Verified 重大变动:Warp 从第 11 跌至第 36(75.6→71.0),devlo 从第 44 跌至第 83/94
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 4/30 | Advanced Account Security | 推出防钓鱼登录、增强恢复与账户保护 |
| 4/29 | Where the goblins came from | GPT-5 性格驱动怪癖的时间线、根因与修复 |
| 4/29 | Building compute infrastructure | Stargate 扩容,新增数据中心支撑 AGI 算力需求 |
| 4/29 | Cybersecurity in the Intelligence Age | 五部分行动计划,民主化 AI 网络防御 |
| 4/28 | Community safety | ChatGPT 模型安全、滥用检测与政策执行 |
| 4/28 | OpenAI on AWS | GPT 模型、Codex、Managed Agents 登陆 AWS |
| 4/27 | FedRAMP Moderate | ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权 |
| 4/27 | Microsoft partnership next phase | 修订协议简化合作,增加长期确定性 |
| 4/27 | Symphony 开源编排规范 | 将 issue tracker 转为 always-on agent 系统 |
| 4/23 | Introducing GPT-5.5 | 最智能模型,擅长编码、研究与数据分析 |
| 4/23 | GPT-5.5 System Card | 系统安全卡发布 |
| 4/23 | GPT-5.5 Bio Bug Bounty | 生物安全红队挑战,最高 $25,000 奖励 |
| 4/23 | Codex Academy 系列(6 篇) | 涵盖 Codex 入门、自动化、插件、设置等 |
| 4/22 | ChatGPT for Clinicians 免费 | 面向美国执业医师、护士和药剂师免费开放 |
| 4/22 | Workspace Agents in ChatGPT | Codex 驱动的云端 agent,自动化复杂工作流 |
| 4/22 | OpenAI Privacy Filter | 开放权重 PII 检测与脱敏模型 |
| 4/21 | ChatGPT Images 2.0 | 新一代图像生成,改进文字渲染与多语言支持 |
| 4/21 | Codex 企业扩展 | Codex Labs 成立,WAU 达 400 万 |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 4/30 | CLI 0.128.0 | 持久化 /goal 工作流、app-server API、TUI 控制 |
| 4/24 | CLI 0.125.0 | Unix socket 传输、分页恢复/fork、sticky 环境 |
| 4/23 | GPT-5.5 + Codex 更新 | GPT-5.5 在 Codex 中可用 |
| 4/23 | CLI 0.124.0 | TUI 快速推理控制(Alt+,/.) |
| 4/23 | CLI 0.123.0 | 内置 Amazon Bedrock provider |
Anthropic / Claude Code
| 日期 | 版本 | 要点 |
|---|---|---|
| 5/1 | v2.1.126 | /model 选择器支持网关 /v1/models 端点 |
| 4/29 | v2.1.123 | 修复 OAuth 401 重试循环 |
| 4/28 | v2.1.122 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量 |
| 4/28 | v2.1.121 | MCP server 配置新增 alwaysLoad 选项 |
| 4/23 | v2.1.119 | /config 设置持久化至 ~/.claude/settings.json |
Anthropic 研究
| 日期 | 内容 |
|---|---|
| 4/29 | Introspection Adapters:让 LLM 自我报告训练中学到的行为(含潜在错位),可泛化检测隐藏后门与安全移除 |
| 日期 | 标题 |
|---|---|
| 4/28 | Google Translate 20 周年 |
| 4/27 | AI Agents Vibe Coding 课程(Google + Kaggle) |
| 4/24 | Gemini 春季整理技巧 |
| 4/23 | TPU 驱动 AI 工作负载 |
| 4/23 | Google 奥地利首个数据中心 |
| 4/22 | TPU v8t / v8i 发布:第八代 TPU,两款专用芯片面向 agentic 时代 |
xAI
| 日期 | 内容 |
|---|---|
| 5/1 | Voice Cloning API 上线:2 分钟克隆自定义语音,80+ 预置音色,28 种语言 |
| 4/21 | SpaceXAI × Cursor 合作:百万 H100 等效 Colossus 超算 + Cursor 产品分发,Cursor 可被 $600 亿收购 |
DeepSeek
| 日期 | 内容 |
|---|---|
| 4/29 | V4-Pro 折扣延长至 5/31 |
| 4/25 | V4-Pro 75% OFF 至 5/5;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文 |
| 4/24 | DeepSeek-V4 发布:V4-Pro 和 V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 三个月后停用 |
二、Benchmark 快照与变化
LM Arena(Overall)— 采集日期 2026-04-30
当前 Top 10:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1504.00 |
| 2 | claude-opus-4-6-thinking | 1502.37 |
| 3 | claude-opus-4-6 | 1496.77 |
| 4 | gemini-3.1-pro-preview | 1492.85 |
| 5 | claude-opus-4-7 | 1492.58 |
| 6 | muse-spark | 1490.52 |
| 7 | gpt-5.5-high | 1488.12 |
| 8 | gemini-3-pro | 1485.76 |
| 9 | grok-4.20-beta1 | 1479.80 |
| 10 | gpt-5.4-high | 1477.32 |
本期关键变化:
| 模型 | 变化类型 | 详情 |
|---|---|---|
| claude-opus-4-7-thinking | 分数↑ | 1502.93 → 1504.00(稳居第 1) |
| claude-opus-4-7 | 排名↓ | 第 4 → 第 5(分数 1494.81 → 1492.58) |
| gemini-3.1-pro-preview | 排名↑ | 第 5 → 第 4 |
| gpt-5.5 | 排名↑ | 第 16 → 第 15 |
| gpt-5.3-chat-latest | 排名↓ | 第 38 → 第 43(分数下降 1.2) |
| ernie-5.1-preview | 排名↓ | 第 13 → 第 14(分数 1475.80 → 1474.28) |
| grok-4.20-multi-agent-beta | 排名↑ | 第 14 → 第 13 |
| kimi-k2.6 | 排名↑ + 分数↑ | 第 28 → 第 27(1460.71 → 1462.10) |
| qwen3.5-max-preview | 排名↑ | 第 25 → 第 23 |
| qwen3.6-max-preview | 新上榜 | 直接进入第 32 名(1456.87) |
| hunyuan-hy3-preview | 新上榜 | 直接进入第 79 名(1419.11) |
| deepseek-v4-pro | 排名↓ | 第 23 → 第 25 |
| deepseek-v4-flash-thinking | 排名↓ | 第 50 → 第 52 |
| longcat-flash-chat-2602-exp | 排名↑ + 分数↑ | 第 58 → 第 57(1433.10 → 1435.41) |
| gpt-5.4-nano-high | 分数↑ | 1404.03 → 1406.40(排名不变 #98) |
| minimax-m2.7 | 分数↑ | 1403.87 → 1405.40(排名不变 #99) |
SWE-bench Verified — 当前 Top 10
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 |
| 5 | Atlassian Rovo Dev | 76.8 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 |
| 8 | ACoder | 76.4 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 |
本期变化:
| 模型 | 变化 | 详情 |
|---|---|---|
| Warp | 排名大幅下跌 | #11 → #36(75.6 → 71.0) |
| devlo | 排名大幅下跌 | #44 → #83/#94(70.2 → 58.2/54.2) |
| Nemotron-CORTEXA | 排名下跌 | #50 → #82(68.2 → 58.2) |
| EntroPO + R2E + Qwen3-Coder-30B | 排名大幅上升 | #103 → #76(52.2 → 60.4) |
| EPAM AI/Run + GPT4o | 排名下跌 | #156 → #162(27.0 → 24.0) |
| Solver (2024-09-12) | 排名下跌 | #120 → #126(45.4 → 43.6) |
SWE-bench Pro Public — 当前 Top 5(采集 2026-05-02)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
本期无变动。
Terminal-Bench 2.0 — 当前 Top 5
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
本期变化:
| 模型 | 变化 | 详情 |
|---|---|---|
| Codex CLI / GPT-5.5 | 新上榜登顶 | 直接进入第 1 名(82.0) |
| Warp / Multiple | 排名下跌 | #32 → #37/#54(61.2 → 59.1/50.1) |
三、来源状态
所有新闻来源和 benchmark 数据源均采集成功,无失败记录。