AI 日报 2026-05-02 15:52
2026-05-02 15:52 CST
核心速览
1.【OpenAI】发布 GPT-5.5,定位"最强模型" OpenAI 推出 GPT-5.5,定位为迄今最智能的模型,在编程、研究和数据分析等复杂任务上速度更快、能力更强。GPT-5.5 已同步上线 Codex,支持跨工具工作流。LM Arena 排名从第 15 升至第 13,分数 1475.5。 原文链接
2.【DeepSeek】发布 V4 系列模型,API 75 折促销 DeepSeek 发布 V4-Pro 和 V4-Flash 两款新模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 限时 75 折至 5 月 31 日,支持 Claude Code 1M 上下文接入。 原文链接
3.【OpenAI × Microsoft】宣布合作协议修订,进入新阶段 OpenAI 与微软宣布修订合作协议,简化合作关系、增加长期确定性,支持双方在大规模 AI 创新上的持续协作。这是两家公司战略关系的重要里程碑。 原文链接
4.【xAI × SpaceX × Cursor】三方联手打造最强编程 AI SpaceXAI 与 Cursor 达成深度合作,结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算,目标打造世界最强编程与知识工作 AI。Cursor 同时授予 SpaceX 以 600 亿美元收购的选择权。 原文链接
5.【Anthropic】提出"内省适配器",让模型自我报告训练中学到的不良行为 Anthropic Fellows 研究提出 Introspection Adapter(IA),可让微调后的语言模型自我报告其学到的行为,包括潜在的错位、后门和安全防护移除。该方法具有泛化能力,为 AI 对齐研究提供新工具。 原文链接
重大 Benchmark 变化
SWE-bench Verified(排名变动 ≥5)
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76(↑27) | 52.2 → 60.4(↑15.7%) | 大幅跃升,编码能力显著提升 |
| Warp | 11 → 36(↓25) | 75.6 → 71.0(↓6.1%) | 排名大幅下滑 |
| Nemotron-CORTEXA | 50 → 82(↓32) | 68.2 → 58.2(↓14.7%) | 分数与排名双降 |
| devlo | 44 → 83/94(↓39-50) | 70.2 → 58.2/54.2(↓17-23%) | 多条目大幅下跌 |
LM Arena Overall(排名变动 ≥5)
| 模型 | 排名变动 | 分数 | 说明 |
|---|---|---|---|
| grok-4.3 | 新上榜 | 34 名(1455.7) | xAI 新模型首次入榜 |
| GPT-5.5 | 15 → 13(↑2) | 1475.5(↑1.4) | 新发布后排名上升 |
| deepseek-v4-flash-thinking | 52 → 55(↓3) | 1438.8 | 小幅下滑 |
注:LM Arena 本轮变动以 1-3 名微调为主,无 ≥5 名的大幅变动。SWE-bench 变动最为剧烈。
快速预览
- OpenAI 发布 GPT-5.5(4/23),号称最强模型,Terminal-Bench 2.0 以 82.0 分登顶;同期推出 Codex CLI 0.123–0.128 系列更新
- DeepSeek-V4-Pro/V4-Flash 上线(4/24),API 75% 折扣延至 5/31;LM Arena 排名 24–27 位区间
- xAI 上线 Voice Cloning API(5/1),80+ 语音、28 种语言;LM Arena 新增 grok-4.3(rank 34)
- Anthropic 发布"内省适配器"研究(4/29),让模型自报告训练中学到的不当行为;Claude Code 迭代至 v2.1.126
- LM Arena Top 3 不变:claude-opus-4-7-thinking (1502.7)、claude-opus-4-6-thinking (1502.0)、claude-opus-4-6 (1497.1);gpt-5.5 升至第 13 位
一、新闻(按厂商 / 日期倒序)
OpenAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/30 | Advanced Account Security | 防钓鱼登录、增强恢复、防账户接管 |
| 4/29 | Where the goblins came from | GPT-5 性格驱动怪癖的时间线、根因与修复 |
| 4/29 | Building compute infrastructure | Stargate 扩容,新增数据中心 |
| 4/29 | Cybersecurity in the Intelligence Age | 五步网络安全行动计划 |
| 4/28 | Community safety | ChatGPT 模型保障、滥用检测、政策执行 |
| 4/28 | OpenAI on AWS | GPT 模型、Codex、Managed Agents 登陆 AWS |
| 4/27 | FedRAMP Moderate | ChatGPT Enterprise & API 获 FedRAMP Moderate 授权 |
| 4/27 | Microsoft partnership next phase | 修订合作协议,简化结构、增加长期确定性 |
| 4/27 | Symphony 开源编排规范 | 将 issue tracker 变为 always-on agent 系统 |
| 4/23 | Introducing GPT-5.5 | 最强模型,面向编码/研究/数据分析;同步发布 System Card |
| 4/23 | GPT-5.5 Bio Bug Bounty | 生物安全红队挑战,最高 $25,000 |
| 4/23 | Codex 系列教程(6 篇) | What is Codex · Getting started · Settings · Working with Codex · Plugins & skills · Top 10 uses · Automations |
| 4/22 | ChatGPT for Clinicians 免费 | 面向美国执业医师、NP、药剂师免费开放 |
| 4/22 | Workspace agents in ChatGPT | Codex 驱动的云端 agent,自动化复杂工作流 |
| 4/22 | Privacy Filter | 开放权重 PII 检测与脱敏模型 |
| 4/22 | WebSockets 加速 agentic workflows | Responses API 中 WebSocket + 连接级缓存降低延迟 |
| 4/21 | ChatGPT Images 2.0 | 新一代图像生成,改进文字渲染与多语言支持 |
| 4/21 | Codex 企业扩展 | Codex Labs + Accenture/PwC/Infosys 合作;Codex WAU 达 400 万 |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 4/30 | CLI 0.128.0 | 持久化 /goal 工作流、app-server API、TUI 控制 |
| 4/24 | CLI 0.125.0 | Unix socket 传输、分页 resume/fork、sticky 环境 |
| 4/23 | GPT-5.5 + Codex app 更新 | GPT-5.5 在 Codex 中可用 |
| 4/23 | CLI 0.124.0 | TUI 快速推理控制(Alt+,/Alt+.) |
| 4/23 | CLI 0.123.0 | 内置 Amazon Bedrock provider |
Anthropic / Claude Code
| 日期 | 标题 | 要点 |
|---|---|---|
| 5/1 | Claude Code v2.1.126 | /model picker 支持 gateway /v1/models 端点 |
| 4/29 | v2.1.123 | 修复 OAuth 401 重试循环 |
| 4/28 | v2.1.122 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量 |
| 4/28 | v2.1.121 | MCP server config 新增 alwaysLoad 选项 |
| 4/23 | v2.1.119 | /config 设置持久化至 ~/.claude/settings.json |
| 4/29 | Introspection Adapters 研究 | 训练模型自报告学到的行为(含潜在错位),可泛化检测隐藏后门 |
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/28 | Google Translate 20 周年 | 新功能与使用技巧 |
| 4/27 | AI Agents Vibe Coding Course | Google + Kaggle 联合课程 |
| 4/24 | Gemini 春季整理技巧 | 8 个 Gemini 实用提示 |
| 4/23 | TPU 驱动 AI 工作负载 | 新视频介绍 TPU 能力 |
| 4/23 | 奥地利首个数据中心 | Google 在阿尔卑斯山区投资建设 |
| 4/22 | TPU v8t & v8i | 第八代 TPU,面向 agentic 时代 |
| 4/21 | Ads Advisor 3 项更新 | Google Ads 更安全、更快 |
xAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 5/1 | Voice Cloning API | 2 分钟创建自定义语音,80+ 语音、28 种语言 |
| 4/21 | SpaceXAI × Cursor 合作 | Cursor 与 SpaceX 联合打造编码/知识工作 AI;Cursor 可被 $600 亿收购 |
DeepSeek
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/29 | V4-Pro 折扣延至 5/31 | 75% OFF 延期;支持 Claude Code 1M 上下文 |
| 4/25 | V4-Pro 75% OFF | 截止 5/5;集成 Claude Code / OpenCode / OpenClaw |
| 4/24 | DeepSeek-V4 发布 | V4-Pro & V4-Flash 上线;旧名 deepseek-chat / deepseek-reasoner 三个月后停用 |
二、Benchmark 快照(当前 Top 10)
LM Arena — Overall(2026-05-01)
| Rank | Model | Score |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
| 4 | gemini-3.1-pro-preview | 1492.56 |
| 5 | claude-opus-4-7 | 1491.27 |
| 6 | muse-spark | 1491.21 |
| 7 | gpt-5.5-high | 1487.59 |
| 8 | gemini-3-pro | 1485.68 |
| 9 | grok-4.20-beta1 | 1479.62 |
| 10 | grok-4.20-beta-0309-reasoning | 1477.23 |
SWE-bench Verified(截至 2026-02-17)
| Rank | Model | Score |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 |
| 5 | Atlassian Rovo Dev | 76.8 |
SWE-bench Pro Public(2026-05-02)
| Rank | Model | Score |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
Terminal-Bench 2.0(截至 2026-04-23)
| Rank | Model | Score |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
三、榜单变化
LM Arena — 本期显著变化
新模型入场:
- grok-4.3 首次上榜,直接进入 rank 34(score 1455.67)
排名上升:
- gpt-5.5:15 → 13(score 1474.02 → 1475.46)
- grok-4.20-beta-0309-reasoning:11 → 10
- deepseek-v4-pro:25 → 24
- deepseek-v4-pro-thinking:28 → 27
- mimo-v2.5-pro:24 → 22
- mimo-v2.5:72 → 70(score 上升)
- qwen3.6-max-preview:32 → 31
- qwen3.6-plus:47 → 46(score 上升)
- glm-5:33 → 32
排名下降:
- gpt-5.4-high:10 → 11
- ernie-5.1-preview:14 → 15
- grok-4.20-multi-agent-beta-0309:13 → 14
- gpt-5.4-mini-high:31 → 33(score 下降)
- kimi-k2.6:27 → 28(score 下降)
- qwen3.5-max-preview:23 → 25
- deepseek-v4-flash-thinking:52 → 55
分数微调(Top 3):
- claude-opus-4-7-thinking:1504.00 → 1502.65(↓1.35)
- claude-opus-4-7:1492.58 → 1491.27(↓1.31)
SWE-bench Verified — 本期变化
| 模型 | 变化 | 详情 |
|---|---|---|
| Warp | 排名大幅下降 | 11 → 36(75.6 → 71.0) |
| devlo | 排名大幅下降 | 44 → 83/94(70.2 → 58.2/54.2) |
| Nemotron-CORTEXA | 排名下降 | 50 → 82(68.2 → 58.2) |
| EntroPO + R2E + Qwen3-Coder-30B | 排名大幅上升 | 103 → 76(52.2 → 60.4) |
| EPAM AI/Run + GPT4o | 小幅下降 | 156 → 162(27.0 → 24.0) |
| Solver (2024-09-12) | 小幅下降 | 120 → 126(45.4 → 43.6) |
Terminal-Bench 2.0 — 本期变化
| 模型 | 变化 | 详情 |
|---|---|---|
| Warp / Multiple | 排名下降 | 32 → 37(61.2 → 59.1) |
注:Terminal-Bench 2.0 Top 3 无变动,仍为 Codex CLI / GPT-5.5 (82.0)、ForgeCode / GPT-5.4 (81.8)、TongAgents / Gemini 3.1 Pro (80.2)。
SWE-bench Pro Public — 本期无变动
Top 3 为 gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9,排名与分数均未变化。