AI 日报 2026-05-03 08:52
2026-05-03 08:52 CST
核心速览
1. 【OpenAI】发布 GPT-5.5:迄今最强模型 OpenAI 发布 GPT-5.5,定位为"最智能模型",在编码、研究、数据分析等复杂任务上更快更强。同步推出 System Card 和 Bio Bug Bounty(最高 $25,000 奖励),GPT-5.5 已上线 Codex 平台。 原文链接
2. 【DeepSeek】发布 V4 系列:V4-Pro 与 V4-Flash 上线 DeepSeek API 新增 deepseek-v4-pro 和 deepseek-v4-flash 两个模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 当前 75% 折扣,已延长至 5 月 31 日。 原文链接
3. 【xAI/SpaceX】xAI 与 Cursor 深度合作,潜在收购价 $600 亿 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的开发者产品分发能力与 SpaceX 百万 H100 等效 Colossus 超算,目标打造最强编码与知识工作 AI。Cursor 同时授予 SpaceX 今年内以 $600 亿收购的选择权。 原文链接
4. 【OpenAI】与微软合作进入新阶段 OpenAI 与微软宣布修订合作协议,简化合作结构、增加长期确定性,支持双方在规模化 AI 创新上的持续投入。这是两家公司合作关系的重要里程碑。 原文链接
5. 【Anthropic】提出"内省适配器":让模型自我报告训练中学到的不良行为 Anthropic Fellows 研究提出 Introspection Adapter(IA),可让微调后的模型自我描述其行为特征,包括潜在的错位行为、后门和安全防护移除,泛化能力良好。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #83/94 | 70.2 → 54.2/58.2 | 排名暴跌 39-50 位,分数下降 17%-23%,疑为评测结果修正 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 排名下降 32 位,分数下降 14.7% |
| Warp | #11 → #36 | 75.6 → 71.0 | 排名下降 25 位,跌出 Top 30 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 排名上升 27 位,分数提升 15.7%,表现亮眼 |
Terminal-bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| Warp / Multiple | #32 → #37/54 | 61.2 → 50.1/59.1 | 排名下降 5-22 位,分数最高下降 18.1% |
快速预览
- OpenAI 发布 GPT-5.5:4/23 发布,Codex CLI 同步支持,LM Arena 排名第 7(1487.6 分)
- DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5/31,支持 Claude Code 1M 上下文
- xAI 推出 Voice Cloning API:2 分钟克隆自定义语音,80+ 预置语音覆盖 28 种语言
- LM Arena 前三:Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)
- SWE-bench Verified 重大变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
一、新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 4/30 | Advanced Account Security | 推出防钓鱼登录、增强恢复与账户保护 |
| 4/29 | Where the goblins came from | GPT-5 行为异常("goblin"输出)的时间线、根因与修复 |
| 4/29 | Building compute infrastructure | Stargate 扩容,新增数据中心支撑 AGI 算力需求 |
| 4/29 | Cybersecurity in the Intelligence Age | 五步网络安全行动计划,推动 AI 驱动的网络防御民主化 |
| 4/28 | Community safety | ChatGPT 安全保障:模型防护、滥用检测、政策执行 |
| 4/28 | OpenAI on AWS | GPT 模型、Codex、Managed Agents 登陆 AWS |
| 4/27 | FedRAMP Moderate | ChatGPT Enterprise & API 获 FedRAMP Moderate 授权 |
| 4/27 | Microsoft partnership next phase | 修订合作协议,简化伙伴关系,增加长期确定性 |
| 4/27 | Symphony 开源编排规范 | 将 issue tracker 变为 always-on agent 系统 |
| 4/27 | Choco 客户案例 | Choco 用 OpenAI API 自动化食品分销 |
| 4/26 | Our principles | Sam Altman 分享指导工作的五项原则 |
| 4/23 | Introducing GPT-5.5 | 最新旗舰模型,面向编码、研究、数据分析等复杂任务 |
| 4/23 | GPT-5.5 System Card | GPT-5.5 系统安全卡 |
| 4/23 | Codex 系列教程 | 6 篇 Codex 使用指南(入门、设置、插件、自动化等) |
| 4/23 | GPT-5.5 Bio Bug Bounty | 生物安全红队挑战,最高 $25,000 奖励 |
| 4/22 | ChatGPT for Clinicians 免费 | 面向美国执业医师免费开放 |
| 4/22 | Workspace agents in ChatGPT | Codex 驱动的云端工作流自动化 agent |
| 4/22 | OpenAI Privacy Filter | 开源 PII 检测与脱敏模型 |
| 4/21 | ChatGPT Images 2.0 | 新一代图像生成,改进文字渲染与多语言支持 |
| 4/21 | Scaling Codex to enterprises | Codex Labs 成立,WAU 达 400 万 |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 4/30 | CLI 0.128.0 | 持久化 /goal 工作流、app-server API、TUI 控制 |
| 4/24 | CLI 0.125.0 | Unix socket 传输、分页恢复/fork、sticky 环境 |
| 4/23 | GPT-5.5 & Codex 更新 | GPT-5.5 在 Codex 中可用 |
| 4/23 | CLI 0.124.0 | TUI 快速推理控制(Alt+,/.) |
| 4/23 | CLI 0.123.0 | 内置 Amazon Bedrock 模型提供者 |
Anthropic / Claude Code
| 日期 | 版本 | 要点 |
|---|---|---|
| 5/1 | v2.1.126 | /model 选择器支持网关 /v1/models 端点 |
| 4/29 | v2.1.123 | 修复 OAuth 401 重试循环 |
| 4/28 | v2.1.122 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量 |
| 4/28 | v2.1.121 | MCP server 配置新增 alwaysLoad 选项 |
| 4/23 | v2.1.119 | /config 设置持久化至 ~/.claude/settings.json |
Anthropic 研究(4/29):发布"introspection adapters"研究,使语言模型能自我报告训练中学到的行为(包括潜在的不对齐),可泛化至检测隐藏后门和安全防护移除。来源
DeepSeek
| 日期 | 标题 | 摘要 |
|---|---|---|
| 4/29 | V4-Pro 折扣延期 | 75% OFF 延至 5/31 UTC 15:59 |
| 4/25 | V4-Pro 促销 | Claude Code 设 deepseek-v4-pro[1m] 可解锁 1M 上下文 |
| 4/24 | DeepSeek-V4 发布 | V4-Pro / V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 三个月后停用 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 5/1 | Voice Cloning API | 2 分钟克隆自定义语音,80+ 预置语音,28 种语言 |
| 4/21 | SpaceX AI × Cursor | SpaceXAI 与 Cursor 合作,Colossus 超算 + Cursor 产品分发 |
| 日期 | 标题 | 摘要 |
|---|---|---|
| 4/28 | Google Translate 20 周年 | 新功能与使用技巧 |
| 4/27 | AI Agents Vibe Coding 课程 | Google × Kaggle 联合课程 |
| 4/22 | TPU v8 (8T & 8I) | 两款专用 TPU 面向 agentic 时代 |
| 4/23 | 奥地利首个数据中心 | Google 在阿尔卑斯山区投资建设数据中心 |
二、Benchmark 快照
LM Arena(Overall)— 2026-05-01
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.7 |
| 2 | claude-opus-4-6-thinking | 1502.0 |
| 3 | claude-opus-4-6 | 1497.1 |
| 4 | gemini-3.1-pro-preview | 1492.6 |
| 5 | claude-opus-4-7 | 1491.3 |
SWE-bench Verified(Top 10)— 快照截至 2026-02-17
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 |
| 5 | Atlassian Rovo Dev | 76.8 |
来源:live-swe-agent / Sonar / ByteDance TRAE
SWE-bench Pro Public(Top 5)— 2026-05-03
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
Terminal-Bench 2.0(Top 5)— 快照截至 2026-04-23
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
三、Benchmark 变化
SWE-bench Verified
| 模型 | 变化 | 旧排名 → 新排名 | 旧分 → 新分 |
|---|---|---|---|
| Warp | 排名+分数下降 | #11 → #36 | 75.6 → 71.0 |
| devlo | 排名+分数大幅下降 | #44 → #83/#94 | 70.2 → 58.2/54.2 |
| Nemotron-CORTEXA | 排名+分数下降 | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | 排名+分数上升 | #103 → #76 | 52.2 → 60.4 |
| EPAM AI/Run + GPT4o | 排名+分数下降 | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | 排名+分数下降 | #120 → #126 | 45.4 → 43.6 |
Terminal-Bench 2.0
| 模型 | 变化 | 旧排名 → 新排名 | 旧分 → 新分 |
|---|---|---|---|
| Warp / Multiple | 排名+分数下降 | #32 → #37/#54 | 61.2 → 59.1/50.1 |
LM Arena
本期无变动(快照为 2026-05-01 最新数据,Top 3 见上方快照表)。
数据截止:2026-05-03。所有信息均来自上述来源,未做额外编造。