AI 日报 2026-05-01 08:41
2026-05-01 08:41 CST
核心速览
1. 【OpenAI】发布 GPT-5.5,定位最强前沿模型 OpenAI 发布 GPT-5.5,定位为"最智能模型",在编码、研究、数据分析等复杂任务上更快更强。同步发布 System Card 和 Bio Bug Bounty(最高 $25,000 奖励),GPT-5.5 已集成至 Codex 平台。 原文链接
2. 【DeepSeek】发布 DeepSeek-V4,API 75 折促销 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 75 折优惠已延至 5 月 31 日,支持 Claude Code 1M 上下文。 原文链接
3. 【xAI/SpaceX】与 Cursor 深度合作,含 $600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的开发者分发能力和 xAI 百万 H100 等效 Colossus 超算。协议包含年内以 $600 亿收购 Cursor 的权利,或支付 $100 亿合作费用。 原文链接
4. 【OpenAI】GPT 模型、Codex 和 Managed Agents 登陆 AWS OpenAI 全线产品正式上线 AWS,企业可在 AWS 环境中直接使用 GPT 模型、Codex 和 Managed Agents 构建安全 AI 应用,大幅扩展企业分发渠道。 原文链接
5. 【Anthropic】提出"内省适配器",让模型自我报告异常行为 Anthropic Fellows 研究提出 Introspection Adapters,通过训练单一适配器让微调后的模型自我报告学到的行为,包括潜在的错位、后门和安全防护移除,泛化能力良好。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 (↑27) | 52.2 → 60.4 (+15.8%) | 显著提升,30B 参数量级表现亮眼 |
| devlo | 44 → 83/94 (↓39-50) | 70.2 → 54.2-58.2 (-17.1~22.8%) | 大幅下滑,可能为评测方法调整 |
| Nemotron-CORTEXA | 50 → 82 (↓32) | 68.2 → 58.2 (-14.7%) | NVIDIA 系模型排名显著下跌 |
| Warp | 11 → 36 (↓25) | 75.6 → 71.0 (-6.1%) | 从 Top 11 跌出 Top 30 |
Terminal-Bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| Warp / Multiple | 32 → 54 (↓22) | 61.2 → 50.1 (-18.1%) | 双榜同步下跌,Warp 整体表现承压 |
快速预览
- OpenAI 发布 GPT-5.5:4/23 发布,Codex 已集成,Terminal-Bench 2.0 登顶 82.0 分
- DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5/31;旧模型名 7/24 停用
- LM Arena 总榜:Claude Opus 4.7 Thinking 以 1502.93 分居首,前四均为 Anthropic 模型
- SWE-bench Verified 变动:Warp 从 #11 跌至 #36(75.6→71.0),devlo 从 #44 跌至 #83/#94
- xAI × Cursor:SpaceXAI 与 Cursor 深度合作,可选 $600 亿收购
一、新闻(按厂商 / 日期倒序)
OpenAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/30 | Advanced Account Security | 抗钓鱼登录、增强恢复、防账户接管 |
| 4/29 | Where the goblins came from | GPT-5 人格化怪癖的时间线、根因与修复 |
| 4/29 | Building compute infrastructure | Stargate 扩容,新增数据中心 |
| 4/29 | Cybersecurity in the Intelligence Age | 五步网络安全行动计划 |
| 4/28 | OpenAI on AWS | GPT 模型、Codex、Managed Agents 上线 AWS |
| 4/28 | Community Safety | ChatGPT 安全保障机制说明 |
| 4/27 | FedRAMP Moderate | ChatGPT Enterprise & API 获 FedRAMP Moderate 授权 |
| 4/27 | Microsoft 合作新阶段 | 修订协议,简化合作结构 |
| 4/27 | Symphony 开源编排规范 | 将 issue tracker 变为 always-on agent 系统 |
| 4/27 | Choco 案例 | 食品分销 AI Agent 实践 |
| 4/26 | Our Principles | Sam Altman 分享五项指导原则 |
| 4/23 | Introducing GPT-5.5 | 最新旗舰模型,编码/研究/数据分析全面升级 |
| 4/23 | GPT-5.5 System Card | 系统卡发布 |
| 4/23 | GPT-5.5 Bio Bug Bounty | 生物安全红队挑战,最高 $25K 奖励 |
| 4/23 | Codex 系列教程(6 篇) | What is Codex · Getting Started · Settings · Working with Codex · Plugins & Skills · Top 10 Uses · Automations |
| 4/22 | ChatGPT for Clinicians 免费 | 美国执业医师/药师免费使用 |
| 4/22 | Workspace Agents | Codex 驱动的 ChatGPT 工作区 Agent |
| 4/22 | WebSockets 加速 Agent 工作流 | Responses API 连接级缓存降低延迟 |
| 4/22 | OpenAI Privacy Filter | 开源 PII 检测与脱敏模型 |
| 4/21 | ChatGPT Images 2.0 | 新一代图像生成,改进文字渲染与多语言 |
| 4/21 | Codex 企业扩展 | Codex Labs 成立,WAU 达 400 万 |
| 4/20 | Hyatt 案例 | Hyatt 全球部署 ChatGPT Enterprise |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 4/30 | CLI 0.128.0 | 持久化 /goal 工作流、TUI 控制 |
| 4/24 | CLI 0.125.0 | Unix socket 传输、分页 resume/fork |
| 4/23 | GPT-5.5 & Codex 更新 | GPT-5.5 在 Codex 中可用 |
| 4/23 | CLI 0.124.0 | TUI 快速推理控制 |
| 4/23 | CLI 0.123.0 | 内置 Amazon Bedrock provider |
Anthropic(Claude Code)
| 日期 | 版本 | 要点 |
|---|---|---|
| 4/29 | v2.1.123 | 修复 OAuth 401 重试循环 |
| 4/28 | v2.1.122 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量 |
| 4/28 | v2.1.121 | MCP server 新增 alwaysLoad 选项 |
| 4/23 | v2.1.119 | /config 设置持久化至 ~/.claude/settings.json |
| 4/23 | v2.1.118 | 新增 vim visual mode (v/V) |
Anthropic Research
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/29 | Introspection Adapters | 训练模型自我报告训练中学到的行为(含潜在错位),可泛化检测隐藏后门与安全移除 |
DeepSeek
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/29 | V4-Pro 折扣延期 | 75% OFF 延至 5/31 UTC 15:59 |
| 4/25 | V4-Pro 促销 | Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文 |
| 4/24 | DeepSeek-V4 发布 | V4-Pro / V4-Flash 上线;旧名 deepseek-chat/deepseek-reasoner 7/24 停用 |
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/28 | Google Translate 20 周年 | 新功能与回顾 |
| 4/27 | AI Agents Vibe Coding 课程 | Google × Kaggle 联合课程 |
| 4/24 | Gemini 春季整理技巧 | 8 个 Gemini 使用技巧 |
| 4/23 | TPU 驱动 AI 工作负载 | TPU 技术介绍视频 |
| 4/23 | 奥地利首个数据中心 | Google 在阿尔卑斯山区投资数据中心 |
| 4/22 | TPU v8t & v8i | 第八代 TPU,面向 Agent 时代 |
| 4/21 | Ads Advisor 更新 | 3 项新功能 |
xAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 4/21 | xAI × Cursor 合作 | SpaceXAI 与 Cursor 深度合作,可选 $600 亿收购或 $100 亿合作费 |
| 4/18 | Grok STT API | 25 语言语音转文字 API 上线 |
二、Benchmark 快照与变化
SWE-bench Verified(Top 10)
| # | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
本期变化:
| 模型 | 变化 | 旧排名→新排名 | 旧分→新分 |
|---|---|---|---|
| Warp | 排名+分数↓ | #11 → #36 | 75.6 → 71.0 |
| devlo | 排名+分数↓ | #44 → #83/#94 | 70.2 → 58.2/54.2 |
| Nemotron-CORTEXA | 排名+分数↓ | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | 排名+分数↑ | #103 → #76 | 52.2 → 60.4 |
| EPAM AI/Run + GPT4o | 排名+分数↓ | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | 排名+分数↓ | #120 → #126 | 45.4 → 43.6 |
SWE-bench Pro Public(Top 10,快照 2026-05-01)
| # | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
来源:Scale Leaderboard。本期无额外变化记录。
Terminal-Bench 2.0(Top 10)
| # | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | Codex / GPT-5.5 | 82.0 | 2026-04-23 |
| 2 | ForgeCode / GPT-5.4 | 81.8 | 2026-03-12 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 | 2026-03-13 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 | 2026-03-12 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 | 2026-03-13 |
| 6 | ForgeCode / Gemini 3.1 Pro | 78.4 | 2026-03-02 |
| 7 | Droid / GPT-5.3-Codex | 77.3 | 2026-02-24 |
| 8 | Capy / Claude Opus 4.6 | 75.3 | 2026-03-12 |
| 9 | Simple Codex / GPT-5.3-Codex | 75.1 | 2026-02-06 |
| 10 | Terminus-KIRA / Gemini 3.1 Pro | 74.8 | 2026-02-23 |
本期变化:
| 模型 | 变化 | 旧排名→新排名 | 旧分→新分 |
|---|---|---|---|
| Warp / Multiple | 排名+分数↓ | #32 → #37/#54 | 61.2 → 59.1/50.1 |
LM Arena Overall(Top 10,快照 2026-04-29)
| # | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.93 |
| 2 | claude-opus-4-6-thinking | 1502.09 |
| 3 | claude-opus-4-6 | 1496.54 |
| 4 | claude-opus-4-7 | 1494.81 |
| 5 | gemini-3.1-pro-preview | 1492.99 |
| 6 | muse-spark | 1489.49 |
| 7 | gpt-5.5-high | 1487.97 |
| 8 | gemini-3-pro | 1485.78 |
| 9 | grok-4.20-beta1 | 1479.41 |
| 10 | gpt-5.4-high | 1477.79 |
来源:LM Arena。本期无额外变化记录。
三、采集状态
所有来源均采集成功,无失败记录。