AI 日报 2026-05-01 08:41

2026-05-01 08:41 CST

核心速览

1. 【OpenAI】发布 GPT-5.5,定位最强前沿模型 OpenAI 发布 GPT-5.5,定位为"最智能模型",在编码、研究、数据分析等复杂任务上更快更强。同步发布 System Card 和 Bio Bug Bounty(最高 $25,000 奖励),GPT-5.5 已集成至 Codex 平台。 原文链接

2. 【DeepSeek】发布 DeepSeek-V4,API 75 折促销 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 75 折优惠已延至 5 月 31 日,支持 Claude Code 1M 上下文。 原文链接

3. 【xAI/SpaceX】与 Cursor 深度合作,含 $600 亿收购权 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的开发者分发能力和 xAI 百万 H100 等效 Colossus 超算。协议包含年内以 $600 亿收购 Cursor 的权利,或支付 $100 亿合作费用。 原文链接

4. 【OpenAI】GPT 模型、Codex 和 Managed Agents 登陆 AWS OpenAI 全线产品正式上线 AWS,企业可在 AWS 环境中直接使用 GPT 模型、Codex 和 Managed Agents 构建安全 AI 应用,大幅扩展企业分发渠道。 原文链接

5. 【Anthropic】提出"内省适配器",让模型自我报告异常行为 Anthropic Fellows 研究提出 Introspection Adapters,通过训练单一适配器让微调后的模型自我报告学到的行为,包括潜在的错位、后门和安全防护移除,泛化能力良好。 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 (↑27) 52.2 → 60.4 (+15.8%) 显著提升,30B 参数量级表现亮眼
devlo 44 → 83/94 (↓39-50) 70.2 → 54.2-58.2 (-17.1~22.8%) 大幅下滑,可能为评测方法调整
Nemotron-CORTEXA 50 → 82 (↓32) 68.2 → 58.2 (-14.7%) NVIDIA 系模型排名显著下跌
Warp 11 → 36 (↓25) 75.6 → 71.0 (-6.1%) 从 Top 11 跌出 Top 30

Terminal-Bench 2.0

模型 排名变动 分数变动 说明
Warp / Multiple 32 → 54 (↓22) 61.2 → 50.1 (-18.1%) 双榜同步下跌,Warp 整体表现承压

快速预览

  • OpenAI 发布 GPT-5.5:4/23 发布,Codex 已集成,Terminal-Bench 2.0 登顶 82.0 分
  • DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5/31;旧模型名 7/24 停用
  • LM Arena 总榜:Claude Opus 4.7 Thinking 以 1502.93 分居首,前四均为 Anthropic 模型
  • SWE-bench Verified 变动:Warp 从 #11 跌至 #36(75.6→71.0),devlo 从 #44 跌至 #83/#94
  • xAI × Cursor:SpaceXAI 与 Cursor 深度合作,可选 $600 亿收购

一、新闻(按厂商 / 日期倒序)

OpenAI

日期 标题 要点
4/30 Advanced Account Security 抗钓鱼登录、增强恢复、防账户接管
4/29 Where the goblins came from GPT-5 人格化怪癖的时间线、根因与修复
4/29 Building compute infrastructure Stargate 扩容,新增数据中心
4/29 Cybersecurity in the Intelligence Age 五步网络安全行动计划
4/28 OpenAI on AWS GPT 模型、Codex、Managed Agents 上线 AWS
4/28 Community Safety ChatGPT 安全保障机制说明
4/27 FedRAMP Moderate ChatGPT Enterprise & API 获 FedRAMP Moderate 授权
4/27 Microsoft 合作新阶段 修订协议,简化合作结构
4/27 Symphony 开源编排规范 将 issue tracker 变为 always-on agent 系统
4/27 Choco 案例 食品分销 AI Agent 实践
4/26 Our Principles Sam Altman 分享五项指导原则
4/23 Introducing GPT-5.5 最新旗舰模型,编码/研究/数据分析全面升级
4/23 GPT-5.5 System Card 系统卡发布
4/23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,最高 $25K 奖励
4/23 Codex 系列教程(6 篇) What is Codex · Getting Started · Settings · Working with Codex · Plugins & Skills · Top 10 Uses · Automations
4/22 ChatGPT for Clinicians 免费 美国执业医师/药师免费使用
4/22 Workspace Agents Codex 驱动的 ChatGPT 工作区 Agent
4/22 WebSockets 加速 Agent 工作流 Responses API 连接级缓存降低延迟
4/22 OpenAI Privacy Filter 开源 PII 检测与脱敏模型
4/21 ChatGPT Images 2.0 新一代图像生成,改进文字渲染与多语言
4/21 Codex 企业扩展 Codex Labs 成立,WAU 达 400 万
4/20 Hyatt 案例 Hyatt 全球部署 ChatGPT Enterprise

OpenAI Codex Changelog

日期 版本 要点
4/30 CLI 0.128.0 持久化 /goal 工作流、TUI 控制
4/24 CLI 0.125.0 Unix socket 传输、分页 resume/fork
4/23 GPT-5.5 & Codex 更新 GPT-5.5 在 Codex 中可用
4/23 CLI 0.124.0 TUI 快速推理控制
4/23 CLI 0.123.0 内置 Amazon Bedrock provider

Anthropic(Claude Code)

日期 版本 要点
4/29 v2.1.123 修复 OAuth 401 重试循环
4/28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量
4/28 v2.1.121 MCP server 新增 alwaysLoad 选项
4/23 v2.1.119 /config 设置持久化至 ~/.claude/settings.json
4/23 v2.1.118 新增 vim visual mode (v/V)

Anthropic Research

日期 标题 要点
4/29 Introspection Adapters 训练模型自我报告训练中学到的行为(含潜在错位),可泛化检测隐藏后门与安全移除

DeepSeek

日期 标题 要点
4/29 V4-Pro 折扣延期 75% OFF 延至 5/31 UTC 15:59
4/25 V4-Pro 促销 Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文
4/24 DeepSeek-V4 发布 V4-Pro / V4-Flash 上线;旧名 deepseek-chat/deepseek-reasoner 7/24 停用

Google

日期 标题 要点
4/28 Google Translate 20 周年 新功能与回顾
4/27 AI Agents Vibe Coding 课程 Google × Kaggle 联合课程
4/24 Gemini 春季整理技巧 8 个 Gemini 使用技巧
4/23 TPU 驱动 AI 工作负载 TPU 技术介绍视频
4/23 奥地利首个数据中心 Google 在阿尔卑斯山区投资数据中心
4/22 TPU v8t & v8i 第八代 TPU,面向 Agent 时代
4/21 Ads Advisor 更新 3 项新功能

xAI

日期 标题 要点
4/21 xAI × Cursor 合作 SpaceXAI 与 Cursor 深度合作,可选 $600 亿收购或 $100 亿合作费
4/18 Grok STT API 25 语言语音转文字 API 上线

二、Benchmark 快照与变化

SWE-bench Verified(Top 10)

# 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

本期变化:

模型 变化 旧排名→新排名 旧分→新分
Warp 排名+分数↓ #11 → #36 75.6 → 71.0
devlo 排名+分数↓ #44 → #83/#94 70.2 → 58.2/54.2
Nemotron-CORTEXA 排名+分数↓ #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B 排名+分数↑ #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o 排名+分数↓ #156 → #162 27.0 → 24.0
Solver (2024-09-12) 排名+分数↓ #120 → #126 45.4 → 43.6

SWE-bench Pro Public(Top 10,快照 2026-05-01)

# 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

来源:Scale Leaderboard。本期无额外变化记录。

Terminal-Bench 2.0(Top 10)

# 模型 分数 采集日期
1 Codex / GPT-5.5 82.0 2026-04-23
2 ForgeCode / GPT-5.4 81.8 2026-03-12
3 TongAgents / Gemini 3.1 Pro 80.2 2026-03-13
4 ForgeCode / Claude Opus 4.6 79.8 2026-03-12
5 SageAgent / GPT-5.3-Codex 78.4 2026-03-13
6 ForgeCode / Gemini 3.1 Pro 78.4 2026-03-02
7 Droid / GPT-5.3-Codex 77.3 2026-02-24
8 Capy / Claude Opus 4.6 75.3 2026-03-12
9 Simple Codex / GPT-5.3-Codex 75.1 2026-02-06
10 Terminus-KIRA / Gemini 3.1 Pro 74.8 2026-02-23

本期变化:

模型 变化 旧排名→新排名 旧分→新分
Warp / Multiple 排名+分数↓ #32 → #37/#54 61.2 → 59.1/50.1

LM Arena Overall(Top 10,快照 2026-04-29)

# 模型 ELO 分数
1 claude-opus-4-7-thinking 1502.93
2 claude-opus-4-6-thinking 1502.09
3 claude-opus-4-6 1496.54
4 claude-opus-4-7 1494.81
5 gemini-3.1-pro-preview 1492.99
6 muse-spark 1489.49
7 gpt-5.5-high 1487.97
8 gemini-3-pro 1485.78
9 grok-4.20-beta1 1479.41
10 gpt-5.4-high 1477.79

来源:LM Arena。本期无额外变化记录。


三、采集状态

所有来源均采集成功,无失败记录。

Sources