AI 日报 2026-05-02 15:58

2026-05-02 15:58 CST

核心速览

1. 【OpenAI】发布 GPT-5.5,号称"最智能模型" OpenAI 发布 GPT-5.5,定位为迄今最强模型,在编码、研究和数据分析等复杂任务上更快、更强。同步推出 System Card、Bio Bug Bounty(最高 $25,000 奖励),并已在 Codex 中上线。 原文链接

2. 【DeepSeek】发布 DeepSeek-V4 系列,API 75% 折扣 DeepSeek 推出 V4-Pro 和 V4-Flash 两个新模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat/deepseek-reasoner 将于 3 个月后停用。V4-Pro API 限时 75% 折扣,已延长至 5 月 31 日。 原文链接

3. 【OpenAI × Microsoft】宣布合作协议新阶段 OpenAI 与微软宣布修订合作协议,简化合作关系、增加长期确定性,支持双方在大规模 AI 创新上的持续推进。这是两家公司伙伴关系的重要里程碑。 原文链接

4. 【xAI × SpaceX × Cursor】三方深度合作 SpaceXAI 与 Cursor 宣布深度合作,结合 Cursor 的产品分发能力和 SpaceX 百万 H100 等效 Colossus 超算,打造最强编码与知识工作 AI。Cursor 同时授予 SpaceX 今年以 600 亿美元收购的选择权。 原文链接

5. 【Anthropic】提出"内省适配器"研究,让模型自报告不良行为 Anthropic Fellows 研究提出 Introspection Adapter,可让微调后的语言模型自我报告训练中学到的行为——包括潜在的错位、后门和安全防护移除,为 AI 对齐研究提供新工具。 原文链接


重大 Benchmark 变化

SWE-bench Verified:

模型 排名变动 分数变动 说明
devlo #44 → #83~#94 70.2 → 54.2~58.2 排名暴跌 39-50 位,分数下降 17%-23%,疑为评测方法变更或回退
Warp #11 → #36 75.6 → 71.0 排名下降 25 位,跌出 Top 10
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 排名下降 32 位,分数下降 14.7%
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 排名上升 27 位,分数提升 15.7%,表现亮眼

Terminal-bench 2.0:

模型 排名变动 分数变动 说明
Warp / Multiple #32 → #37~#54 61.2 → 50.1~59.1 排名下降 5-22 位,分数下降 3.4%-18.1%

快速预览

  • OpenAI 发布 GPT-5.5:4/23 发布,Codex CLI 同步集成,Terminal-Bench 2.0 登顶 82.0 分
  • DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5/31
  • xAI 上线 Voice Cloning API:80+ 语音、28 种语言,2 分钟内克隆自定义语音
  • LMArena 榜首:Claude Opus 4.7 Thinking 以 1502.65 分登顶,Anthropic 包揽前三
  • SWE-bench Verified 有变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94

一、新闻

OpenAI(按日期倒序)

日期 标题 摘要
4/30 Advanced Account Security 推出防钓鱼登录、增强恢复与账户保护
4/29 Where the goblins came from GPT-5 行为"小毛病"的时间线、根因与修复
4/29 Building compute infrastructure Stargate 扩容,新增数据中心以满足 AI 算力需求
4/29 Cybersecurity in the Intelligence Age 五步网络安全行动计划,推动 AI 驱动的网络防御民主化
4/28 Community Safety ChatGPT 模型安全、滥用检测与政策执行
4/28 OpenAI on AWS GPT 模型、Codex、Managed Agents 登陆 AWS
4/27 FedRAMP Moderate ChatGPT Enterprise 与 API 获 FedRAMP Moderate 授权
4/27 Microsoft 合作新阶段 修订协议,简化合作结构,增加长期确定性
4/27 Symphony 开源编排规范 将 issue tracker 变为 always-on agent 系统
4/27 Choco 客户案例 Choco 用 OpenAI API 自动化食品分销
4/26 Our Principles Sam Altman 分享五项指导原则
4/23 GPT-5.5 发布 最新旗舰模型,更快更强,面向编码/研究/数据分析
4/23 GPT-5.5 System Card GPT-5.5 系统安全卡
4/23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,最高 $25,000 奖励
4/23 Codex 系列教程(6 篇) What is Codex · Getting Started · Settings · Working with Codex · Plugins & Skills · Top 10 Uses · Automations
4/22 ChatGPT for Clinicians 免费 面向美国执业医师、NP、药剂师免费开放
4/22 Workspace Agents Codex 驱动的 ChatGPT 工作区代理,自动化复杂工作流
4/22 WebSockets 加速 Agentic 工作流 Responses API 通过 WebSocket 降低延迟
4/22 OpenAI Privacy Filter 开源 PII 检测与脱敏模型
4/21 ChatGPT Images 2.0 新一代图像生成,改进文字渲染与多语言支持
4/21 Codex 企业扩展 Codex Labs 成立,与 Accenture/PwC/Infosys 合作,Codex WAU 达 400 万
4/20 Hyatt 案例 Hyatt 全球部署 ChatGPT Enterprise

OpenAI Codex Changelog

日期 版本 要点
4/30 CLI 0.128.0 持久化 /goal 工作流、app-server API、TUI 控制
4/24 CLI 0.125.0 Unix socket 传输、分页 resume/fork、sticky 环境
4/23 GPT-5.5 & Codex 更新 GPT-5.5 在 Codex 中可用
4/23 CLI 0.124.0 TUI 快速推理控制(Alt+,/Alt+.)
4/23 CLI 0.123.0 内置 Amazon Bedrock 模型提供者

Anthropic / Claude Code

日期 版本 要点
5/1 v2.1.126 /model 选择器支持网关 /v1/models 端点
4/29 v2.1.123 修复 OAuth 401 重试循环
4/28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量
4/28 v2.1.121 MCP server 配置新增 alwaysLoad 选项
4/23 v2.1.119 /config 设置持久化至 ~/.claude/settings.json

Anthropic 研究(4/29):发布"Introspection Adapters"研究——让模型自我报告训练中学到的行为(包括潜在的不对齐),可泛化检测隐藏后门与安全护栏移除。来源

Google

日期 标题 摘要
4/28 Google Translate 20 周年 新功能与使用技巧
4/27 AI Agents Vibe Coding 课程 Google × Kaggle 联合课程
4/24 Gemini 春季整理技巧 8 个 Gemini 使用技巧
4/23 TPU 驱动 AI 工作负载 TPU 技术视频
4/23 奥地利首个数据中心 Google 在阿尔卑斯山区投资首个数据中心
4/22 TPU v8t & v8i 发布 第八代 TPU,两款专用芯片面向 agentic 时代
4/21 Ads Advisor 3 项更新 Google Ads 更安全、更快

xAI

日期 标题 摘要
5/1 Voice Cloning API 上线 80+ 语音、28 种语言,2 分钟克隆自定义语音
4/21 SpaceXAI × Cursor 合作 SpaceX 百万 H100 Colossus 超算 + Cursor 产品分发,$600 亿收购权

DeepSeek

日期 标题 摘要
4/29 V4-Pro 折扣延至 5/31 75% OFF 延期;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文
4/25 V4-Pro 75% OFF 截止 5/5,集成 Claude Code / OpenCode / OpenClaw
4/24 DeepSeek-V4 发布 V4-Pro 与 V4-Flash 上线,支持 OpenAI 与 Anthropic 接口;旧名称 3 个月后停用

二、Benchmark 快照

SWE-bench Verified(Top 10)

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

来源:live-swe-agent

SWE-bench Pro Public(Top 10)

排名 模型 分数 采集日期
1 gpt-5.4 (xHigh)* 59.1 2026-05-02
2 Muse Spark* 55.0 2026-05-02
3 claude-opus-4-6 (thinking)* 51.9 2026-05-02
4 gemini-3.1-pro (thinking)* 46.1 2026-05-02
5 claude-opus-4-5-20251101 45.89 2026-05-02
6 claude-4-5-Sonnet 43.6 2026-05-02
7 gemini-3-pro-preview 43.3 2026-05-02
8 claude-4-Sonnet 42.7 2026-05-02
9 gpt-5-2025-08-07 (High) 41.78 2026-05-02
10 gpt-5.2-codex 41.04 2026-05-02

来源:Scale Leaderboard;* 标记为近期提交

Terminal-Bench 2.0(Top 10)

排名 模型 分数 采集日期
1 Codex CLI / GPT-5.5 82.0 2026-04-23
2 ForgeCode / GPT-5.4 81.8 2026-03-12
3 TongAgents / Gemini 3.1 Pro 80.2 2026-03-13
4 ForgeCode / Claude Opus 4.6 79.8 2026-03-12
5 SageAgent / GPT-5.3-Codex 78.4 2026-03-13
6 ForgeCode / Gemini 3.1 Pro 78.4 2026-03-02
7 Droid / GPT-5.3-Codex 77.3 2026-02-24
8 Capy / Claude Opus 4.6 75.3 2026-03-12
9 Simple Codex / GPT-5.3-Codex 75.1 2026-02-06
10 Terminus-KIRA / Gemini 3.1 Pro 74.8 2026-02-23

来源:tbench.ai;GPT-5.5 于 4/23 登顶

LMArena Overall(Top 10)

排名 模型 ELO 分数 采集日期
1 claude-opus-4-7-thinking 1502.65 2026-05-01
2 claude-opus-4-6-thinking 1502.04 2026-05-01
3 claude-opus-4-6 1497.10 2026-05-01
4 gemini-3.1-pro-preview 1492.56 2026-05-01
5 claude-opus-4-7 1491.27 2026-05-01
6 muse-spark 1491.21 2026-05-01
7 gpt-5.5-high 1487.59 2026-05-01
8 gemini-3-pro 1485.68 2026-05-01
9 grok-4.20-beta1 1479.62 2026-05-01
10 grok-4.20-beta-0309-reasoning 1477.23 2026-05-01

来源:LMArena / HuggingFace


三、榜单变化

SWE-bench Verified 变动

模型 变化 排名 分数
Warp 大幅下滑 #11 → #36 75.6 → 71.0
devlo 大幅下滑 #44 → #83 / #94 70.2 → 58.2 / 54.2
Nemotron-CORTEXA 下滑 #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B 上升 #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o 小幅下滑 #156 → #162 27.0 → 24.0
Solver (2024-09-12) 小幅下滑 #120 → #126 45.4 → 43.6

Terminal-Bench 2.0 变动

模型 变化 排名 分数
Warp / Multiple 下滑 #32 → #37 / #54 61.2 → 59.1 / 50.1

LMArena / SWE-bench Pro Public

本期无变动。

Sources