AI 日报 2026-04-30 11:28

2026-04-30 11:28 CST

快速预览

  • OpenAI 同日连发三文:GPT-5 "goblin" 行为溯源、智能时代网络安全五步计划、Stargate 算力基建扩容
  • GPT-5.5 上线 Codex,Codex CLI 迭代至 0.125.0,新增 Bedrock provider 与推理快捷控制
  • SWE-bench Pro Public Top 3:gpt-5.4 (xHigh) 59.1 > Muse Spark 55.0 > claude-opus-4-6 (thinking) 51.9
  • SWE-bench Verified 大量新模型入场:mini-SWE-agent 系列批量上榜,Gemini 3 Flash / MiniMax M2.5 并列 75.8 分进入 Top 10
  • Warp 在两个 benchmark 均出现分数下滑,Terminal-bench 2.0 从 61.2 降至 50.1,SWE-bench Verified 从 75.6 降至 71.0

一、行业新闻

OpenAI(2026-04-29 三篇)

标题 要点 来源
Where the goblins came from GPT-5 出现人格化 "goblin" 输出的根因分析、时间线与修复方案 openai.com
Cybersecurity in the Intelligence Age 提出五步行动计划,推动 AI 驱动的网络安全民主化,保护关键基础设施 openai.com
Building the compute infrastructure for the Intelligence Age Stargate 项目扩容,新增数据中心算力以支撑 AGI 需求增长 openai.com

OpenAI Codex 更新

版本 日期 要点
Codex CLI 0.122.0 04-20 独立安装更自包含;Windows / Intel Mac 上 codex app 正确打开或安装 Desktop
Codex CLI 0.123.0 04-23 内置 Amazon Bedrock 模型 provider,支持可配置 AWS profile
Codex CLI 0.124.0 04-23 TUI 新增推理强度快捷键(Alt+, / Alt+.),模型升级时自动重置推理设置
GPT-5.5 上线 Codex 04-23 GPT-5.5 作为最新前沿模型可用,覆盖复杂编码、计算机使用、知识工作与研究场景
Codex CLI 0.125.0 04-24 App-server 集成支持 Unix socket、分页恢复/分叉、sticky 环境与远程线程配置

来源:Codex Changelog

Anthropic

标题 日期 要点
Introducing Claude Opus 4.7 04-16 Claude Opus 4.7 正式发布,在高级软件工程任务上较 Opus 4.6 有显著提升,最难任务增益尤为明显

来源:anthropic.com

Claude Code 更新

版本 日期 要点
v2.1.118 04-23 新增 vim visual mode (v) 与 visual-line mode (V),支持选区、操作符与视觉反馈
v2.1.119 04-23 /config 设置(主题、编辑器模式等)持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级
v2.1.121 04-28 MCP server 配置新增 alwaysLoad 选项,设为 true 时跳过 tool-search 延迟加载
v2.1.122 04-28 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,可选 default/flex/priority 服务层级
v2.1.123 04-29 修复设置 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 认证 401 重试循环

来源:GitHub Releases / CHANGELOG.md


二、Benchmark 快照

SWE-bench Pro Public(2026-04-30 抓取)

本期无变动(与上一快照相比无变化)。当前 Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

* 标记表示使用 thinking / 高推理模式

来源:Scale Leaderboard


三、Benchmark 变化

SWE-bench Verified

分数/排名下降:

模型 原分数 → 新分数 原排名 → 新排名
devlo 70.2 → 54.2 #44 → #94
Warp 75.6 → 71.0 #11 → #36
Nemotron-CORTEXA 68.2 → 58.2 #50 → #82
Solver (2024-09-12) 45.4 → 43.6 #120 → #126
EPAM AI/Run + GPT4o 27.0 → 24.0 #156 → #162

分数/排名上升:

模型 原分数 → 新分数 原排名 → 新排名
EntroPO + R2E + Qwen3-Coder-30B 52.2 → 60.4 #103 → #76

新入场模型(mini-SWE-agent 系列批量上榜,选取排名靠前者):

模型 排名 分数
mini-SWE-agent + Gemini 3 Flash (high reasoning) #9 75.8
mini-SWE-agent + MiniMax M2.5 (high reasoning) #10 75.8
mini-SWE-agent + Gemini 3 Pro Preview #21 74.2
mini-SWE-agent + GPT-5-2 Codex #25 72.8
mini-SWE-agent + GPT-5.2 (high reasoning) #30 71.8
mini-SWE-agent + Kimi K2.5 (high reasoning) #38 70.8
mini-SWE-agent + Gemini 3 Pro #48 69.6
mini-SWE-agent + GPT-5.2 #49 69.0
mini-SWE-agent + GPT-5.1-codex (medium) #56 66.0
mini-SWE-agent + Minimax M2 #74 61.0
mini-SWE-agent + Kimi K2 Thinking #68 63.4
mini-SWE-agent + o3 #81 58.4
mini-SWE-agent + Qwen3-Coder 480B #91 55.4

另有 nFactorial、ugaiforge 等多个模型新入场,排名在 #111–#174 区间。

Terminal-bench 2.0

模型 原分数 → 新分数 原排名 → 新排名
Warp / Multiple 61.2 → 50.1 #32 → #54
Warp / Multiple 61.2 → 59.1 #32 → #37

注:数据中存在两条 Warp / Multiple 变化记录,可能对应不同子配置或数据修正。


四、来源状态

来源 状态
OpenAI News 正常,3 篇新文章
OpenAI Codex Changelog 正常,5 条更新
Anthropic News 正常,1 篇新文章
Claude Code Releases 正常,5 个版本
Claude Code Changelog 正常,3 条记录
SWE-bench Pro Public 正常,无变动
SWE-bench Verified 正常,大量新模型入场 + 多项分数变化
Terminal-bench 2.0 正常,Warp 分数下滑
采集失败来源

Sources