快速预览
- OpenAI 同日连发三文:GPT-5 "goblin" 行为溯源、智能时代网络安全五步计划、Stargate 算力基建扩容
- GPT-5.5 上线 Codex,Codex CLI 迭代至 0.125.0,新增 Bedrock provider 与推理快捷控制
- SWE-bench Pro Public Top 3:gpt-5.4 (xHigh) 59.1 > Muse Spark 55.0 > claude-opus-4-6 (thinking) 51.9
- SWE-bench Verified 大量新模型入场:mini-SWE-agent 系列批量上榜,Gemini 3 Flash / MiniMax M2.5 并列 75.8 分进入 Top 10
- Warp 在两个 benchmark 均出现分数下滑,Terminal-bench 2.0 从 61.2 降至 50.1,SWE-bench Verified 从 75.6 降至 71.0
一、行业新闻
OpenAI(2026-04-29 三篇)
| 标题 |
要点 |
来源 |
| Where the goblins came from |
GPT-5 出现人格化 "goblin" 输出的根因分析、时间线与修复方案 |
openai.com |
| Cybersecurity in the Intelligence Age |
提出五步行动计划,推动 AI 驱动的网络安全民主化,保护关键基础设施 |
openai.com |
| Building the compute infrastructure for the Intelligence Age |
Stargate 项目扩容,新增数据中心算力以支撑 AGI 需求增长 |
openai.com |
OpenAI Codex 更新
| 版本 |
日期 |
要点 |
| Codex CLI 0.122.0 |
04-20 |
独立安装更自包含;Windows / Intel Mac 上 codex app 正确打开或安装 Desktop |
| Codex CLI 0.123.0 |
04-23 |
内置 Amazon Bedrock 模型 provider,支持可配置 AWS profile |
| Codex CLI 0.124.0 |
04-23 |
TUI 新增推理强度快捷键(Alt+, / Alt+.),模型升级时自动重置推理设置 |
| GPT-5.5 上线 Codex |
04-23 |
GPT-5.5 作为最新前沿模型可用,覆盖复杂编码、计算机使用、知识工作与研究场景 |
| Codex CLI 0.125.0 |
04-24 |
App-server 集成支持 Unix socket、分页恢复/分叉、sticky 环境与远程线程配置 |
来源:Codex Changelog
Anthropic
| 标题 |
日期 |
要点 |
| Introducing Claude Opus 4.7 |
04-16 |
Claude Opus 4.7 正式发布,在高级软件工程任务上较 Opus 4.6 有显著提升,最难任务增益尤为明显 |
来源:anthropic.com
Claude Code 更新
| 版本 |
日期 |
要点 |
| v2.1.118 |
04-23 |
新增 vim visual mode (v) 与 visual-line mode (V),支持选区、操作符与视觉反馈 |
| v2.1.119 |
04-23 |
/config 设置(主题、编辑器模式等)持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级 |
| v2.1.121 |
04-28 |
MCP server 配置新增 alwaysLoad 选项,设为 true 时跳过 tool-search 延迟加载 |
| v2.1.122 |
04-28 |
新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,可选 default/flex/priority 服务层级 |
| v2.1.123 |
04-29 |
修复设置 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 认证 401 重试循环 |
来源:GitHub Releases / CHANGELOG.md
二、Benchmark 快照
SWE-bench Pro Public(2026-04-30 抓取)
本期无变动(与上一快照相比无变化)。当前 Top 3:
| 排名 |
模型 |
分数 |
| 1 |
gpt-5.4 (xHigh)* |
59.1 |
| 2 |
Muse Spark* |
55.0 |
| 3 |
claude-opus-4-6 (thinking)* |
51.9 |
* 标记表示使用 thinking / 高推理模式
来源:Scale Leaderboard
三、Benchmark 变化
SWE-bench Verified
分数/排名下降:
| 模型 |
原分数 → 新分数 |
原排名 → 新排名 |
| devlo |
70.2 → 54.2 |
#44 → #94 |
| Warp |
75.6 → 71.0 |
#11 → #36 |
| Nemotron-CORTEXA |
68.2 → 58.2 |
#50 → #82 |
| Solver (2024-09-12) |
45.4 → 43.6 |
#120 → #126 |
| EPAM AI/Run + GPT4o |
27.0 → 24.0 |
#156 → #162 |
分数/排名上升:
| 模型 |
原分数 → 新分数 |
原排名 → 新排名 |
| EntroPO + R2E + Qwen3-Coder-30B |
52.2 → 60.4 |
#103 → #76 |
新入场模型(mini-SWE-agent 系列批量上榜,选取排名靠前者):
| 模型 |
排名 |
分数 |
| mini-SWE-agent + Gemini 3 Flash (high reasoning) |
#9 |
75.8 |
| mini-SWE-agent + MiniMax M2.5 (high reasoning) |
#10 |
75.8 |
| mini-SWE-agent + Gemini 3 Pro Preview |
#21 |
74.2 |
| mini-SWE-agent + GPT-5-2 Codex |
#25 |
72.8 |
| mini-SWE-agent + GPT-5.2 (high reasoning) |
#30 |
71.8 |
| mini-SWE-agent + Kimi K2.5 (high reasoning) |
#38 |
70.8 |
| mini-SWE-agent + Gemini 3 Pro |
#48 |
69.6 |
| mini-SWE-agent + GPT-5.2 |
#49 |
69.0 |
| mini-SWE-agent + GPT-5.1-codex (medium) |
#56 |
66.0 |
| mini-SWE-agent + Minimax M2 |
#74 |
61.0 |
| mini-SWE-agent + Kimi K2 Thinking |
#68 |
63.4 |
| mini-SWE-agent + o3 |
#81 |
58.4 |
| mini-SWE-agent + Qwen3-Coder 480B |
#91 |
55.4 |
另有 nFactorial、ugaiforge 等多个模型新入场,排名在 #111–#174 区间。
Terminal-bench 2.0
| 模型 |
原分数 → 新分数 |
原排名 → 新排名 |
| Warp / Multiple |
61.2 → 50.1 |
#32 → #54 |
| Warp / Multiple |
61.2 → 59.1 |
#32 → #37 |
注:数据中存在两条 Warp / Multiple 变化记录,可能对应不同子配置或数据修正。
四、来源状态
| 来源 |
状态 |
| OpenAI News |
正常,3 篇新文章 |
| OpenAI Codex Changelog |
正常,5 条更新 |
| Anthropic News |
正常,1 篇新文章 |
| Claude Code Releases |
正常,5 个版本 |
| Claude Code Changelog |
正常,3 条记录 |
| SWE-bench Pro Public |
正常,无变动 |
| SWE-bench Verified |
正常,大量新模型入场 + 多项分数变化 |
| Terminal-bench 2.0 |
正常,Warp 分数下滑 |
| 采集失败来源 |
无 |