AI 日报 2026-04-30 11:28

← 返回列表

快速预览

OpenAI 同日连发三文：GPT-5 "goblin" 行为溯源、智能时代网络安全五步计划、Stargate 算力基建扩容
GPT-5.5 上线 Codex，Codex CLI 迭代至 0.125.0，新增 Bedrock provider 与推理快捷控制
SWE-bench Pro Public Top 3：gpt-5.4 (xHigh) 59.1 > Muse Spark 55.0 > claude-opus-4-6 (thinking) 51.9
SWE-bench Verified 大量新模型入场：mini-SWE-agent 系列批量上榜，Gemini 3 Flash / MiniMax M2.5 并列 75.8 分进入 Top 10
Warp 在两个 benchmark 均出现分数下滑，Terminal-bench 2.0 从 61.2 降至 50.1，SWE-bench Verified 从 75.6 降至 71.0

一、行业新闻

OpenAI（2026-04-29 三篇）

标题	要点	来源
Where the goblins came from	GPT-5 出现人格化 "goblin" 输出的根因分析、时间线与修复方案	openai.com
Cybersecurity in the Intelligence Age	提出五步行动计划，推动 AI 驱动的网络安全民主化，保护关键基础设施	openai.com
Building the compute infrastructure for the Intelligence Age	Stargate 项目扩容，新增数据中心算力以支撑 AGI 需求增长	openai.com

OpenAI Codex 更新

版本	日期	要点
Codex CLI 0.122.0	04-20	独立安装更自包含；Windows / Intel Mac 上 `codex app` 正确打开或安装 Desktop
Codex CLI 0.123.0	04-23	内置 Amazon Bedrock 模型 provider，支持可配置 AWS profile
Codex CLI 0.124.0	04-23	TUI 新增推理强度快捷键（Alt+, / Alt+.），模型升级时自动重置推理设置
GPT-5.5 上线 Codex	04-23	GPT-5.5 作为最新前沿模型可用，覆盖复杂编码、计算机使用、知识工作与研究场景
Codex CLI 0.125.0	04-24	App-server 集成支持 Unix socket、分页恢复/分叉、sticky 环境与远程线程配置

来源：Codex Changelog

Anthropic

标题	日期	要点
Introducing Claude Opus 4.7	04-16	Claude Opus 4.7 正式发布，在高级软件工程任务上较 Opus 4.6 有显著提升，最难任务增益尤为明显

来源：anthropic.com

Claude Code 更新

版本	日期	要点
v2.1.118	04-23	新增 vim visual mode (`v`) 与 visual-line mode (`V`)，支持选区、操作符与视觉反馈
v2.1.119	04-23	`/config` 设置（主题、编辑器模式等）持久化至 `~/.claude/settings.json`，参与项目/本地/策略覆盖优先级
v2.1.121	04-28	MCP server 配置新增 `alwaysLoad` 选项，设为 `true` 时跳过 tool-search 延迟加载
v2.1.122	04-28	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量，可选 `default`/`flex`/`priority` 服务层级
v2.1.123	04-29	修复设置 `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1` 时 OAuth 认证 401 重试循环

来源：GitHub Releases / CHANGELOG.md

二、Benchmark 快照

SWE-bench Pro Public（2026-04-30 抓取）

本期无变动（与上一快照相比无变化）。当前 Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

* 标记表示使用 thinking / 高推理模式

来源：Scale Leaderboard

三、Benchmark 变化

SWE-bench Verified

分数/排名下降：

模型	原分数 → 新分数	原排名 → 新排名
devlo	70.2 → 54.2	#44 → #94
Warp	75.6 → 71.0	#11 → #36
Nemotron-CORTEXA	68.2 → 58.2	#50 → #82
Solver (2024-09-12)	45.4 → 43.6	#120 → #126
EPAM AI/Run + GPT4o	27.0 → 24.0	#156 → #162

分数/排名上升：

模型	原分数 → 新分数	原排名 → 新排名
EntroPO + R2E + Qwen3-Coder-30B	52.2 → 60.4	#103 → #76

新入场模型（mini-SWE-agent 系列批量上榜，选取排名靠前者）：

模型	排名	分数
mini-SWE-agent + Gemini 3 Flash (high reasoning)	#9	75.8
mini-SWE-agent + MiniMax M2.5 (high reasoning)	#10	75.8
mini-SWE-agent + Gemini 3 Pro Preview	#21	74.2
mini-SWE-agent + GPT-5-2 Codex	#25	72.8
mini-SWE-agent + GPT-5.2 (high reasoning)	#30	71.8
mini-SWE-agent + Kimi K2.5 (high reasoning)	#38	70.8
mini-SWE-agent + Gemini 3 Pro	#48	69.6
mini-SWE-agent + GPT-5.2	#49	69.0
mini-SWE-agent + GPT-5.1-codex (medium)	#56	66.0
mini-SWE-agent + Minimax M2	#74	61.0
mini-SWE-agent + Kimi K2 Thinking	#68	63.4
mini-SWE-agent + o3	#81	58.4
mini-SWE-agent + Qwen3-Coder 480B	#91	55.4

另有 nFactorial、ugaiforge 等多个模型新入场，排名在 #111–#174 区间。

Terminal-bench 2.0

模型	原分数 → 新分数	原排名 → 新排名
Warp / Multiple	61.2 → 50.1	#32 → #54
Warp / Multiple	61.2 → 59.1	#32 → #37

注：数据中存在两条 Warp / Multiple 变化记录，可能对应不同子配置或数据修正。

四、来源状态

来源	状态
OpenAI News	正常，3 篇新文章
OpenAI Codex Changelog	正常，5 条更新
Anthropic News	正常，1 篇新文章
Claude Code Releases	正常，5 个版本
Claude Code Changelog	正常，3 条记录
SWE-bench Pro Public	正常，无变动
SWE-bench Verified	正常，大量新模型入场 + 多项分数变化
Terminal-bench 2.0	正常，Warp 分数下滑
采集失败来源	无

来源 · 50 条

openai.com ×36 developers.openai.com ×5 raw.githubusercontent.com ×3 github.com ×5 anthropic.com