快速预览
- OpenAI 全面上 AWS:GPT 模型、Codex 及 Managed Agents 已登陆 AWS,企业可在自有 AWS 环境中构建安全 AI 应用
- GPT-5.5 发布:OpenAI 最新旗舰模型,主打编码、研究与数据分析,同步上线 Codex 并开放 Bio Bug Bounty(最高 $25,000)
- SWE-bench Pro Public 榜首:gpt-5.4 (xHigh) 以 59.1 分领跑,Muse Spark 55.0 分紧随,claude-opus-4-6 (thinking) 51.9 分位列第三
- Terminal-bench 2.0 大规模上新:124 个新条目涌入,Codex / GPT-5.5 以 82.0 分登顶,ForgeCode / GPT-5.4(81.8)和 TongAgents / Gemini 3.1 Pro(80.2)分列二三
- Anthropic 发布 Claude Opus 4.7,Claude Code 一周内迭代至 v2.1.123,新增 Bedrock 服务层级选择与 MCP alwaysLoad 配置
一、重大新闻
OpenAI(4 月 21–28 日)
Anthropic(4 月 16–29 日)
| 日期 |
事件 |
要点 |
| 04-16 |
Claude Opus 4.7 发布 |
在高级软件工程任务上较 Opus 4.6 有显著提升 |
| 04-23–29 |
Claude Code v2.1.118–v2.1.123 |
详见下方工具更新 |
二、工具与开发者更新
Codex CLI(OpenAI)
| 版本 |
日期 |
关键变更 |
| 0.125.0 |
04-24 |
App-server 支持 Unix socket 传输、分页恢复/fork、sticky environments |
| 0.124.0 |
04-23 |
TUI 新增 Alt+,/. 快速调节推理强度;模型升级时重置推理设置 |
| 0.123.0 |
04-23 |
内置 Amazon Bedrock 模型提供者,支持 AWS profile 配置 |
| 0.122.0 |
04-20 |
独立安装更自包含;修复 Windows/Intel Mac 桌面端启动问题 |
Claude Code(Anthropic)
| 版本 |
日期 |
关键变更 |
| v2.1.123 |
04-29 |
修复 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 401 重试循环 |
| v2.1.122 |
04-28 |
新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量(default/flex/priority) |
| v2.1.121 |
04-28 |
MCP server 配置新增 alwaysLoad 选项,跳过 tool-search 延迟 |
| v2.1.119 |
04-23 |
/config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级 |
| v2.1.118 |
04-23 |
新增 vim visual mode(v)与 visual-line mode(V) |
三、Benchmark 快照
SWE-bench Pro Public(2026-04-29 采集)
来源:Scale Leaderboard
| 排名 |
模型 |
分数 |
| 1 |
gpt-5.4 (xHigh)* |
59.1 |
| 2 |
Muse Spark* |
55.0 |
| 3 |
claude-opus-4-6 (thinking)* |
51.9 |
| 4 |
gemini-3.1-pro (thinking)* |
46.1 |
| 5 |
claude-opus-4-5-20251101 |
45.89 |
| 6 |
claude-4-5-Sonnet |
43.6 |
| 7 |
gemini-3-pro-preview |
43.3 |
| 8 |
claude-4-Sonnet |
42.7 |
| 9 |
gpt-5-2025-08-07 (High) |
41.78 |
| 10 |
gpt-5.2-codex |
41.04 |
* 标注星号的条目可能使用了额外推理配置(thinking/xHigh 等),与标准配置不完全可比。
Terminal-bench 2.0 Top 10(2026-04-23 采集)
来源:tbench.ai Leaderboard
| 排名 |
Agent / 模型 |
分数 |
| 1 |
Codex / GPT-5.5 |
82.0 |
| 2 |
ForgeCode / GPT-5.4 |
81.8 |
| 3 |
TongAgents / Gemini 3.1 Pro |
80.2 |
| 4 |
ForgeCode / Claude Opus 4.6 |
79.8 |
| 5 |
SageAgent / GPT-5.3-Codex |
78.4 |
| 6 |
ForgeCode / Gemini 3.1 Pro |
78.4 |
| 7 |
Droid / GPT-5.3-Codex |
77.3 |
| 8 |
Capy / Claude Opus 4.6 |
75.3 |
| 9 |
Simple Codex / GPT-5.3-Codex |
75.1 |
| 10 |
Terminus-KIRA / Gemini 3.1 Pro |
74.8 |
四、榜单变化分析
Terminal-bench 2.0:大规模上新
本次 Terminal-bench 2.0 榜单新增 124 个条目,均为首次进入(change_type: new_model),无排名升降变化。这表明该榜单刚刚完成大规模数据更新或首次公开。
关键观察:
- GPT-5.5 首秀即登顶:Codex / GPT-5.5 以 82.0 分占据榜首,领先第二名 ForgeCode / GPT-5.4 仅 0.2 分
- Agent 框架差异显著:同一底层模型在不同 agent 框架下表现差距巨大。例如 Claude Opus 4.6 在 ForgeCode 下得 79.8(#4),在 Claude Code 下仅 58.0(#40)
- GPT-5.3-Codex 成为热门底座:Top 10 中有 4 个条目使用 GPT-5.3-Codex 作为底层模型
- 中国厂商表现:TongAgents / Gemini 3.1 Pro(#3, 80.2)和 MAYA-V2 / Claude 4.6 Opus(#13, 72.1)进入前 15
SWE-bench Pro Public:格局稳定
本次采集未记录到排名升降变化,Top 10 格局与此前一致。gpt-5.4 (xHigh) 以 59.1 分保持领先,与第二名 Muse Spark(55.0)拉开 4.1 分差距。
五、企业与行业动态
- Hyatt 部署 ChatGPT Enterprise,使用 GPT-5.4 与 Codex 提升全球员工生产力与宾客体验(来源)
- Choco 利用 OpenAI API 自动化食品分销流程(来源)
- 网络安全:多家安全企业加入 OpenAI Trusted Access for Cyber,获 GPT-5.4-Cyber 与 $10M API 资助(来源)
- Sam Altman 发布五项原则,重申 AGI 惠及全人类的使命(来源)