快速预览
- OpenAI 发布 GPT-5.5:4/23 发布,登顶 Terminal-Bench 2.0(82.0),LM Arena 排名第 7(1488.0)
- DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5/31,支持 Claude Code 1M 上下文
- Anthropic 发布"内省适配器"研究:让模型自我报告训练中学到的不良行为,含潜在错位与后门检测
- LM Arena 前三均为 Claude:Opus 4.7 thinking(1502.9)、Opus 4.6 thinking(1502.1)、Opus 4.6(1496.5)
- SWE-bench Verified 大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94,EntroPO+Qwen3-Coder 从 #103 升至 #76
一、新闻
OpenAI(按日期倒序)
OpenAI Codex Changelog(按日期倒序)
| 日期 |
版本 |
要点 |
| 4/24 |
CLI 0.125.0 |
Unix socket 传输、分页恢复/分叉、sticky 环境、远程线程配置 |
| 4/23 |
GPT-5.5 + Codex app 更新 |
GPT-5.5 在 Codex 中可用 |
| 4/23 |
CLI 0.124.0 |
TUI 快速推理控制(Alt+,/Alt+.),模型升级时重置推理设置 |
| 4/23 |
CLI 0.123.0 |
内置 Amazon Bedrock 模型提供者,支持 AWS profile |
| 4/20 |
CLI 0.122.0 |
独立安装更自包含,Windows/Intel Mac 桌面端修复 |
Anthropic(按日期倒序)
Claude Code Releases(按日期倒序)
| 日期 |
版本 |
要点 |
| 4/29 |
v2.1.123 |
修复 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 401 重试循环 |
| 4/28 |
v2.1.122 |
新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量(default/flex/priority) |
| 4/28 |
v2.1.121 |
MCP server 配置新增 alwaysLoad 选项,跳过工具搜索延迟 |
| 4/23 |
v2.1.119 |
/config 设置持久化至 ~/.claude/settings.json,参与覆盖优先级 |
| 4/23 |
v2.1.118 |
新增 vim visual mode(v)和 visual-line mode(V) |
Google(按日期倒序)
xAI(按日期倒序)
DeepSeek(按日期倒序)
| 日期 |
标题 |
摘要 |
| 4/29 |
V4-Pro 折扣延至 5/31 |
75% OFF 延期;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文 |
| 4/25 |
V4-Pro 75% OFF |
截止 5/5,集成 Claude Code / OpenCode / OpenClaw |
| 4/24 |
DeepSeek-V4 发布 |
V4-Pro 与 V4-Flash 上线,支持 OpenAI 与 Anthropic 接口;旧名称 deepseek-chat/deepseek-reasoner 三个月后停用 |
二、Benchmark 快照
SWE-bench Verified — Top 10(截至 2025-12-15)
| # |
模型 |
分数 |
| 1 |
live-SWE-agent + Claude 4.5 Opus medium |
79.2 |
| 2 |
Sonar Foundation Agent + Claude 4.5 Opus |
79.2 |
| 3 |
TRAE + Doubao-Seed-Code |
78.8 |
| 4 |
live-SWE-agent + Gemini 3 Pro Preview |
77.4 |
| 5 |
Atlassian Rovo Dev |
76.8 |
| 6 |
EPAM AI/Run + Claude 4 Sonnet |
76.8 |
| 7 |
mini-SWE-agent + Claude 4.5 Opus (high reasoning) |
76.8 |
| 8 |
ACoder |
76.4 |
| 9 |
mini-SWE-agent + Gemini 3 Flash (high reasoning) |
75.8 |
| 10 |
mini-SWE-agent + MiniMax M2.5 (high reasoning) |
75.8 |
SWE-bench Pro Public — Top 10(截至 2026-04-30)
| # |
模型 |
分数 |
| 1 |
gpt-5.4 (xHigh)* |
59.1 |
| 2 |
Muse Spark* |
55.0 |
| 3 |
claude-opus-4-6 (thinking)* |
51.9 |
| 4 |
gemini-3.1-pro (thinking)* |
46.1 |
| 5 |
claude-opus-4-5-20251101 |
45.89 |
| 6 |
claude-4-5-Sonnet |
43.6 |
| 7 |
gemini-3-pro-preview |
43.3 |
| 8 |
claude-4-Sonnet |
42.7 |
| 9 |
gpt-5-2025-08-07 (High) |
41.78 |
| 10 |
gpt-5.2-codex |
41.04 |
Terminal-Bench 2.0 — Top 10(截至 2026-04-23)
| # |
Agent / 模型 |
分数 |
| 1 |
Codex / GPT-5.5 |
82.0 |
| 2 |
ForgeCode / GPT-5.4 |
81.8 |
| 3 |
TongAgents / Gemini 3.1 Pro |
80.2 |
| 4 |
ForgeCode / Claude Opus 4.6 |
79.8 |
| 5 |
SageAgent / GPT-5.3-Codex |
78.4 |
| 6 |
ForgeCode / Gemini 3.1 Pro |
78.4 |
| 7 |
Droid / GPT-5.3-Codex |
77.3 |
| 8 |
Capy / Claude Opus 4.6 |
75.3 |
| 9 |
Simple Codex / GPT-5.3-Codex |
75.1 |
| 10 |
Terminus-KIRA / Gemini 3.1 Pro |
74.8 |
LM Arena Overall — Top 10(截至 2026-04-29)
| # |
模型 |
ELO |
| 1 |
claude-opus-4-7-thinking |
1502.9 |
| 2 |
claude-opus-4-6-thinking |
1502.1 |
| 3 |
claude-opus-4-6 |
1496.5 |
| 4 |
claude-opus-4-7 |
1494.8 |
| 5 |
gemini-3.1-pro-preview |
1493.0 |
| 6 |
muse-spark |
1489.5 |
| 7 |
gpt-5.5-high |
1488.0 |
| 8 |
gemini-3-pro |
1485.8 |
| 9 |
grok-4.20-beta1 |
1479.4 |
| 10 |
gpt-5.4-high |
1477.8 |
三、Benchmark 变化
SWE-bench Verified 变化
| 模型 |
变化 |
旧排名 → 新排名 |
旧分数 → 新分数 |
| EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct |
↑ 大幅上升 |
#103 → #76 |
52.2 → 60.4 |
| EPAM AI/Run + GPT4o |
↓ 下降 |
#156 → #162 |
27.0 → 24.0 |
| Nemotron-CORTEXA |
↓ 大幅下降 |
#50 → #82 |
68.2 → 58.2 |
| Solver (2024-09-12) |
↓ 小幅下降 |
#120 → #126 |
45.4 → 43.6 |
| Warp |
↓ 大幅下降 |
#11 → #36 |
75.6 → 71.0 |
| devlo |
↓ 大幅下降 |
#44 → #83/#94 |
70.2 → 58.2/54.2 |
Terminal-Bench 2.0 变化
| 模型 |
变化 |
旧排名 → 新排名 |
旧分数 → 新分数 |
| Warp / Multiple |
↓ 下降 |
#32 → #37/#54 |
61.2 → 59.1/50.1 |
注意:devlo 和 Warp / Multiple 各出现两条变化记录(可能对应不同评测配置或提交版本),排名与分数均显著下降,建议关注其评测方法是否调整。
四、采集状态
所有来源均采集成功,无失败记录。