快速预览
- OpenAI 发布 GPT-5.5:最快最强模型,支持编码/研究/数据分析,同步推出 Bio Bug Bounty(最高 $25,000)
- DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5 月 31 日,支持 Claude Code 1M 上下文
- xAI 发布 Grok Voice Think Fast 1.0:登顶 Tau Voice Bench,支持 25 语言 STT API
- SWE-bench Verified 榜单变动显著:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94,EntroPO+Qwen3-Coder 从 #103 跃升至 #76
- Anthropic 发布"内省适配器"研究:让模型自我报告训练中学到的潜在错位行为
一、行业新闻
OpenAI(4/21–4/29)
Codex CLI 更新:v0.122→v0.125,新增 Unix socket 传输、Amazon Bedrock 模型提供者、TUI 推理快捷键等。详见 changelog。
Anthropic
Claude Code 更新:v2.1.118→v2.1.123,新增 vim visual mode、MCP alwaysLoad 选项、Bedrock service tier 选择、OAuth 401 修复等。详见 releases。
xAI
DeepSeek
| 日期 |
事件 |
要点 |
| 4/24 |
DeepSeek-V4 发布 |
V4-Pro / V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 三个月后停用 |
| 4/29 |
V4-Pro 折扣延期 |
75% OFF 延至 5 月 31 日;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文 |
Google
二、Benchmark 快照
SWE-bench Verified — 当前 Top 10
| 排名 |
模型 |
分数 |
采集日期 |
| 1 |
live-SWE-agent + Claude 4.5 Opus medium |
79.2 |
2025-12-15 |
| 2 |
Sonar Foundation Agent + Claude 4.5 Opus |
79.2 |
2025-12-05 |
| 3 |
TRAE + Doubao-Seed-Code |
78.8 |
2025-09-28 |
| 4 |
live-SWE-agent + Gemini 3 Pro Preview |
77.4 |
2025-11-20 |
| 5 |
Atlassian Rovo Dev |
76.8 |
2025-09-02 |
| 6 |
EPAM AI/Run + Claude 4 Sonnet |
76.8 |
2025-08-04 |
| 7 |
mini-SWE-agent + Claude 4.5 Opus (high) |
76.8 |
2026-02-17 |
| 8 |
ACoder |
76.4 |
2025-08-19 |
| 9 |
mini-SWE-agent + Gemini 3 Flash (high) |
75.8 |
2026-02-17 |
| 10 |
mini-SWE-agent + MiniMax M2.5 (high) |
75.8 |
2026-02-17 |
来源:SWE-bench Verified 等
Terminal Bench 2.0 — 本期无变动
Top 3 数据未在本次快照中提供具体排名条目,但 Warp / Multiple 出现在变化列表中(见下节)。
三、Benchmark 变化
SWE-bench Verified
| 模型 |
变化 |
旧排名 → 新排名 |
旧分 → 新分 |
| Warp |
排名+分数下降 |
#11 → #36 |
75.6 → 71.0 |
| devlo |
排名+分数大幅下降 |
#44 → #83 / #94 |
70.2 → 58.2 / 54.2 |
| Nemotron-CORTEXA |
排名+分数下降 |
#50 → #82 |
68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B |
排名+分数上升 |
#103 → #76 |
52.2 → 60.4 |
| Solver (2024-09-12) |
排名+分数下降 |
#120 → #126 |
45.4 → 43.6 |
| EPAM AI/Run + GPT4o |
排名+分数下降 |
#156 → #162 |
27.0 → 24.0 |
来源:SWE-bench Verified
Terminal Bench 2.0
| 模型 |
变化 |
旧排名 → 新排名 |
旧分 → 新分 |
| Warp / Multiple |
排名+分数下降 |
#32 → #37 / #54 |
61.2 → 59.1 / 50.1 |
来源:Terminal Bench 2.0
四、来源状态
所有新闻来源和 benchmark 数据均采集成功,无失败记录。