快速预览
- OpenAI 全面上云 AWS:GPT 模型、Codex 及 Managed Agents 正式登陆 AWS,企业可在 AWS 环境内构建安全 AI 应用。
- GPT-5.5 发布:OpenAI 推出 GPT-5.5,定位为"最强模型",强化编码、研究与数据分析能力;同步发布 System Card 与 Bio Bug Bounty(最高 $25,000)。
- SWE-bench Pro Public 快照(2026-04-29):gpt-5.4 (xHigh) 以 59.1% 领跑,Muse Spark 55.0% 居次,claude-opus-4-6 (thinking) 51.9% 第三;本次无榜单排名变化。
- Anthropic Claude Code 连续更新:v2.1.118→v2.1.123 密集发布,新增 vim 可视模式、MCP
alwaysLoad、Bedrock 服务层级选择等。
- OpenAI × Microsoft 合作进入新阶段:双方宣布修订协议,简化合作结构并增加长期确定性。
一、重点新闻
1. OpenAI 产品与平台动态
2. Anthropic 动态
3. Claude Code 更新(04-23 → 04-29)
| 版本 |
日期 |
关键变更 |
| v2.1.123 |
04-29 |
修复 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 401 重试循环 |
| v2.1.122 |
04-28 |
新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,支持 Bedrock 服务层级选择 |
| v2.1.121 |
04-28 |
MCP 服务器配置新增 alwaysLoad 选项,跳过工具搜索延迟 |
| v2.1.119 |
04-23 |
/config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级 |
| v2.1.118 |
04-23 |
新增 vim 可视模式 (v) 与可视行模式 (V),支持选择、操作符与视觉反馈 |
二、Benchmark 快照:SWE-bench Pro Public
采集时间:2026-04-29 10:04 UTC
来源:Scale AI Leaderboard
说明:以下为当前快照,本次采集无排名变化。带 * 号为非官方提交。
| 排名 |
模型 |
得分 |
| 1 |
gpt-5.4 (xHigh)* |
59.1 |
| 2 |
Muse Spark* |
55.0 |
| 3 |
claude-opus-4-6 (thinking)* |
51.9 |
| 4 |
gemini-3.1-pro (thinking)* |
46.1 |
| 5 |
claude-opus-4-5-20251101 |
45.89 |
| 6 |
claude-4-5-Sonnet |
43.6 |
| 7 |
gemini-3-pro-preview |
43.3 |
| 8 |
claude-4-Sonnet |
42.7 |
| 9 |
gpt-5-2025-08-07 (High) |
41.78 |
| 10 |
gpt-5.2-codex |
41.04 |
| 11 |
claude-4-5-haiku |
39.45 |
| 12 |
qwen3-coder-480b-a35b |
38.7 |
| 13 |
minimax-2.1 |
36.81 |
| 14 |
gemini-3-flash |
34.63 |
| 15 |
gpt-5.2 |
29.94 |
| 16 |
kimi-k2-instruct |
27.67 |
| 17 |
qwen3-235b-a22b |
21.41 |
| 18 |
gpt-oss-120b |
16.2 |
| 19 |
deepseek-v3p2 |
15.56 |
| 20 |
gemma-3-27b-it |
11.38 |
| 21 |
llama3-1-405b-instruct |
11.18 |
| 22 |
glm-4.6 |
9.67 |
| 23 |
llama4-maverick-17b-instruct |
5.24 |
| 24 |
codestral-2405 |
1.51 |
榜单变化:本次无排名变动。
三、采集状态
- 所有来源采集正常,无失败记录。
- Benchmark 变化记录为空(无新增或排名变动)。