AI 日报 2026-04-30 08:32

快速预览

GPT-5.5 发布：OpenAI 推出 GPT-5.5，定位为最强模型，覆盖编码、研究、数据分析等复杂任务（来源）
OpenAI 全面上 AWS：GPT 模型、Codex、Managed Agents 正式登陆 AWS 平台（来源）
SWE-bench Verified 榜首：live-SWE-agent + Claude 4.5 Opus medium 以 79.2 分并列第一，TRAE + Doubao-Seed-Code 紧随其后（78.8）
Claude Code 持续迭代：v2.1.118–v2.1.123 密集发布，新增 vim visual mode、MCP alwaysLoad、Bedrock service tier 等功能
Terminal Bench 2 变动：Warp / Multiple 分数从 61.2 下降至 59.1（排名 32→37），另有子项降至 50.1（排名 32→54）

日期	事件	来源
04-29	Stargate 算力基础设施扩展：新增数据中心容量，支撑 AGI 级算力需求	链接
04-29	网络安全五点行动计划：推动 AI 驱动的网络防御民主化	链接
04-28	OpenAI 模型登陆 AWS：GPT 模型、Codex、Managed Agents 可在 AWS 环境中使用	链接
04-27	微软合作协议修订：简化合作关系，增加长期确定性	链接
04-27	FedRAMP Moderate 授权：ChatGPT Enterprise 和 API 获美国联邦机构安全认证	链接
04-27	Symphony 开源编排规范：将 issue tracker 转化为 always-on agent 系统	链接

日期	事件	来源
04-23	GPT-5.5 发布：最快、最强模型，面向编码/研究/数据分析；同步发布 System Card 和 Bio Bug Bounty（最高 $25,000）	链接
04-22	ChatGPT Images 2.0：SOTA 图像生成，改进文字渲染和多语言支持	链接
04-22	OpenAI Privacy Filter：开源权重 PII 检测与脱敏模型	链接
04-16	GPT-Rosalind：面向生命科学的前沿推理模型，加速药物发现和基因组分析	链接

版本	日期	关键变更
v2.1.123	04-29	修复 OAuth 401 重试循环（`CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1` 时）
v2.1.122	04-28	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量，支持 Bedrock flex/priority 层级选择
v2.1.121	04-28	MCP server 配置新增 `alwaysLoad` 选项，跳过 tool-search 延迟
v2.1.119	04-23	`/config` 设置持久化至 `~/.claude/settings.json`，参与项目/本地/策略覆盖优先级
v2.1.118	04-23	新增 vim visual mode（`v`）和 visual-line mode（`V`）

数据采集时间：各条目不同，见表中 captured_at 列。均为 new_model 类型首次入榜。

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17
11	Warp	75.6	2025-09-01
12	mini-SWE-agent + Claude Opus 4.6	75.6	2026-02-17
13	TRAE + Claude Sonnet 4 + Opus 4 + Sonnet 3.7 + Gemini 2.5 Pro	75.2	2025-06-12
14	Harness AI	74.8	2025-07-31
15	Sonar Foundation Agent + Claude 4.5 Sonnet	74.8	2025-11-03
16	Lingxi-v1.5 + Claude 4 Sonnet	74.6	2025-07-20
17	JoyCode + Claude 4 Sonnet + GPT-4.1	74.6	2025-09-15
18	Refact.ai Agent + Claude 4 Sonnet + o4-mini	74.4	2025-06-03
19	Prometheus-v1.2.1 + GPT-5	74.4	2025-10-15
20	mini-SWE-agent + Claude 4.5 Opus medium	74.4	2025-11-24
21	mini-SWE-agent + Gemini 3 Pro Preview	74.2	2025-11-18
22	Salesforce SAGE (OpenHands)	73.8	2025-11-03
23	Tools + Claude 4 Opus	73.2	2025-05-22
24	Salesforce SAGE (bash-only)	73.0	2025-10-21
25	mini-SWE-agent + GPT-5-2 Codex	72.8	2026-02-19

来源：SWE-bench Verified 等各模型官方来源

本次快照中所有条目均为 new_model（首次入榜），无排名升降变动。Top 10 中值得关注的新入榜者：

模型	变动类型	排名变化	分数变化
Warp / Multiple	rank_change + score_change	32 → 37	61.2 → 59.1
Warp / Multiple	rank_change + score_change	32 → 54	61.2 → 50.1

注：两条记录均显示 Warp / Multiple 在 [email protected] 中分数下降，排名分别下滑 5 位和 22 位。可能存在不同子类别或评估条件的差异。

来源 · 38 条