AI 日报 2026-04-30 08:32
2026-04-30 08:32 CST
快速预览
- GPT-5.5 发布:OpenAI 推出 GPT-5.5,定位为最强模型,覆盖编码、研究、数据分析等复杂任务(来源)
- OpenAI 全面上 AWS:GPT 模型、Codex、Managed Agents 正式登陆 AWS 平台(来源)
- SWE-bench Verified 榜首:live-SWE-agent + Claude 4.5 Opus medium 以 79.2 分并列第一,TRAE + Doubao-Seed-Code 紧随其后(78.8)
- Claude Code 持续迭代:v2.1.118–v2.1.123 密集发布,新增 vim visual mode、MCP alwaysLoad、Bedrock service tier 等功能
- Terminal Bench 2 变动:Warp / Multiple 分数从 61.2 下降至 59.1(排名 32→37),另有子项降至 50.1(排名 32→54)
一、重点新闻
OpenAI 产品与基础设施
| 日期 | 事件 | 来源 |
|---|---|---|
| 04-29 | Stargate 算力基础设施扩展:新增数据中心容量,支撑 AGI 级算力需求 | 链接 |
| 04-29 | 网络安全五点行动计划:推动 AI 驱动的网络防御民主化 | 链接 |
| 04-28 | OpenAI 模型登陆 AWS:GPT 模型、Codex、Managed Agents 可在 AWS 环境中使用 | 链接 |
| 04-27 | 微软合作协议修订:简化合作关系,增加长期确定性 | 链接 |
| 04-27 | FedRAMP Moderate 授权:ChatGPT Enterprise 和 API 获美国联邦机构安全认证 | 链接 |
| 04-27 | Symphony 开源编排规范:将 issue tracker 转化为 always-on agent 系统 | 链接 |
OpenAI 模型发布
| 日期 | 事件 | 来源 |
|---|---|---|
| 04-23 | GPT-5.5 发布:最快、最强模型,面向编码/研究/数据分析;同步发布 System Card 和 Bio Bug Bounty(最高 $25,000) | 链接 |
| 04-22 | ChatGPT Images 2.0:SOTA 图像生成,改进文字渲染和多语言支持 | 链接 |
| 04-22 | OpenAI Privacy Filter:开源权重 PII 检测与脱敏模型 | 链接 |
| 04-16 | GPT-Rosalind:面向生命科学的前沿推理模型,加速药物发现和基因组分析 | 链接 |
OpenAI Codex 生态
- 04-23:GPT-5.5 集成 Codex,新增 computer use、浏览器、图像生成、记忆和插件(changelog)
- 04-22:ChatGPT 中引入 Workspace Agents,基于 Codex 的云端自动化工作流(链接)
- 04-21:Codex 企业扩展——Codex Labs 成立,与 Accenture、PwC、Infosys 合作,WAU 达 400 万(链接)
- 04-16:Codex 桌面端更新,支持 computer use、应用内浏览等(链接)
Claude Code 更新
| 版本 | 日期 | 关键变更 |
|---|---|---|
| v2.1.123 | 04-29 | 修复 OAuth 401 重试循环(CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时) |
| v2.1.122 | 04-28 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,支持 Bedrock flex/priority 层级选择 |
| v2.1.121 | 04-28 | MCP server 配置新增 alwaysLoad 选项,跳过 tool-search 延迟 |
| v2.1.119 | 04-23 | /config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级 |
| v2.1.118 | 04-23 | 新增 vim visual mode(v)和 visual-line mode(V) |
二、Benchmark 快照:SWE-bench Verified Top 25
数据采集时间:各条目不同,见表中 captured_at 列。均为
new_model类型首次入榜。
| 排名 | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
| 11 | Warp | 75.6 | 2025-09-01 |
| 12 | mini-SWE-agent + Claude Opus 4.6 | 75.6 | 2026-02-17 |
| 13 | TRAE + Claude Sonnet 4 + Opus 4 + Sonnet 3.7 + Gemini 2.5 Pro | 75.2 | 2025-06-12 |
| 14 | Harness AI | 74.8 | 2025-07-31 |
| 15 | Sonar Foundation Agent + Claude 4.5 Sonnet | 74.8 | 2025-11-03 |
| 16 | Lingxi-v1.5 + Claude 4 Sonnet | 74.6 | 2025-07-20 |
| 17 | JoyCode + Claude 4 Sonnet + GPT-4.1 | 74.6 | 2025-09-15 |
| 18 | Refact.ai Agent + Claude 4 Sonnet + o4-mini | 74.4 | 2025-06-03 |
| 19 | Prometheus-v1.2.1 + GPT-5 | 74.4 | 2025-10-15 |
| 20 | mini-SWE-agent + Claude 4.5 Opus medium | 74.4 | 2025-11-24 |
| 21 | mini-SWE-agent + Gemini 3 Pro Preview | 74.2 | 2025-11-18 |
| 22 | Salesforce SAGE (OpenHands) | 73.8 | 2025-11-03 |
| 23 | Tools + Claude 4 Opus | 73.2 | 2025-05-22 |
| 24 | Salesforce SAGE (bash-only) | 73.0 | 2025-10-21 |
| 25 | mini-SWE-agent + GPT-5-2 Codex | 72.8 | 2026-02-19 |
来源:SWE-bench Verified 等各模型官方来源
三、榜单变化
SWE-bench Verified
本次快照中所有条目均为 new_model(首次入榜),无排名升降变动。Top 10 中值得关注的新入榜者:
- ACoder(rank 8, 76.4)——独立 agent 首次进入前十
- Atlassian Rovo Dev(rank 5, 76.8)——企业级开发 agent 直接入榜前五
- EPAM AI/Run + Claude 4 Sonnet(rank 6, 76.8)——企业服务商 agent 紧随其后
Terminal Bench 2
| 模型 | 变动类型 | 排名变化 | 分数变化 |
|---|---|---|---|
| Warp / Multiple | rank_change + score_change | 32 → 37 | 61.2 → 59.1 |
| Warp / Multiple | rank_change + score_change | 32 → 54 | 61.2 → 50.1 |
注:两条记录均显示 Warp / Multiple 在 [email protected] 中分数下降,排名分别下滑 5 位和 22 位。可能存在不同子类别或评估条件的差异。
四、来源状态
- 所有新闻来源均采集成功,无失败项
- SWE-bench Verified 快照中全部为新入榜模型(
new_model),无排名升降记录 - Terminal Bench 2 仅有 Warp / Multiple 的排名和分数变动记录