AI 日报 2026-04-30 08:32

2026-04-30 08:32 CST

快速预览

  • GPT-5.5 发布:OpenAI 推出 GPT-5.5,定位为最强模型,覆盖编码、研究、数据分析等复杂任务(来源
  • OpenAI 全面上 AWS:GPT 模型、Codex、Managed Agents 正式登陆 AWS 平台(来源
  • SWE-bench Verified 榜首:live-SWE-agent + Claude 4.5 Opus medium 以 79.2 分并列第一,TRAE + Doubao-Seed-Code 紧随其后(78.8)
  • Claude Code 持续迭代:v2.1.118–v2.1.123 密集发布,新增 vim visual mode、MCP alwaysLoad、Bedrock service tier 等功能
  • Terminal Bench 2 变动:Warp / Multiple 分数从 61.2 下降至 59.1(排名 32→37),另有子项降至 50.1(排名 32→54)

一、重点新闻

OpenAI 产品与基础设施

日期 事件 来源
04-29 Stargate 算力基础设施扩展:新增数据中心容量,支撑 AGI 级算力需求 链接
04-29 网络安全五点行动计划:推动 AI 驱动的网络防御民主化 链接
04-28 OpenAI 模型登陆 AWS:GPT 模型、Codex、Managed Agents 可在 AWS 环境中使用 链接
04-27 微软合作协议修订:简化合作关系,增加长期确定性 链接
04-27 FedRAMP Moderate 授权:ChatGPT Enterprise 和 API 获美国联邦机构安全认证 链接
04-27 Symphony 开源编排规范:将 issue tracker 转化为 always-on agent 系统 链接

OpenAI 模型发布

日期 事件 来源
04-23 GPT-5.5 发布:最快、最强模型,面向编码/研究/数据分析;同步发布 System Card 和 Bio Bug Bounty(最高 $25,000) 链接
04-22 ChatGPT Images 2.0:SOTA 图像生成,改进文字渲染和多语言支持 链接
04-22 OpenAI Privacy Filter:开源权重 PII 检测与脱敏模型 链接
04-16 GPT-Rosalind:面向生命科学的前沿推理模型,加速药物发现和基因组分析 链接

OpenAI Codex 生态

  • 04-23:GPT-5.5 集成 Codex,新增 computer use、浏览器、图像生成、记忆和插件(changelog
  • 04-22:ChatGPT 中引入 Workspace Agents,基于 Codex 的云端自动化工作流(链接
  • 04-21:Codex 企业扩展——Codex Labs 成立,与 Accenture、PwC、Infosys 合作,WAU 达 400 万(链接
  • 04-16:Codex 桌面端更新,支持 computer use、应用内浏览等(链接

Claude Code 更新

版本 日期 关键变更
v2.1.123 04-29 修复 OAuth 401 重试循环(CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时)
v2.1.122 04-28 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,支持 Bedrock flex/priority 层级选择
v2.1.121 04-28 MCP server 配置新增 alwaysLoad 选项,跳过 tool-search 延迟
v2.1.119 04-23 /config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级
v2.1.118 04-23 新增 vim visual mode(v)和 visual-line mode(V

来源:Claude Code Releases


二、Benchmark 快照:SWE-bench Verified Top 25

数据采集时间:各条目不同,见表中 captured_at 列。均为 new_model 类型首次入榜。

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17
11 Warp 75.6 2025-09-01
12 mini-SWE-agent + Claude Opus 4.6 75.6 2026-02-17
13 TRAE + Claude Sonnet 4 + Opus 4 + Sonnet 3.7 + Gemini 2.5 Pro 75.2 2025-06-12
14 Harness AI 74.8 2025-07-31
15 Sonar Foundation Agent + Claude 4.5 Sonnet 74.8 2025-11-03
16 Lingxi-v1.5 + Claude 4 Sonnet 74.6 2025-07-20
17 JoyCode + Claude 4 Sonnet + GPT-4.1 74.6 2025-09-15
18 Refact.ai Agent + Claude 4 Sonnet + o4-mini 74.4 2025-06-03
19 Prometheus-v1.2.1 + GPT-5 74.4 2025-10-15
20 mini-SWE-agent + Claude 4.5 Opus medium 74.4 2025-11-24
21 mini-SWE-agent + Gemini 3 Pro Preview 74.2 2025-11-18
22 Salesforce SAGE (OpenHands) 73.8 2025-11-03
23 Tools + Claude 4 Opus 73.2 2025-05-22
24 Salesforce SAGE (bash-only) 73.0 2025-10-21
25 mini-SWE-agent + GPT-5-2 Codex 72.8 2026-02-19

来源:SWE-bench Verified 等各模型官方来源


三、榜单变化

SWE-bench Verified

本次快照中所有条目均为 new_model(首次入榜),无排名升降变动。Top 10 中值得关注的新入榜者:

  • ACoder(rank 8, 76.4)——独立 agent 首次进入前十
  • Atlassian Rovo Dev(rank 5, 76.8)——企业级开发 agent 直接入榜前五
  • EPAM AI/Run + Claude 4 Sonnet(rank 6, 76.8)——企业服务商 agent 紧随其后

Terminal Bench 2

模型 变动类型 排名变化 分数变化
Warp / Multiple rank_change + score_change 32 → 37 61.2 → 59.1
Warp / Multiple rank_change + score_change 32 → 54 61.2 → 50.1

注:两条记录均显示 Warp / Multiple 在 [email protected] 中分数下降,排名分别下滑 5 位和 22 位。可能存在不同子类别或评估条件的差异。


四、来源状态

  • 所有新闻来源均采集成功,无失败项
  • SWE-bench Verified 快照中全部为新入榜模型(new_model),无排名升降记录
  • Terminal Bench 2 仅有 Warp / Multiple 的排名和分数变动记录

Sources