AI 日报 2026-04-29 18:27

2026-04-29 18:27 CST

快速预览

  • OpenAI 全面上 AWS:GPT 模型、Codex 及 Managed Agents 已登陆 AWS,企业可在自有 AWS 环境中构建安全 AI 应用
  • GPT-5.5 发布:OpenAI 最新旗舰模型,主打编码、研究与数据分析,同步上线 Codex 并开放 Bio Bug Bounty(最高 $25,000)
  • SWE-bench Pro Public 榜首:gpt-5.4 (xHigh) 以 59.1 分领跑,Muse Spark 55.0 分紧随,claude-opus-4-6 (thinking) 51.9 分位列第三
  • Terminal-bench 2.0 大规模上新:124 个新条目涌入,Codex / GPT-5.5 以 82.0 分登顶,ForgeCode / GPT-5.4(81.8)和 TongAgents / Gemini 3.1 Pro(80.2)分列二三
  • Anthropic 发布 Claude Opus 4.7,Claude Code 一周内迭代至 v2.1.123,新增 Bedrock 服务层级选择与 MCP alwaysLoad 配置

一、重大新闻

OpenAI(4 月 21–28 日)

日期 事件 要点
04-28 OpenAI on AWS GPT 模型、Codex、Managed Agents 全面上 AWS
04-28 社区安全承诺 公布 ChatGPT 模型防护、滥用检测与政策执行机制
04-27 FedRAMP Moderate ChatGPT Enterprise 与 API 获 FedRAMP Moderate 授权,面向美国联邦机构
04-27 微软合作新阶段 双方签署修订协议,简化合作结构、增加长期确定性
04-27 Symphony 开源编排规范 将 issue tracker 转化为 always-on agent 系统
04-23 GPT-5.5 发布 最新旗舰模型,主打编码/研究/数据分析;同步发布 System CardBio Bug Bounty(最高 $25K)
04-23 Codex 学院系列上线 什么是 Codex入门指南插件与技能自动化设置Top 10 用例
04-22 Workspace Agents Codex 驱动的 ChatGPT 工作区代理,可自动化复杂工作流
04-22 OpenAI Privacy Filter 开源权重 PII 检测与脱敏模型
04-22 ChatGPT 临床版免费 面向美国执业医师、NP、药剂师免费开放
04-21 ChatGPT Images 2.0 新一代图像生成模型,改进文字渲染与多语言支持
04-21 Codex 企业扩展 推出 Codex Labs,与 Accenture/PwC/Infosys 合作;Codex WAU 达 400 万
04-16 GPT-Rosalind 面向生命科学的前沿推理模型,加速药物发现与基因组分析
04-16 Codex 桌面端大更新 新增 computer use、应用内浏览、图像生成、记忆与插件

Anthropic(4 月 16–29 日)

日期 事件 要点
04-16 Claude Opus 4.7 发布 在高级软件工程任务上较 Opus 4.6 有显著提升
04-23–29 Claude Code v2.1.118–v2.1.123 详见下方工具更新

二、工具与开发者更新

Codex CLI(OpenAI)

版本 日期 关键变更
0.125.0 04-24 App-server 支持 Unix socket 传输、分页恢复/fork、sticky environments
0.124.0 04-23 TUI 新增 Alt+,/. 快速调节推理强度;模型升级时重置推理设置
0.123.0 04-23 内置 Amazon Bedrock 模型提供者,支持 AWS profile 配置
0.122.0 04-20 独立安装更自包含;修复 Windows/Intel Mac 桌面端启动问题

Claude Code(Anthropic)

版本 日期 关键变更
v2.1.123 04-29 修复 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 401 重试循环
v2.1.122 04-28 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量(default/flex/priority)
v2.1.121 04-28 MCP server 配置新增 alwaysLoad 选项,跳过 tool-search 延迟
v2.1.119 04-23 /config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级
v2.1.118 04-23 新增 vim visual mode(v)与 visual-line mode(V

三、Benchmark 快照

SWE-bench Pro Public(2026-04-29 采集)

来源:Scale Leaderboard

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

* 标注星号的条目可能使用了额外推理配置(thinking/xHigh 等),与标准配置不完全可比。

Terminal-bench 2.0 Top 10(2026-04-23 采集)

来源:tbench.ai Leaderboard

排名 Agent / 模型 分数
1 Codex / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4
6 ForgeCode / Gemini 3.1 Pro 78.4
7 Droid / GPT-5.3-Codex 77.3
8 Capy / Claude Opus 4.6 75.3
9 Simple Codex / GPT-5.3-Codex 75.1
10 Terminus-KIRA / Gemini 3.1 Pro 74.8

四、榜单变化分析

Terminal-bench 2.0:大规模上新

本次 Terminal-bench 2.0 榜单新增 124 个条目,均为首次进入(change_type: new_model),无排名升降变化。这表明该榜单刚刚完成大规模数据更新或首次公开。

关键观察:

  • GPT-5.5 首秀即登顶:Codex / GPT-5.5 以 82.0 分占据榜首,领先第二名 ForgeCode / GPT-5.4 仅 0.2 分
  • Agent 框架差异显著:同一底层模型在不同 agent 框架下表现差距巨大。例如 Claude Opus 4.6 在 ForgeCode 下得 79.8(#4),在 Claude Code 下仅 58.0(#40)
  • GPT-5.3-Codex 成为热门底座:Top 10 中有 4 个条目使用 GPT-5.3-Codex 作为底层模型
  • 中国厂商表现:TongAgents / Gemini 3.1 Pro(#3, 80.2)和 MAYA-V2 / Claude 4.6 Opus(#13, 72.1)进入前 15

SWE-bench Pro Public:格局稳定

本次采集未记录到排名升降变化,Top 10 格局与此前一致。gpt-5.4 (xHigh) 以 59.1 分保持领先,与第二名 Muse Spark(55.0)拉开 4.1 分差距。


五、企业与行业动态

  • Hyatt 部署 ChatGPT Enterprise,使用 GPT-5.4 与 Codex 提升全球员工生产力与宾客体验(来源
  • Choco 利用 OpenAI API 自动化食品分销流程(来源
  • 网络安全:多家安全企业加入 OpenAI Trusted Access for Cyber,获 GPT-5.4-Cyber 与 $10M API 资助(来源
  • Sam Altman 发布五项原则,重申 AGI 惠及全人类的使命(来源

Sources