AI 日报 2026-04-29 18:27

快速预览

OpenAI 全面上 AWS：GPT 模型、Codex 及 Managed Agents 已登陆 AWS，企业可在自有 AWS 环境中构建安全 AI 应用
GPT-5.5 发布：OpenAI 最新旗舰模型，主打编码、研究与数据分析，同步上线 Codex 并开放 Bio Bug Bounty（最高 $25,000）
SWE-bench Pro Public 榜首：gpt-5.4 (xHigh) 以 59.1 分领跑，Muse Spark 55.0 分紧随，claude-opus-4-6 (thinking) 51.9 分位列第三
Terminal-bench 2.0 大规模上新：124 个新条目涌入，Codex / GPT-5.5 以 82.0 分登顶，ForgeCode / GPT-5.4（81.8）和 TongAgents / Gemini 3.1 Pro（80.2）分列二三
Anthropic 发布 Claude Opus 4.7，Claude Code 一周内迭代至 v2.1.123，新增 Bedrock 服务层级选择与 MCP alwaysLoad 配置

日期	事件	要点
04-28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 全面上 AWS
04-28	社区安全承诺	公布 ChatGPT 模型防护、滥用检测与政策执行机制
04-27	FedRAMP Moderate	ChatGPT Enterprise 与 API 获 FedRAMP Moderate 授权，面向美国联邦机构
04-27	微软合作新阶段	双方签署修订协议，简化合作结构、增加长期确定性
04-27	Symphony 开源编排规范	将 issue tracker 转化为 always-on agent 系统
04-23	GPT-5.5 发布	最新旗舰模型，主打编码/研究/数据分析；同步发布 System Card 与 Bio Bug Bounty（最高 $25K）
04-23	Codex 学院系列上线	什么是 Codex、入门指南、插件与技能、自动化、设置、Top 10 用例
04-22	Workspace Agents	Codex 驱动的 ChatGPT 工作区代理，可自动化复杂工作流
04-22	OpenAI Privacy Filter	开源权重 PII 检测与脱敏模型
04-22	ChatGPT 临床版免费	面向美国执业医师、NP、药剂师免费开放
04-21	ChatGPT Images 2.0	新一代图像生成模型，改进文字渲染与多语言支持
04-21	Codex 企业扩展	推出 Codex Labs，与 Accenture/PwC/Infosys 合作；Codex WAU 达 400 万
04-16	GPT-Rosalind	面向生命科学的前沿推理模型，加速药物发现与基因组分析
04-16	Codex 桌面端大更新	新增 computer use、应用内浏览、图像生成、记忆与插件

日期	事件	要点
04-16	Claude Opus 4.7 发布	在高级软件工程任务上较 Opus 4.6 有显著提升
04-23–29	Claude Code v2.1.118–v2.1.123	详见下方工具更新

版本	日期	关键变更
0.125.0	04-24	App-server 支持 Unix socket 传输、分页恢复/fork、sticky environments
0.124.0	04-23	TUI 新增 Alt+,/. 快速调节推理强度；模型升级时重置推理设置
0.123.0	04-23	内置 Amazon Bedrock 模型提供者，支持 AWS profile 配置
0.122.0	04-20	独立安装更自包含；修复 Windows/Intel Mac 桌面端启动问题

版本	日期	关键变更
v2.1.123	04-29	修复 `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1` 时 OAuth 401 重试循环
v2.1.122	04-28	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量（default/flex/priority）
v2.1.121	04-28	MCP server 配置新增 `alwaysLoad` 选项，跳过 tool-search 延迟
v2.1.119	04-23	`/config` 设置持久化至 `~/.claude/settings.json`，参与项目/本地/策略覆盖优先级
v2.1.118	04-23	新增 vim visual mode（`v`）与 visual-line mode（`V`）

* 标注星号的条目可能使用了额外推理配置（thinking/xHigh 等），与标准配置不完全可比。

本次 Terminal-bench 2.0 榜单新增 124 个条目，均为首次进入（change_type: new_model），无排名升降变化。这表明该榜单刚刚完成大规模数据更新或首次公开。

关键观察：

GPT-5.5 首秀即登顶：Codex / GPT-5.5 以 82.0 分占据榜首，领先第二名 ForgeCode / GPT-5.4 仅 0.2 分
Agent 框架差异显著：同一底层模型在不同 agent 框架下表现差距巨大。例如 Claude Opus 4.6 在 ForgeCode 下得 79.8（#4），在 Claude Code 下仅 58.0（#40）
GPT-5.3-Codex 成为热门底座：Top 10 中有 4 个条目使用 GPT-5.3-Codex 作为底层模型
中国厂商表现：TongAgents / Gemini 3.1 Pro（#3, 80.2）和 MAYA-V2 / Claude 4.6 Opus（#13, 72.1）进入前 15

本次采集未记录到排名升降变化，Top 10 格局与此前一致。gpt-5.4 (xHigh) 以 59.1 分保持领先，与第二名 Muse Spark（55.0）拉开 4.1 分差距。

Hyatt 部署 ChatGPT Enterprise，使用 GPT-5.4 与 Codex 提升全球员工生产力与宾客体验（来源）
Choco 利用 OpenAI API 自动化食品分销流程（来源）
网络安全：多家安全企业加入 OpenAI Trusted Access for Cyber，获 GPT-5.4-Cyber 与 $10M API 资助（来源）
Sam Altman 发布五项原则，重申 AGI 惠及全人类的使命（来源）

来源 · 42 条