AI 日报 2026-04-29 18:18

2026-04-29 18:18 CST

快速预览

  • OpenAI 全面上 AWS:GPT 模型、Codex、Managed Agents 已登陆 AWS,企业可在自有 AWS 环境中构建安全 AI 应用。
  • GPT-5.5 发布:OpenAI 最新旗舰模型,主打编码、研究与数据分析,同步推出 System Card 和 Bio Bug Bounty(最高 $25,000)。
  • Anthropic 发布 Claude Opus 4.7:在高级软件工程任务上较 Opus 4.6 有显著提升;Claude Code 一周内迭代至 v2.1.123。
  • SWE-bench Pro Public 快照(4/29):gpt-5.4 (xHigh) 以 59.1% 领跑,Muse Spark 55.0% 居次,claude-opus-4-6 (thinking) 51.9% 第三;无榜单排名变化。
  • OpenAI 与微软修订合作协议:简化合作结构、增加长期确定性,支持大规模 AI 创新。

一、重大新闻

1. OpenAI 产品与平台动态

日期 事件 要点
4/28 OpenAI 上线 AWS GPT 模型、Codex、Managed Agents 全面上 AWS Marketplace,企业可在 AWS 环境内安全调用
4/28 社区安全承诺 公布 ChatGPT 模型安全防护、滥用检测、政策执行及与安全专家协作机制
4/27 FedRAMP Moderate 认证 ChatGPT Enterprise 和 OpenAI API 获 FedRAMP Moderate 授权,面向美国联邦机构
4/27 微软合作新阶段 双方修订协议,简化合作结构并增加长期确定性
4/27 Symphony 开源编排规范 将 issue tracker 转化为持续运行的 agent 系统,减少上下文切换
4/26 OpenAI 五项原则 Sam Altman 分享指导 OpenAI 工作的五项核心原则

2. GPT-5.5 发布(4/23)

  • GPT-5.5 介绍:OpenAI 最新旗舰模型,面向编码、研究、数据分析等复杂任务。
  • System Card:同步发布安全评估文档。
  • Bio Bug Bounty:针对生物安全风险的红队挑战,奖金最高 $25,000。
  • GPT-5.5 已集成至 Codex 应用(changelog)。

3. Codex 生态扩展

日期 事件 来源
4/24 Codex CLI 0.125.0:Unix socket 传输、分页恢复/分叉、sticky 环境 changelog
4/23 Codex CLI 0.124.0:TUI 快速推理控制(Alt+,/Alt+.) changelog
4/23 Codex CLI 0.123.0:内置 Amazon Bedrock 模型提供者 changelog
4/22 Workspace Agents 发布 Codex 驱动的 ChatGPT 工作区 agent,自动化复杂工作流
4/22 WebSockets 加速 agent 工作流 连接级缓存降低 API 开销和模型延迟
4/22 OpenAI Privacy Filter 开源权重 PII 检测与脱敏模型
4/21 ChatGPT Images 2.0 新一代图像生成模型,改进文字渲染、多语言支持和视觉推理
4/21 Codex 企业扩展 推出 Codex Labs,与 Accenture/PwC/Infosys 合作;Codex WAU 达 400 万
4/16 Codex 桌面端大更新 新增 computer use、应用内浏览、图像生成、记忆和插件
4/16 GPT-Rosalind 面向生命科学的前沿推理模型,加速药物发现和基因组分析

4. Anthropic 动态

日期 事件 要点
4/16 Claude Opus 4.7 发布 较 Opus 4.6 在高级软件工程任务上显著提升,尤其在最难任务上
4/29 Claude Code v2.1.123 修复 OAuth 401 重试循环(CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1
4/28 Claude Code v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,支持 Bedrock 服务层级选择
4/28 Claude Code v2.1.121 MCP server 配置新增 alwaysLoad 选项,跳过工具搜索延迟
4/23 Claude Code v2.1.119 /config 设置持久化至 ~/.claude/settings.json
4/23 Claude Code v2.1.118 新增 vim visual mode(v)和 visual-line mode(V

5. 行业应用案例

  • Choco:使用 OpenAI API 自动化食品分销流程(来源
  • Hyatt:全球部署 ChatGPT Enterprise,使用 GPT-5.4 和 Codex 提升运营效率(来源
  • 医疗:ChatGPT for Clinicians 对美国执业医师、执业护士和药剂师免费开放(来源
  • 网络安全:GPT-5.4-Cyber + $10M API 资助计划,联合安全厂商强化全球网络防御(来源

二、Benchmark 快照:SWE-bench Pro Public(2026-04-29 采集)

来源:Scale AI Leaderboard。标注 * 的条目使用了额外推理/工具配置。本次无排名变化。

排名 模型 得分
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

观察:前三名均使用了增强推理配置(thinking/xHigh),gpt-5.4 (xHigh) 领先第二名 4.1 个百分点。Anthropic 系模型占据 3/6/8/11 四个席位,Google Gemini 系占据 4/7/14 三个席位。开源模型中 qwen3-coder-480b-a35b(38.7,第 12)表现最佳。


三、来源状态

  • 所有新闻来源采集正常,无失败记录。
  • Benchmark 数据为单次快照(2026-04-29 10:14 UTC),无历史变化可对比。

Sources