快速预览
- OpenAI 全面上 AWS:GPT 模型、Codex、Managed Agents 已登陆 AWS,企业可在自有 AWS 环境中构建安全 AI 应用。
- GPT-5.5 发布:OpenAI 最新旗舰模型,主打编码、研究与数据分析,同步推出 System Card 和 Bio Bug Bounty(最高 $25,000)。
- Anthropic 发布 Claude Opus 4.7:在高级软件工程任务上较 Opus 4.6 有显著提升;Claude Code 一周内迭代至 v2.1.123。
- SWE-bench Pro Public 快照(4/29):gpt-5.4 (xHigh) 以 59.1% 领跑,Muse Spark 55.0% 居次,claude-opus-4-6 (thinking) 51.9% 第三;无榜单排名变化。
- OpenAI 与微软修订合作协议:简化合作结构、增加长期确定性,支持大规模 AI 创新。
一、重大新闻
1. OpenAI 产品与平台动态
| 日期 |
事件 |
要点 |
| 4/28 |
OpenAI 上线 AWS |
GPT 模型、Codex、Managed Agents 全面上 AWS Marketplace,企业可在 AWS 环境内安全调用 |
| 4/28 |
社区安全承诺 |
公布 ChatGPT 模型安全防护、滥用检测、政策执行及与安全专家协作机制 |
| 4/27 |
FedRAMP Moderate 认证 |
ChatGPT Enterprise 和 OpenAI API 获 FedRAMP Moderate 授权,面向美国联邦机构 |
| 4/27 |
微软合作新阶段 |
双方修订协议,简化合作结构并增加长期确定性 |
| 4/27 |
Symphony 开源编排规范 |
将 issue tracker 转化为持续运行的 agent 系统,减少上下文切换 |
| 4/26 |
OpenAI 五项原则 |
Sam Altman 分享指导 OpenAI 工作的五项核心原则 |
2. GPT-5.5 发布(4/23)
3. Codex 生态扩展
4. Anthropic 动态
| 日期 |
事件 |
要点 |
| 4/16 |
Claude Opus 4.7 发布 |
较 Opus 4.6 在高级软件工程任务上显著提升,尤其在最难任务上 |
| 4/29 |
Claude Code v2.1.123 |
修复 OAuth 401 重试循环(CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1) |
| 4/28 |
Claude Code v2.1.122 |
新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,支持 Bedrock 服务层级选择 |
| 4/28 |
Claude Code v2.1.121 |
MCP server 配置新增 alwaysLoad 选项,跳过工具搜索延迟 |
| 4/23 |
Claude Code v2.1.119 |
/config 设置持久化至 ~/.claude/settings.json |
| 4/23 |
Claude Code v2.1.118 |
新增 vim visual mode(v)和 visual-line mode(V) |
5. 行业应用案例
- Choco:使用 OpenAI API 自动化食品分销流程(来源)
- Hyatt:全球部署 ChatGPT Enterprise,使用 GPT-5.4 和 Codex 提升运营效率(来源)
- 医疗:ChatGPT for Clinicians 对美国执业医师、执业护士和药剂师免费开放(来源)
- 网络安全:GPT-5.4-Cyber + $10M API 资助计划,联合安全厂商强化全球网络防御(来源)
二、Benchmark 快照:SWE-bench Pro Public(2026-04-29 采集)
来源:Scale AI Leaderboard。标注 * 的条目使用了额外推理/工具配置。本次无排名变化。
| 排名 |
模型 |
得分 |
| 1 |
gpt-5.4 (xHigh)* |
59.1 |
| 2 |
Muse Spark* |
55.0 |
| 3 |
claude-opus-4-6 (thinking)* |
51.9 |
| 4 |
gemini-3.1-pro (thinking)* |
46.1 |
| 5 |
claude-opus-4-5-20251101 |
45.89 |
| 6 |
claude-4-5-Sonnet |
43.6 |
| 7 |
gemini-3-pro-preview |
43.3 |
| 8 |
claude-4-Sonnet |
42.7 |
| 9 |
gpt-5-2025-08-07 (High) |
41.78 |
| 10 |
gpt-5.2-codex |
41.04 |
观察:前三名均使用了增强推理配置(thinking/xHigh),gpt-5.4 (xHigh) 领先第二名 4.1 个百分点。Anthropic 系模型占据 3/6/8/11 四个席位,Google Gemini 系占据 4/7/14 三个席位。开源模型中 qwen3-coder-480b-a35b(38.7,第 12)表现最佳。
三、来源状态
- 所有新闻来源采集正常,无失败记录。
- Benchmark 数据为单次快照(2026-04-29 10:14 UTC),无历史变化可对比。