AI 日报 2026-04-29 18:03
2026-04-29 18:03 CST
快速预览
- GPT-5.5 发布:OpenAI 推出 GPT-5.5,定位为"最智能模型",同步发布 System Card 与 Bio Bug Bounty(最高 $25,000)
- OpenAI 全面上 AWS:GPT 模型、Codex、Managed Agents 正式登陆 AWS,企业可在 AWS 环境内构建安全 AI 应用
- Anthropic 发布 Claude Opus 4.7:在高级软件工程任务上较 Opus 4.6 有显著提升;Claude Code 一周内迭代至 v2.1.123
- SWE-bench Pro Public 快照(4/29):gpt-5.4 (xHigh) 以 59.1 分居首,Muse Spark 55.0 分第二,claude-opus-4-6 (thinking) 51.9 分第三
- OpenAI × Microsoft 合作新阶段:双方宣布修订协议,简化合作关系并增加长期确定性
一、重大产品与发布
GPT-5.5 系列(4/23)
| 项目 | 要点 |
|---|---|
| 模型定位 | "最智能模型",面向编码、研究、数据分析等复杂任务 |
| System Card | 已发布,含安全评估详情 |
| Bio Bug Bounty | 红队挑战赛,寻找生物安全风险的通用越狱方法,奖金最高 $25,000 |
| 来源 | Introducing GPT-5.5 · System Card · Bio Bug Bounty |
ChatGPT Images 2.0(4/21)
全新图像生成模型,改进文字渲染、多语言支持与高级视觉推理能力。 → 来源
OpenAI Privacy Filter(4/22)
开源权重模型,用于检测和脱敏文本中的 PII(个人身份信息),号称 SOTA 精度。 → 来源
GPT-Rosalind(4/16)
面向生命科学的前沿推理模型,加速药物发现、基因组分析、蛋白质推理等科研流程。 → 来源
Anthropic — Claude Opus 4.7(4/16)
Opus 4.7 正式发布,在高级软件工程任务上较 Opus 4.6 有明显提升,尤其在最难任务上表现突出。 → 来源
二、平台与生态
OpenAI 全面上 AWS(4/28)
GPT 模型、Codex、Managed Agents 现可在 AWS 环境中使用,企业可在自有 AWS 基础设施内安全构建 AI。 → 来源
OpenAI × Microsoft 合作新阶段(4/27)
修订协议简化合作关系,增加长期确定性,支持大规模 AI 创新。 → 来源
FedRAMP Moderate 认证(4/27)
ChatGPT Enterprise 和 OpenAI API 获 FedRAMP Moderate 授权,美国联邦机构可安全采用。 → 来源
Codex 企业扩展(4/21)
- Codex Labs 成立,与 Accenture、PwC、Infosys 等合作
- Codex WAU 达 400 万 → 来源
Symphony — Codex 编排开源规范(4/27)
将 issue tracker 转化为始终在线的 agent 系统,减少上下文切换,提升工程产出。 → 来源
Workspace Agents in ChatGPT(4/22)
Codex 驱动的云端 agent,可自动化复杂工作流、连接工具、安全扩展团队运营。 → 来源
Codex 应用更新(4/16)
macOS/Windows 版 Codex 新增 computer use、应用内浏览、图像生成、记忆和插件功能。 → 来源
三、安全与合规
| 日期 | 事项 | 来源 |
|---|---|---|
| 4/28 | 社区安全承诺:模型保障、滥用检测、政策执行、安全专家协作 | 链接 |
| 4/26 | Sam Altman 分享五项指导原则 | 链接 |
| 4/23 | GPT-5.5 Bio Bug Bounty($25K) | 链接 |
| 4/16 | 网络安全防御生态:GPT-5.4-Cyber + $10M API 资助 | 链接 |
四、行业应用
- Choco:使用 OpenAI API 自动化食品分销,提升生产力 → 来源
- Hyatt:全球部署 ChatGPT Enterprise(GPT-5.4 + Codex),改善运营与宾客体验 → 来源
- ChatGPT for Clinicians:面向美国执业医师、执业护士、药剂师免费开放 → 来源
五、Claude Code 更新(4/23–4/29)
| 版本 | 日期 | 关键变更 |
|---|---|---|
| v2.1.123 | 4/29 | 修复 OAuth 401 重试循环(CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1) |
| v2.1.122 | 4/28 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量(default/flex/priority) |
| v2.1.121 | 4/28 | MCP server 配置新增 alwaysLoad 选项,跳过 tool-search 延迟 |
| v2.1.119 | 4/23 | /config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级 |
| v2.1.118 | 4/23 | 新增 vim visual mode (v) 和 visual-line mode (V) |
六、Benchmark 快照 — SWE-bench Pro Public(4/29 采集)
说明:以下为 Scale Leaderboard 当前快照,非变化对比(本次无变化数据)。带 * 号表示使用了额外推理策略(如 thinking/xHigh)。
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
| 11 | claude-4-5-haiku | 39.45 |
| 12 | qwen3-coder-480b-a35b | 38.7 |
| 13 | minimax-2.1 | 36.81 |
| 14 | gemini-3-flash | 34.63 |
| 15 | gpt-5.2 | 29.94 |
| 16 | kimi-k2-instruct | 27.67 |
| 17 | qwen3-235b-a22b | 21.41 |
| 18 | gpt-oss-120b | 16.2 |
| 19 | deepseek-v3p2 | 15.56 |
| 20 | gemma-3-27b-it | 11.38 |
→ 来源:Scale SWE-bench Pro Public Leaderboard
快照观察:
- 前三名均使用了增强推理策略(xHigh / thinking),分数差距约 4–7 分
- Anthropic 系模型占据 4 个席位(#3, #5, #6, #8, #11),覆盖从旗舰到轻量级
- 中国厂商中 qwen3-coder-480b(#12, 38.7)和 minimax-2.1(#13, 36.81)表现较好
- 注意:本次无 benchmark 变化数据,以上为纯快照,无法判断排名升降
七、采集状态
- 所有来源采集成功,无失败记录
- Benchmark 变化数据为空(无对比基线)