AI 日报 2026-04-29 18:03

2026-04-29 18:03 CST

快速预览

  • GPT-5.5 发布:OpenAI 推出 GPT-5.5,定位为"最智能模型",同步发布 System Card 与 Bio Bug Bounty(最高 $25,000)
  • OpenAI 全面上 AWS:GPT 模型、Codex、Managed Agents 正式登陆 AWS,企业可在 AWS 环境内构建安全 AI 应用
  • Anthropic 发布 Claude Opus 4.7:在高级软件工程任务上较 Opus 4.6 有显著提升;Claude Code 一周内迭代至 v2.1.123
  • SWE-bench Pro Public 快照(4/29):gpt-5.4 (xHigh) 以 59.1 分居首,Muse Spark 55.0 分第二,claude-opus-4-6 (thinking) 51.9 分第三
  • OpenAI × Microsoft 合作新阶段:双方宣布修订协议,简化合作关系并增加长期确定性

一、重大产品与发布

GPT-5.5 系列(4/23)

项目 要点
模型定位 "最智能模型",面向编码、研究、数据分析等复杂任务
System Card 已发布,含安全评估详情
Bio Bug Bounty 红队挑战赛,寻找生物安全风险的通用越狱方法,奖金最高 $25,000
来源 Introducing GPT-5.5 · System Card · Bio Bug Bounty

ChatGPT Images 2.0(4/21)

全新图像生成模型,改进文字渲染、多语言支持与高级视觉推理能力。 → 来源

OpenAI Privacy Filter(4/22)

开源权重模型,用于检测和脱敏文本中的 PII(个人身份信息),号称 SOTA 精度。 → 来源

GPT-Rosalind(4/16)

面向生命科学的前沿推理模型,加速药物发现、基因组分析、蛋白质推理等科研流程。 → 来源

Anthropic — Claude Opus 4.7(4/16)

Opus 4.7 正式发布,在高级软件工程任务上较 Opus 4.6 有明显提升,尤其在最难任务上表现突出。 → 来源


二、平台与生态

OpenAI 全面上 AWS(4/28)

GPT 模型、Codex、Managed Agents 现可在 AWS 环境中使用,企业可在自有 AWS 基础设施内安全构建 AI。 → 来源

OpenAI × Microsoft 合作新阶段(4/27)

修订协议简化合作关系,增加长期确定性,支持大规模 AI 创新。 → 来源

FedRAMP Moderate 认证(4/27)

ChatGPT Enterprise 和 OpenAI API 获 FedRAMP Moderate 授权,美国联邦机构可安全采用。 → 来源

Codex 企业扩展(4/21)

  • Codex Labs 成立,与 Accenture、PwC、Infosys 等合作
  • Codex WAU 达 400 万来源

Symphony — Codex 编排开源规范(4/27)

将 issue tracker 转化为始终在线的 agent 系统,减少上下文切换,提升工程产出。 → 来源

Workspace Agents in ChatGPT(4/22)

Codex 驱动的云端 agent,可自动化复杂工作流、连接工具、安全扩展团队运营。 → 来源

Codex 应用更新(4/16)

macOS/Windows 版 Codex 新增 computer use、应用内浏览、图像生成、记忆和插件功能。 → 来源


三、安全与合规

日期 事项 来源
4/28 社区安全承诺:模型保障、滥用检测、政策执行、安全专家协作 链接
4/26 Sam Altman 分享五项指导原则 链接
4/23 GPT-5.5 Bio Bug Bounty($25K) 链接
4/16 网络安全防御生态:GPT-5.4-Cyber + $10M API 资助 链接

四、行业应用

  • Choco:使用 OpenAI API 自动化食品分销,提升生产力 → 来源
  • Hyatt:全球部署 ChatGPT Enterprise(GPT-5.4 + Codex),改善运营与宾客体验 → 来源
  • ChatGPT for Clinicians:面向美国执业医师、执业护士、药剂师免费开放 → 来源

五、Claude Code 更新(4/23–4/29)

版本 日期 关键变更
v2.1.123 4/29 修复 OAuth 401 重试循环(CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1
v2.1.122 4/28 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量(default/flex/priority)
v2.1.121 4/28 MCP server 配置新增 alwaysLoad 选项,跳过 tool-search 延迟
v2.1.119 4/23 /config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级
v2.1.118 4/23 新增 vim visual mode (v) 和 visual-line mode (V)

Release Notes · Changelog


六、Benchmark 快照 — SWE-bench Pro Public(4/29 采集)

说明:以下为 Scale Leaderboard 当前快照,非变化对比(本次无变化数据)。带 * 号表示使用了额外推理策略(如 thinking/xHigh)。

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04
11 claude-4-5-haiku 39.45
12 qwen3-coder-480b-a35b 38.7
13 minimax-2.1 36.81
14 gemini-3-flash 34.63
15 gpt-5.2 29.94
16 kimi-k2-instruct 27.67
17 qwen3-235b-a22b 21.41
18 gpt-oss-120b 16.2
19 deepseek-v3p2 15.56
20 gemma-3-27b-it 11.38

→ 来源:Scale SWE-bench Pro Public Leaderboard

快照观察

  • 前三名均使用了增强推理策略(xHigh / thinking),分数差距约 4–7 分
  • Anthropic 系模型占据 4 个席位(#3, #5, #6, #8, #11),覆盖从旗舰到轻量级
  • 中国厂商中 qwen3-coder-480b(#12, 38.7)和 minimax-2.1(#13, 36.81)表现较好
  • 注意:本次无 benchmark 变化数据,以上为纯快照,无法判断排名升降

七、采集状态

  • 所有来源采集成功,无失败记录
  • Benchmark 变化数据为空(无对比基线)

Sources