AI 日报 2026-04-29 18:08

2026-04-29 18:08 CST

快速预览

  • OpenAI 全面上云 AWS:GPT 模型、Codex 及 Managed Agents 正式登陆 AWS,企业可在 AWS 环境内构建安全 AI 应用。
  • GPT-5.5 发布:OpenAI 推出 GPT-5.5,定位为"最强模型",强化编码、研究与数据分析能力;同步发布 System Card 与 Bio Bug Bounty(最高 $25,000)。
  • SWE-bench Pro Public 快照(2026-04-29):gpt-5.4 (xHigh) 以 59.1% 领跑,Muse Spark 55.0% 居次,claude-opus-4-6 (thinking) 51.9% 第三;本次无榜单排名变化。
  • Anthropic Claude Code 连续更新:v2.1.118→v2.1.123 密集发布,新增 vim 可视模式、MCP alwaysLoad、Bedrock 服务层级选择等。
  • OpenAI × Microsoft 合作进入新阶段:双方宣布修订协议,简化合作结构并增加长期确定性。

一、重点新闻

1. OpenAI 产品与平台动态

日期 事件 要点
04-28 OpenAI 模型登陆 AWS GPT 模型、Codex、Managed Agents 全面上架 AWS,企业可在自有 AWS 环境中安全调用。
04-28 社区安全承诺 详述 ChatGPT 的模型防护、滥用检测、政策执行及与安全专家的协作机制。
04-27 FedRAMP Moderate 认证 ChatGPT Enterprise 与 OpenAI API 获 FedRAMP Moderate 授权,面向美国联邦机构开放。
04-27 Microsoft 合作新阶段 双方修订协议,简化合作结构、增加长期确定性,支持大规模 AI 创新。
04-27 Symphony 开源编排规范 将 issue tracker 转化为 always-on agent 系统,减少上下文切换,提升工程产出。
04-23 GPT-5.5 发布 定位"最强模型",强化编码/研究/数据分析跨工具能力;同步发布 System CardBio Bug Bounty(最高 $25,000)。
04-22 ChatGPT Images 2.0 新一代图像生成模型,改进文字渲染、多语言支持与视觉推理。
04-22 Workspace Agents 发布 Codex 驱动的云端 agent,自动化复杂工作流,支持团队跨工具协作。
04-22 OpenAI Privacy Filter 开源权重模型,用于检测和脱敏文本中的 PII,达到 SOTA 准确率。
04-22 ChatGPT for Clinicians 免费开放 面向美国执业医师、执业护士、药剂师免费提供,支持临床护理与文档。
04-21 Codex 企业规模化 推出 Codex Labs,与 Accenture、PwC、Infosys 合作;Codex WAU 达 400 万。
04-16 GPT-Rosalind 发布 面向生命科学的前沿推理模型,加速药物发现、基因组分析与蛋白质推理。
04-16 Codex 桌面端大更新 macOS/Windows 版新增 computer use、应用内浏览、图像生成、记忆与插件。
04-16 网络安全防御生态加速 多家安全企业加入 Trusted Access for Cyber,使用 GPT-5.4-Cyber 与 $10M API 资助。

2. Anthropic 动态

日期 事件 要点
04-16 Claude Opus 4.7 发布 在高级软件工程任务上显著优于 Opus 4.6,尤其在最难任务上提升明显。

3. Claude Code 更新(04-23 → 04-29)

版本 日期 关键变更
v2.1.123 04-29 修复 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 401 重试循环
v2.1.122 04-28 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量,支持 Bedrock 服务层级选择
v2.1.121 04-28 MCP 服务器配置新增 alwaysLoad 选项,跳过工具搜索延迟
v2.1.119 04-23 /config 设置持久化至 ~/.claude/settings.json,参与项目/本地/策略覆盖优先级
v2.1.118 04-23 新增 vim 可视模式 (v) 与可视行模式 (V),支持选择、操作符与视觉反馈

二、Benchmark 快照:SWE-bench Pro Public

采集时间:2026-04-29 10:04 UTC
来源Scale AI Leaderboard
说明:以下为当前快照,本次采集无排名变化。带 * 号为非官方提交。

排名 模型 得分
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04
11 claude-4-5-haiku 39.45
12 qwen3-coder-480b-a35b 38.7
13 minimax-2.1 36.81
14 gemini-3-flash 34.63
15 gpt-5.2 29.94
16 kimi-k2-instruct 27.67
17 qwen3-235b-a22b 21.41
18 gpt-oss-120b 16.2
19 deepseek-v3p2 15.56
20 gemma-3-27b-it 11.38
21 llama3-1-405b-instruct 11.18
22 glm-4.6 9.67
23 llama4-maverick-17b-instruct 5.24
24 codestral-2405 1.51

榜单变化:本次无排名变动。


三、采集状态

  • 所有来源采集正常,无失败记录。
  • Benchmark 变化记录为空(无新增或排名变动)。

Sources