AI 日报 2026-04-29 16:12

2026-04-29 16:12 CST

快速预览

  • OpenAI 全面上 AWS:GPT 模型、Codex 及 Managed Agents 正式登陆 AWS,企业可在 AWS 环境内直接构建安全 AI 应用。
  • OpenAI 发布社区安全承诺:披露 ChatGPT 模型防护、滥用检测、政策执行及与安全专家协作机制。
  • SWE-bench Pro Public 快照(2026-04-29):gpt-5.4 (xHigh)* 以 59.1 分领跑,Muse Spark* 55.0 分紧随,claude-opus-4-6 (thinking)* 51.9 分位列第三。
  • 榜单无变化:本次采集未检测到排名变动,所有数据为快照状态。
  • 来源状态正常:无采集失败来源。

一、新闻

1. OpenAI 模型、Codex 与 Managed Agents 登陆 AWS

OpenAI 宣布其 GPT 系列模型、Codex 编程助手及 Managed Agents 服务现已在 AWS 平台上线。企业客户可在自身 AWS 环境中安全地调用 OpenAI 能力,构建 AI 应用。

来源:OpenAI 官方博客(2026-04-28)

2. OpenAI 发布社区安全承诺

OpenAI 详细介绍了 ChatGPT 的安全保障体系,涵盖模型内置防护、滥用行为检测、平台政策执行,以及与外部安全专家的持续合作。

来源:OpenAI 官方博客(2026-04-28)


二、Benchmark 快照 — SWE-bench Pro Public

采集时间:2026-04-29 08:08 UTC 来源Scale AI Leaderboard 说明:标注 * 的模型使用了额外推理策略(如 thinking / xHigh 等),与标准推理模式不可直接对比。

排名 模型 得分
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04
11 claude-4-5-haiku 39.45
12 qwen3-coder-480b-a35b 38.7
13 minimax-2.1 36.81
14 gemini-3-flash 34.63
15 gpt-5.2 29.94
16 kimi-k2-instruct 27.67
17 qwen3-235b-a22b 21.41
18 gpt-oss-120b 16.2
19 deepseek-v3p2 15.56
20 gemma-3-27b-it 11.38
21 llama3-1-405b-instruct 11.18
22 glm-4.6 9.67
23 llama4-maverick-17b-instruct 5.24
24 codestral-2405 1.51

简要观察

  • 前三名均使用了增强推理策略,得分显著拉开差距(59.1 → 51.9)。
  • Anthropic 系模型占据 5 个席位(第 3、5、6、8、11 名),覆盖面广。
  • 中国厂商模型中,qwen3-coder-480b-a35b(第 12)和 minimax-2.1(第 13)表现相对突出。

三、榜单变化与来源状态

  • 榜单变化:本次无排名变动记录。
  • 采集失败来源:无。

Sources