AI 日报 2026-04-29 16:12
2026-04-29 16:12 CST
快速预览
- OpenAI 全面上 AWS:GPT 模型、Codex 及 Managed Agents 正式登陆 AWS,企业可在 AWS 环境内直接构建安全 AI 应用。
- OpenAI 发布社区安全承诺:披露 ChatGPT 模型防护、滥用检测、政策执行及与安全专家协作机制。
- SWE-bench Pro Public 快照(2026-04-29):gpt-5.4 (xHigh)* 以 59.1 分领跑,Muse Spark* 55.0 分紧随,claude-opus-4-6 (thinking)* 51.9 分位列第三。
- 榜单无变化:本次采集未检测到排名变动,所有数据为快照状态。
- 来源状态正常:无采集失败来源。
一、新闻
1. OpenAI 模型、Codex 与 Managed Agents 登陆 AWS
OpenAI 宣布其 GPT 系列模型、Codex 编程助手及 Managed Agents 服务现已在 AWS 平台上线。企业客户可在自身 AWS 环境中安全地调用 OpenAI 能力,构建 AI 应用。
来源:OpenAI 官方博客(2026-04-28)
2. OpenAI 发布社区安全承诺
OpenAI 详细介绍了 ChatGPT 的安全保障体系,涵盖模型内置防护、滥用行为检测、平台政策执行,以及与外部安全专家的持续合作。
来源:OpenAI 官方博客(2026-04-28)
二、Benchmark 快照 — SWE-bench Pro Public
采集时间:2026-04-29 08:08 UTC
来源:Scale AI Leaderboard
说明:标注 * 的模型使用了额外推理策略(如 thinking / xHigh 等),与标准推理模式不可直接对比。
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
| 11 | claude-4-5-haiku | 39.45 |
| 12 | qwen3-coder-480b-a35b | 38.7 |
| 13 | minimax-2.1 | 36.81 |
| 14 | gemini-3-flash | 34.63 |
| 15 | gpt-5.2 | 29.94 |
| 16 | kimi-k2-instruct | 27.67 |
| 17 | qwen3-235b-a22b | 21.41 |
| 18 | gpt-oss-120b | 16.2 |
| 19 | deepseek-v3p2 | 15.56 |
| 20 | gemma-3-27b-it | 11.38 |
| 21 | llama3-1-405b-instruct | 11.18 |
| 22 | glm-4.6 | 9.67 |
| 23 | llama4-maverick-17b-instruct | 5.24 |
| 24 | codestral-2405 | 1.51 |
简要观察:
- 前三名均使用了增强推理策略,得分显著拉开差距(59.1 → 51.9)。
- Anthropic 系模型占据 5 个席位(第 3、5、6、8、11 名),覆盖面广。
- 中国厂商模型中,qwen3-coder-480b-a35b(第 12)和 minimax-2.1(第 13)表现相对突出。
三、榜单变化与来源状态
- 榜单变化:本次无排名变动记录。
- 采集失败来源:无。