AI 日报 2026-05-08 08:56
2026-05-08 08:56 CST
核心速览
2026年5月7日 AI 行业日报(快速版)
1. 【OpenAI】GPT-5.5 Instant 发布:更智能、更准确、更个性化
GPT-5.5 Instant 成为 ChatGPT 新默认模型,显著降低幻觉率,提升回答准确性,并增强个性化控制能力。这是 OpenAI 近期最重要的基础模型升级,直接影响数亿用户的日常体验。 原文链接
2. 【xAI】Grok 4.3 上线:登顶多项权威排行榜
Grok 4.3 在 xAI API 上线,支持 100 万 token 上下文窗口,定价 $1.25/M 输入、$2.50/M 输出。该模型在 Artificial Analysis 的 agentic tool calling 和 instruction following 排行榜中排名第一,同时在 ValsAI 企业级场景(案例法、企业金融)中也位列榜首。 原文链接
3. 【Anthropic】与 SpaceX 达成算力合作,提升 Claude 使用限额
Anthropic 宣布与 SpaceX 达成算力合作协议,将大幅增加其计算资源。配合近期其他算力交易,Claude Code 和 Claude API 的使用限额已相应提高,标志着 Anthropic 在算力基础设施上的重大投入。 原文链接
4. 【OpenAI】ChatGPT 开始测试广告
OpenAI 正式在 ChatGPT 中测试广告,旨在维持免费用户的访问。广告将明确标注,不影响回答内容独立性,并配备强隐私保护和用户控制选项。同时推出自助广告管理器和 CPC 竞价模式。 原文链接
5. 【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs
Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营,同时发布重大更新,提升测试的适应性、真实性和深度。此举体现了 Anthropic 将安全工具生态化的战略思路。 原文链接
重大 Benchmark 变化
SWE-bench Verified 排名显著变动:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #83/#94 | 70.2 → 58.2/54.2 | 大幅下滑,分数降幅超 17% |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 排名下跌 32 位,分数降 14.7% |
| Warp | #11 → #36 | 75.6 → 71.0 | 排名下跌 25 位,跌出头部梯队 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 逆势上升 27 位,分数提升 15.7% |
Terminal Bench 2.0:
- Warp / Multiple:#32 → #37/#54,分数从 61.2 降至 59.1/50.1,表现持续走弱。
本轮变动中,devlo 和 Nemotron-CORTEXA 的大幅下滑值得关注,可能与评测方法调整或模型回退有关;EntroPO + Qwen3-Coder 组合则是本轮最大赢家。
快速预览
- OpenAI 发布 GPT-5.5 及 GPT-5.5-Cyber,扩展网络安全 Trusted Access,同日推出 GPT-5.5 Instant 更新默认模型
- xAI Grok 4.3 上线 API,称在 Artificial Analys 工具调用与指令跟随榜单排名第一,定价 $1.25/$2.50 per million tokens
- Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs,并公开 HackerOne 安全漏洞赏金计划;与 SpaceX 达成算力合作
- SWE-bench Verified 榜单大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94,EntroPO+Qwen3-Coder 从 #103 升至 #76
- LM Arena 总榜 Top 3 均为 Anthropic Claude 系列:claude-opus-4-7-thinking (1502.65)、claude-opus-4-6-thinking (1502.04)、claude-opus-4-6 (1497.10)
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-07 | GPT-5.5 & GPT-5.5-Cyber Trusted Access | 扩展网络安全可信访问,帮助防御者加速漏洞研究 |
| 05-07 | Parloa 客服语音 Agent | Parloa 基于 OpenAI 模型构建可扩展的语音客服 Agent |
| 05-07 | 新实时语音模型 API | 推出可推理、翻译、转录的实时语音模型 |
| 05-07 | ChatGPT Trusted Contact | 检测到严重自伤风险时通知信任联系人的安全功能 |
| 05-07 | ChatGPT 广告测试 | 开始在 ChatGPT 中测试广告,支持免费用户使用 |
| 05-07 | Codex Chrome 扩展 | Codex 新增 Chrome 扩展,可在浏览器标签页中并行工作 |
| 05-07 | Codex CLI 0.129.0 | TUI 支持 Vim 模态编辑 |
| 05-06 | ChatGPT Futures 2026 | 26 名学生创新者计划 |
| 05-06 | B2B Signals 研究 | 前沿企业 AI 采纳深度研究 |
| 05-05 | GPT-5.5 Instant | 更新 ChatGPT 默认模型,减少幻觉、提升个性化 |
| 05-05 | MRC 超算网络协议 | 通过 OCP 发布新网络协议,提升大规模训练集群韧性 |
| 05-05 | ChatGPT 广告自助平台 | 推出 Ads Manager Beta、CPC 竞价和增强度量工具 |
| 05-04 | OpenAI × PwC CFO 协作 | AI Agent 自动化财务工作流 |
Anthropic
| 日期 | 来源 | 标题 | 摘要 |
|---|---|---|---|
| 05-07 | X | Petri 捐赠 Meridian Labs | 将开源对齐工具 Petri 捐赠给独立机构,并发布重大更新 |
| 05-07 | X | Bug Bounty 公开 | HackerOne 安全漏洞赏金计划转为公开 |
| 05-06 | X | SpaceX 算力合作 | 与 SpaceX 达成算力合作,提升 Claude Code 和 API 使用限额 |
Claude Code 发版
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-07 | v2.1.133 | 新增 worktree.baseRef 设置,默认改为 origin/ 基准 |
| 05-06 | v2.1.132 | Bash 子进程暴露 CLAUDE_CODE_SESSION_ID 环境变量 |
| 05-06 | v2.1.131 | 修复 Windows VS Code 扩展激活失败 |
| 05-06 | v2.1.129 | 新增 --plugin-url 标志 |
| 05-04 | v2.1.128 | /color 无参数时随机选色 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-07 | 图片生成 Quality Mode API | 已生成超 3 亿张图片,更强真实感和文字渲染 |
| 05-05 | Grok 4.3 上线 API | 称在 Artificial Analys 工具调用/指令跟随榜单第一,ValsAI 企业领域第一;1M 上下文,$1.25/$2.50 per M tokens |
| 05-01 | Voice Cloning API | 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言 |
DeepSeek
| 日期 | 标题 | 摘要 |
|---|---|---|
| 04-29 | V4-Pro 折扣延长 | DeepSeek-V4-Pro 75% 折扣延长至 5 月 31 日;支持 Claude Code / OpenCode / OpenClaw 集成 |
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-06 | Search 园艺提示 | Search 新增园艺 AI 功能 |
| 05-05 | XPRIZE 电影竞赛 | 与 XPRIZE 合作 $350 万 AI 电影竞赛 |
| 05-04 | Gemini API Webhooks | 新增 Webhooks 降低长任务延迟 |
| 04-27 | Kaggle Vibe Coding 课程 | Google × Kaggle 推出 AI Agent 编程课程 |
二、Benchmark 快照与变化
SWE-bench Verified — 当前 Top 10
| 排名 | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
Top 3 无变动。 以下为中下游显著变化:
| 模型 | 变化 | 旧排名→新排名 | 旧分→新分 |
|---|---|---|---|
| Warp | 排名+分数下降 | #11 → #36 | 75.6 → 71.0 |
| devlo | 排名+分数大幅下降 | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 |
| Nemotron-CORTEXA | 排名+分数下降 | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | 排名+分数上升 | #103 → #76 | 52.2 → 60.4 |
| EPAM AI/Run + GPT4o | 排名+分数下降 | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | 排名+分数下降 | #120 → #126 | 45.4 → 43.6 |
SWE-bench Pro Public — 当前 Top 10
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
本期无变动。 快照时间:2026-05-08。
Terminal-Bench 2.0 — 当前 Top 10
| 排名 | Agent / 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
| 6 | ForgeCode / Gemini 3.1 Pro | 78.4 |
| 7 | Droid / GPT-5.3-Codex | 77.3 |
| 8 | Capy / Claude Opus 4.6 | 75.3 |
| 9 | Simple Codex / GPT-5.3-Codex | 75.1 |
| 10 | Terminus-KIRA / Gemini 3.1 Pro | 74.8 |
变化:
| 模型 | 变化 | 旧排名→新排名 | 旧分→新分 |
|---|---|---|---|
| Warp / Multiple | 排名+分数下降 | #32 → #37 / #54 | 61.2 → 59.1 / 50.1 |
LM Arena (Overall) — 当前 Top 10
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
| 4 | gemini-3.1-pro-preview | 1492.56 |
| 5 | claude-opus-4-7 | 1491.27 |
| 6 | muse-spark | 1491.21 |
| 7 | gpt-5.5-high | 1487.59 |
| 8 | gemini-3-pro | 1485.68 |
| 9 | grok-4.20-beta1 | 1479.62 |
| 10 | grok-4.20-beta-0309-reasoning | 1477.23 |
本期无变动。 快照时间:2026-05-01。
来源:LM Arena
三、来源状态
所有新闻来源和 benchmark 数据均采集成功,无失败来源。