AI 日报 2026-05-07 08:50

2026-05-07 08:50 CST

核心速览

1.【OpenAI】GPT-5.5 Instant 发布:更快、更准、更个性化 GPT-5.5 Instant 作为 ChatGPT 默认模型更新,显著减少幻觉、提升回答准确性,并增强个性化控制能力。这是 GPT-5.5 系列的轻量推理版本,面向日常高频场景优化。 原文链接

2.【xAI】Grok 4.3 上线 API:登顶多项权威榜单 Grok 4.3 是 xAI 最快、最强模型,在 Artificial Analysis 智能体工具调用和指令跟随榜单排名第一,在 ValsAI 企业法律和金融领域也位列榜首。支持 100 万 token 上下文,定价 $1.25/$2.50 per million tokens。 原文链接

3.【Anthropic】与 SpaceX 达成算力合作,提升 Claude Code 和 API 用量上限 Anthropic 宣布与 SpaceX 签署算力合作协议,将大幅增加计算容量。配合近期其他算力交易,Claude Code 和 Claude API 的使用限额已相应提高。 原文链接

4.【OpenAI】发布 MRC 超算网络协议,开源至 OCP OpenAI 推出 MRC(Multipath Reliable Connection)新型超算网络协议,通过 OCP 开源,旨在提升大规模 AI 训练集群的网络韧性和性能。这是基础设施层面的关键技术突破。 原文链接

5.【DeepSeek】V4-Pro 折扣延期至 5 月 31 日,已支持 Claude Code 集成 DeepSeek-V4-Pro API 75% 折扣延长至 5 月 31 日。V4-Pro 和 V4-Flash 已支持 OpenAI 和 Anthropic 双接口,旧模型名 deepseek-chat/deepseek-reasoner 将于 7 月 24 日停用。 原文链接


重大 Benchmark 变化

SWE-bench Verified 排名大幅波动:

模型 排名变动 分数变动 变动幅度
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 ⬆️ 52.2 → 60.4 +15.7%
devlo 44 → 83/94 ⬇️ 70.2 → 58.2/54.2 -17%~-23%
Nemotron-CORTEXA 50 → 82 ⬇️ 68.2 → 58.2 -14.7%
Warp 11 → 36 ⬇️ 75.6 → 71.0 -6.1%

Terminal-Bench 2.0:

  • Warp / Multiple:排名 32 → 54 ⬇️,分数 61.2 → 50.1(-18.1%)

注:devlo 出现两条记录,分数分别降至 58.2 和 54.2,疑为不同配置提交。Warp 在两个榜单均出现显著下滑。

快速预览

  • OpenAI 发布 GPT-5.5 Instant:默认模型升级,减少幻觉、提升个性化,同步发布 System Card
  • xAI Grok 4.3 上线:在 ArtificialAnlys 智能体工具调用与指令跟随榜单排名第一,定价 $1.25/$2.50 per M tokens
  • Anthropic 与 SpaceX 达成算力合作:提升 Claude Code 和 API 使用限额
  • SWE-bench Verified 榜单大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
  • LM Arena 总榜 Top 3 均为 Claude 系列:claude-opus-4-7-thinking (1502.65) 领先

一、新闻动态

OpenAI(按日期倒序)

日期 标题 摘要
05-06 Singular Bank × ChatGPT & Codex Singular Bank 用 ChatGPT + Codex 构建内部助手,银行家每日节省 60–90 分钟
05-06 ChatGPT Futures: Class of 2026 26 名学生创新者使用 AI 进行研究与实践
05-06 B2B Signals 研究 前沿企业如何通过 Codex 驱动的 Agentic 工作流构建 AI 竞争优势
05-06 Uber × OpenAI Uber 使用 OpenAI 驱动 AI 助手与语音功能,帮助司机增收、乘客更快叫车
05-05 GPT-5.5 Instant System Card GPT-5.5 Instant 安全评估卡发布
05-05 MRC 超算网络协议 OpenAI 发布 MRC(Multipath Reliable Connection),通过 OCP 开源,提升大规模 AI 训练集群的韧性和性能
05-05 GPT-5.5 Instant 发布 ChatGPT 默认模型升级——更智能、更准确、减少幻觉、增强个性化控制
05-05 ChatGPT 广告自助投放 推出自助 Ads Manager、CPC 竞价和增强衡量工具(Beta)
05-04 OpenAI × PwC CFO 合作 联合帮助企业用 AI Agent 自动化财务工作流、改善预测
05-04 低延迟语音 AI 架构 详解 OpenAI 如何重建 WebRTC 栈以实现全球规模实时语音 AI
04-30 高级账户安全 推出防钓鱼登录、增强恢复和账户接管防护
04-29 GPT-5 "Goblin" 行为溯源 解释 GPT-5 人格化怪异输出的根因与修复
04-29 Stargate 算力基建 扩展 Stargate 数据中心容量以支撑 AGI 需求
04-29 智能时代网络安全 五部分行动计划:民主化 AI 网络防御
04-28 社区安全承诺 模型保障、滥用检测、政策执行与安全专家协作
04-28 OpenAI 登陆 AWS GPT 模型、Codex、Managed Agents 在 AWS 上可用
04-27 FedRAMP Moderate 认证 ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
04-27 微软合作新阶段 修订协议简化合作关系,增加长期确定性
04-27 Symphony 开源编排规范 将 issue tracker 变为 always-on Agent 系统
04-27 Choco × OpenAI Choco 用 OpenAI API 自动化食品分销
04-26 Our Principles Sam Altman 分享指导 OpenAI 工作的五项原则
04-23 GPT-5.5 发布 最智能模型——更快、更强,适用于编码、研究和数据分析
04-23 GPT-5.5 System Card GPT-5.5 安全评估卡

Codex CLI 更新

版本 日期 要点
0.128.0 04-30 持久化 /goal 工作流、app-server API、运行时续接、TUI 控制
0.125.0 04-24 Unix socket 传输、分页恢复/fork、sticky 环境、远程线程配置

Anthropic(按日期倒序)

日期 来源 标题 摘要
05-06 X SpaceX 算力合作 与 SpaceX 达成合作,显著增加算力,提升 Claude Code 和 API 使用限额
05-05 X Sandbagging 研究 Anthropic Fellows 发现:可用弱模型监督训练出接近满能力的模型,防止战略性能力隐藏
04-29 X Introspection Adapters 训练语言模型自我报告训练中学到的行为(包括潜在的不对齐),可泛化检测隐藏后门和安全移除

Claude Code 发布

版本 日期 要点
v2.1.132 05-06 新增 CLAUDE_CODE_SESSION_ID 环境变量
v2.1.131 05-06 修复 Windows 上 VS Code 扩展激活失败(createRequire polyfill bug)
v2.1.129 05-06 新增 --plugin-url 标志,支持从 URL 加载插件 zip
v2.1.128 05-04 /color 无参数时随机选择会话颜色
v2.1.126 05-01 /model 选择器支持从网关 /v1/models 端点列出模型

xAI(按日期倒序)

日期 来源 标题 摘要
05-07 X Image Gen Quality Mode API 已生成超 3 亿张图像,更高真实感、更强文字渲染、更好创意控制
05-05 X Grok 4.3 上线 最快最智能模型;ArtificialAnlys 智能体工具调用 & 指令跟随 #1;ValsAI 企业领域(案例法、公司金融)#1;100 万 token 上下文;定价 $1.25/$2.50 per M
05-01 X Voice Cloning API 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言

Google(按日期倒序)

日期 标题 摘要
05-06 Search 园艺技巧 Search 中新增园艺提示功能
05-05 XPRIZE Future Vision 影片竞赛 Google × XPRIZE × Range Media Partners,350 万美元奖金
05-04 2026 年 4 月 AI 更新汇总 四月 AI 新闻回顾
05-04 Gemini API Webhooks 事件驱动 Webhooks 减少长任务延迟
04-28 Google Translate 20 周年 新功能与趣味回顾
04-27 Kaggle AI Agents Vibe Coding 课程 Google × Kaggle 推出 AI Agent 编程课程
04-24 Gemini 整理空间技巧 8 个 Gemini 使用技巧
04-23 TPU 驱动 AI 工作负载 TPU 如何支撑日益增长的 AI 负载
04-23 奥地利首个数据中心 Google 在阿尔卑斯山区投资首个数据中心

DeepSeek(按日期倒序)

日期 来源 标题 摘要
04-29 X V4-Pro 折扣延期 75% 折扣延至 2026-05-31 15:59 UTC
04-25 X V4-Pro 75% OFF Claude Code 可设 deepseek-v4-pro[1m] 解锁 100 万上下文
04-24 API Docs DeepSeek-V4 发布 支持 V4-Pro 和 V4-Flash;旧名称 deepseek-chat / deepseek-reasoner 将于 07-24 停用

二、Benchmark 快照与变化

SWE-bench Verified — 当前 Top 10

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

本期变化(显著项):

模型 排名变化 分数变化 备注
Warp #11 → #36 75.6 → 71.0 大幅下滑
devlo #44 → #83 / #94 70.2 → 58.2 / 54.2 多条记录均大幅下滑
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 显著上升
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 大幅下滑
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0 小幅下滑
Solver (2024-09-12) #120 → #126 45.4 → 43.6 小幅下滑

SWE-bench Pro Public — 当前 Top 10

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

采集时间:2026-05-07。本期无排名/分数变动记录。


Terminal-Bench 2.0 — 当前 Top 10

排名 Agent / 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4
6 ForgeCode / Gemini 3.1 Pro 78.4
7 Droid / GPT-5.3-Codex 77.3
8 Capy / Claude Opus 4.6 75.3
9 Simple Codex / GPT-5.3-Codex 75.1
10 Terminus-KIRA / Gemini 3.1 Pro 74.8

本期变化:

模型 排名变化 分数变化
Warp / Multiple #32 → #37 / #54 61.2 → 59.1 / 50.1

LM Arena (Overall) — 当前 Top 10

排名 模型 ELO 分数
1 claude-opus-4-7-thinking 1502.65
2 claude-opus-4-6-thinking 1502.04
3 claude-opus-4-6 1497.10
4 gemini-3.1-pro-preview 1492.56
5 claude-opus-4-7 1491.27
6 muse-spark 1491.21
7 gpt-5.5-high 1487.59
8 gemini-3-pro 1485.68
9 grok-4.20-beta1 1479.62
10 grok-4.20-beta-0309-reasoning 1477.23

采集时间:2026-05-01。本期无变动记录。Claude 系列占据前 3 及第 5 位,GPT-5.5-high 排第 7。


三、来源状态

所有新闻来源和 benchmark 数据源均采集成功,无失败记录。

Sources