AI 日报 2026-05-07 08:50
2026-05-07 08:50 CST
核心速览
1.【OpenAI】GPT-5.5 Instant 发布:更快、更准、更个性化 GPT-5.5 Instant 作为 ChatGPT 默认模型更新,显著减少幻觉、提升回答准确性,并增强个性化控制能力。这是 GPT-5.5 系列的轻量推理版本,面向日常高频场景优化。 原文链接
2.【xAI】Grok 4.3 上线 API:登顶多项权威榜单 Grok 4.3 是 xAI 最快、最强模型,在 Artificial Analysis 智能体工具调用和指令跟随榜单排名第一,在 ValsAI 企业法律和金融领域也位列榜首。支持 100 万 token 上下文,定价 $1.25/$2.50 per million tokens。 原文链接
3.【Anthropic】与 SpaceX 达成算力合作,提升 Claude Code 和 API 用量上限 Anthropic 宣布与 SpaceX 签署算力合作协议,将大幅增加计算容量。配合近期其他算力交易,Claude Code 和 Claude API 的使用限额已相应提高。 原文链接
4.【OpenAI】发布 MRC 超算网络协议,开源至 OCP OpenAI 推出 MRC(Multipath Reliable Connection)新型超算网络协议,通过 OCP 开源,旨在提升大规模 AI 训练集群的网络韧性和性能。这是基础设施层面的关键技术突破。 原文链接
5.【DeepSeek】V4-Pro 折扣延期至 5 月 31 日,已支持 Claude Code 集成 DeepSeek-V4-Pro API 75% 折扣延长至 5 月 31 日。V4-Pro 和 V4-Flash 已支持 OpenAI 和 Anthropic 双接口,旧模型名 deepseek-chat/deepseek-reasoner 将于 7 月 24 日停用。 原文链接
重大 Benchmark 变化
SWE-bench Verified 排名大幅波动:
| 模型 | 排名变动 | 分数变动 | 变动幅度 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 ⬆️ | 52.2 → 60.4 | +15.7% |
| devlo | 44 → 83/94 ⬇️ | 70.2 → 58.2/54.2 | -17%~-23% |
| Nemotron-CORTEXA | 50 → 82 ⬇️ | 68.2 → 58.2 | -14.7% |
| Warp | 11 → 36 ⬇️ | 75.6 → 71.0 | -6.1% |
Terminal-Bench 2.0:
- Warp / Multiple:排名 32 → 54 ⬇️,分数 61.2 → 50.1(-18.1%)
注:devlo 出现两条记录,分数分别降至 58.2 和 54.2,疑为不同配置提交。Warp 在两个榜单均出现显著下滑。
快速预览
- OpenAI 发布 GPT-5.5 Instant:默认模型升级,减少幻觉、提升个性化,同步发布 System Card
- xAI Grok 4.3 上线:在 ArtificialAnlys 智能体工具调用与指令跟随榜单排名第一,定价 $1.25/$2.50 per M tokens
- Anthropic 与 SpaceX 达成算力合作:提升 Claude Code 和 API 使用限额
- SWE-bench Verified 榜单大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
- LM Arena 总榜 Top 3 均为 Claude 系列:claude-opus-4-7-thinking (1502.65) 领先
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-06 | Singular Bank × ChatGPT & Codex | Singular Bank 用 ChatGPT + Codex 构建内部助手,银行家每日节省 60–90 分钟 |
| 05-06 | ChatGPT Futures: Class of 2026 | 26 名学生创新者使用 AI 进行研究与实践 |
| 05-06 | B2B Signals 研究 | 前沿企业如何通过 Codex 驱动的 Agentic 工作流构建 AI 竞争优势 |
| 05-06 | Uber × OpenAI | Uber 使用 OpenAI 驱动 AI 助手与语音功能,帮助司机增收、乘客更快叫车 |
| 05-05 | GPT-5.5 Instant System Card | GPT-5.5 Instant 安全评估卡发布 |
| 05-05 | MRC 超算网络协议 | OpenAI 发布 MRC(Multipath Reliable Connection),通过 OCP 开源,提升大规模 AI 训练集群的韧性和性能 |
| 05-05 | GPT-5.5 Instant 发布 | ChatGPT 默认模型升级——更智能、更准确、减少幻觉、增强个性化控制 |
| 05-05 | ChatGPT 广告自助投放 | 推出自助 Ads Manager、CPC 竞价和增强衡量工具(Beta) |
| 05-04 | OpenAI × PwC CFO 合作 | 联合帮助企业用 AI Agent 自动化财务工作流、改善预测 |
| 05-04 | 低延迟语音 AI 架构 | 详解 OpenAI 如何重建 WebRTC 栈以实现全球规模实时语音 AI |
| 04-30 | 高级账户安全 | 推出防钓鱼登录、增强恢复和账户接管防护 |
| 04-29 | GPT-5 "Goblin" 行为溯源 | 解释 GPT-5 人格化怪异输出的根因与修复 |
| 04-29 | Stargate 算力基建 | 扩展 Stargate 数据中心容量以支撑 AGI 需求 |
| 04-29 | 智能时代网络安全 | 五部分行动计划:民主化 AI 网络防御 |
| 04-28 | 社区安全承诺 | 模型保障、滥用检测、政策执行与安全专家协作 |
| 04-28 | OpenAI 登陆 AWS | GPT 模型、Codex、Managed Agents 在 AWS 上可用 |
| 04-27 | FedRAMP Moderate 认证 | ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权 |
| 04-27 | 微软合作新阶段 | 修订协议简化合作关系,增加长期确定性 |
| 04-27 | Symphony 开源编排规范 | 将 issue tracker 变为 always-on Agent 系统 |
| 04-27 | Choco × OpenAI | Choco 用 OpenAI API 自动化食品分销 |
| 04-26 | Our Principles | Sam Altman 分享指导 OpenAI 工作的五项原则 |
| 04-23 | GPT-5.5 发布 | 最智能模型——更快、更强,适用于编码、研究和数据分析 |
| 04-23 | GPT-5.5 System Card | GPT-5.5 安全评估卡 |
Codex CLI 更新
| 版本 | 日期 | 要点 |
|---|---|---|
| 0.128.0 | 04-30 | 持久化 /goal 工作流、app-server API、运行时续接、TUI 控制 |
| 0.125.0 | 04-24 | Unix socket 传输、分页恢复/fork、sticky 环境、远程线程配置 |
Anthropic(按日期倒序)
| 日期 | 来源 | 标题 | 摘要 |
|---|---|---|---|
| 05-06 | X | SpaceX 算力合作 | 与 SpaceX 达成合作,显著增加算力,提升 Claude Code 和 API 使用限额 |
| 05-05 | X | Sandbagging 研究 | Anthropic Fellows 发现:可用弱模型监督训练出接近满能力的模型,防止战略性能力隐藏 |
| 04-29 | X | Introspection Adapters | 训练语言模型自我报告训练中学到的行为(包括潜在的不对齐),可泛化检测隐藏后门和安全移除 |
Claude Code 发布
| 版本 | 日期 | 要点 |
|---|---|---|
| v2.1.132 | 05-06 | 新增 CLAUDE_CODE_SESSION_ID 环境变量 |
| v2.1.131 | 05-06 | 修复 Windows 上 VS Code 扩展激活失败(createRequire polyfill bug) |
| v2.1.129 | 05-06 | 新增 --plugin-url 标志,支持从 URL 加载插件 zip |
| v2.1.128 | 05-04 | /color 无参数时随机选择会话颜色 |
| v2.1.126 | 05-01 | /model 选择器支持从网关 /v1/models 端点列出模型 |
xAI(按日期倒序)
| 日期 | 来源 | 标题 | 摘要 |
|---|---|---|---|
| 05-07 | X | Image Gen Quality Mode API | 已生成超 3 亿张图像,更高真实感、更强文字渲染、更好创意控制 |
| 05-05 | X | Grok 4.3 上线 | 最快最智能模型;ArtificialAnlys 智能体工具调用 & 指令跟随 #1;ValsAI 企业领域(案例法、公司金融)#1;100 万 token 上下文;定价 $1.25/$2.50 per M |
| 05-01 | X | Voice Cloning API | 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言 |
Google(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-06 | Search 园艺技巧 | Search 中新增园艺提示功能 |
| 05-05 | XPRIZE Future Vision 影片竞赛 | Google × XPRIZE × Range Media Partners,350 万美元奖金 |
| 05-04 | 2026 年 4 月 AI 更新汇总 | 四月 AI 新闻回顾 |
| 05-04 | Gemini API Webhooks | 事件驱动 Webhooks 减少长任务延迟 |
| 04-28 | Google Translate 20 周年 | 新功能与趣味回顾 |
| 04-27 | Kaggle AI Agents Vibe Coding 课程 | Google × Kaggle 推出 AI Agent 编程课程 |
| 04-24 | Gemini 整理空间技巧 | 8 个 Gemini 使用技巧 |
| 04-23 | TPU 驱动 AI 工作负载 | TPU 如何支撑日益增长的 AI 负载 |
| 04-23 | 奥地利首个数据中心 | Google 在阿尔卑斯山区投资首个数据中心 |
DeepSeek(按日期倒序)
| 日期 | 来源 | 标题 | 摘要 |
|---|---|---|---|
| 04-29 | X | V4-Pro 折扣延期 | 75% 折扣延至 2026-05-31 15:59 UTC |
| 04-25 | X | V4-Pro 75% OFF | Claude Code 可设 deepseek-v4-pro[1m] 解锁 100 万上下文 |
| 04-24 | API Docs | DeepSeek-V4 发布 | 支持 V4-Pro 和 V4-Flash;旧名称 deepseek-chat / deepseek-reasoner 将于 07-24 停用 |
二、Benchmark 快照与变化
SWE-bench Verified — 当前 Top 10
| 排名 | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
本期变化(显著项):
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| Warp | #11 → #36 | 75.6 → 71.0 | 大幅下滑 |
| devlo | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 | 多条记录均大幅下滑 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 显著上升 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 大幅下滑 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 | 小幅下滑 |
| Solver (2024-09-12) | #120 → #126 | 45.4 → 43.6 | 小幅下滑 |
SWE-bench Pro Public — 当前 Top 10
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
采集时间:2026-05-07。本期无排名/分数变动记录。
Terminal-Bench 2.0 — 当前 Top 10
| 排名 | Agent / 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 |
| 6 | ForgeCode / Gemini 3.1 Pro | 78.4 |
| 7 | Droid / GPT-5.3-Codex | 77.3 |
| 8 | Capy / Claude Opus 4.6 | 75.3 |
| 9 | Simple Codex / GPT-5.3-Codex | 75.1 |
| 10 | Terminus-KIRA / Gemini 3.1 Pro | 74.8 |
本期变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| Warp / Multiple | #32 → #37 / #54 | 61.2 → 59.1 / 50.1 |
LM Arena (Overall) — 当前 Top 10
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
| 4 | gemini-3.1-pro-preview | 1492.56 |
| 5 | claude-opus-4-7 | 1491.27 |
| 6 | muse-spark | 1491.21 |
| 7 | gpt-5.5-high | 1487.59 |
| 8 | gemini-3-pro | 1485.68 |
| 9 | grok-4.20-beta1 | 1479.62 |
| 10 | grok-4.20-beta-0309-reasoning | 1477.23 |
采集时间:2026-05-01。本期无变动记录。Claude 系列占据前 3 及第 5 位,GPT-5.5-high 排第 7。
三、来源状态
所有新闻来源和 benchmark 数据源均采集成功,无失败记录。