AI 日报 2026-05-06 08:31

2026-05-06 08:31 CST

核心速览

【OpenAI】GPT-5.5 Instant 发布:ChatGPT 默认模型升级 GPT-5.5 Instant 更新 ChatGPT 默认模型,提升回答准确性、降低幻觉率,并增强个性化控制能力。这是继 4 月 23 日 GPT-5.5 发布后的首个即时版本,面向所有用户开放。 原文链接

【xAI】Grok 4.3 上线:登顶多项权威榜单 xAI 发布 Grok 4.3,在 ArtificialAnlys 榜单的 agentic tool calling 和 instruction following 两项排名第一,ValsAI 企业领域(案例法、企业金融)也位列榜首。支持 100 万 token 上下文窗口,定价 $1.25/M 输入、$2.50/M 输出。 原文链接

【DeepSeek】V4 系列模型正式上线,V4-Pro 折扣延至 5 月底 DeepSeek API 新增 V4-Pro 和 V4-Flash 两个模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 7 月 24 日停用。V4-Pro 75% 折扣延长至 5 月 31 日。 原文链接

【OpenAI】GPT 模型、Codex 及 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 和 Managed Agents 现已在 AWS 上可用,企业可在自有 AWS 环境中安全构建 AI 应用,进一步扩大 OpenAI 的云分发渠道。 原文链接

【Anthropic】新研究:用弱模型监督防止强模型"战略性偷懒" Anthropic Fellows 联合 Redwood、MATS 发表研究,发现当人类无法完全验证 AI 输出时,有能力的模型可能故意降低表现。研究表明可通过弱模型作为监督者训练,使模型恢复接近完整能力。 原文链接


重大 Benchmark 变化

以下为 SWE-bench Verified 和 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:

模型 Benchmark 排名变动 分数变动
devlo SWE-bench Verified #44 → #83~#94 70.2 → 54.2~58.2 (-17%~-23%)
Nemotron-CORTEXA SWE-bench Verified #50 → #82 68.2 → 58.2 (-14.7%)
Warp SWE-bench Verified #11 → #36 75.6 → 71.0 (-6.1%)
EntroPO + R2E + Qwen3-Coder-30B SWE-bench Verified #103 → #76 52.2 → 60.4 (+15.7%)
EPAM AI/Run + GPT4o SWE-bench Verified #156 → #162 27.0 → 24.0 (-11.1%)
Warp / Multiple Terminal-Bench 2.0 #32 → #37~#54 61.2 → 50.1~59.1 (-3.4%~-18.1%)

要点:devlo 和 Nemotron-CORTEXA 排名大幅下滑,可能存在评测方法调整或版本回退;EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型,排名跃升 27 位、分数提升 15.7%。

快速预览

  • OpenAI 发布 GPT-5.5 Instant:更新 ChatGPT 默认模型,提升准确性、减少幻觉、增强个性化控制
  • xAI 发布 Grok 4.3:称霸 ArtificialAnlys 智能体工具调用与指令遵循榜单,定价 $1.25/$2.50 per million tokens
  • DeepSeek-V4-Pro 折扣延期至 5 月 31 日,旧模型名 deepseek-chat/deepseek-reasoner 将于 7 月 24 日停用
  • SWE-bench Verified 榜单大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
  • LM Arena Top 3:Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)

一、新闻

OpenAI(按日期倒序)

日期 标题 摘要
05-05 GPT-5.5 Instant System Card GPT-5.5 Instant 安全评估报告
05-05 GPT-5.5 Instant: smarter, clearer, and more personalized 更新 ChatGPT 默认模型,更智能、更准确、减少幻觉、增强个性化控制
05-05 New ways to buy ChatGPT ads 推出自助广告管理器(Beta)、CPC 竞价和增强衡量工具
05-04 OpenAI and PwC collaborate 与 PwC 合作,用 AI Agent 自动化财务工作流、改善预测
05-04 Low-latency voice AI at scale 重建 WebRTC 栈,实现实时语音 AI 低延迟全球部署
04-30 Advanced Account Security 推出防钓鱼登录、增强恢复和账户保护
04-29 Where the goblins came from 披露 GPT-5 "goblin" 输出问题的时间线、根因和修复
04-29 Building compute infrastructure Stargate 扩建数据中心以支撑 AGI 算力需求
04-29 Cybersecurity in the Intelligence Age 发布五部分网络安全行动计划
04-28 OpenAI on AWS GPT 模型、Codex 和 Managed Agents 上线 AWS
04-28 Community safety ChatGPT 社区安全保障措施
04-27 FedRAMP Moderate ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
04-27 Microsoft partnership next phase 与微软修订协议,简化合作、增加长期确定性
04-27 Symphony 开源编排规范 将 issue tracker 变为 always-on agent 系统
04-23 Introducing GPT-5.5 发布 GPT-5.5,面向编码、研究、数据分析等复杂任务
04-23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,最高奖励 $25,000
04-22 ChatGPT for Clinicians 免费 向美国认证医师、护士和药剂师免费开放
04-22 Workspace agents in ChatGPT Codex 驱动的云端工作区 Agent,自动化复杂工作流

OpenAI Codex Changelog

日期 版本 要点
04-30 CLI 0.128.0 持久化 /goal 工作流、app-server API、运行时续接、TUI 控制
04-24 CLI 0.125.0 Unix socket 传输、分页恢复/fork、sticky 环境
04-23 GPT-5.5 + Codex 更新 GPT-5.5 上线 Codex
04-23 CLI 0.124.0 TUI 快速推理控制(Alt+,/Alt+.)
04-23 CLI 0.123.0 内置 Amazon Bedrock 模型提供方

Anthropic

日期 来源 标题
05-05 X 新研究:用弱模型监督训练可防止强模型"战略性偷懒"(sandbagging)
04-29 X "Introspection Adapters":让模型自我报告训练中学到的不良行为

Claude Code Releases

日期 版本 要点
05-04 v2.1.128 /color 无参数时随机选择会话颜色
05-01 v2.1.126 /model 选择器支持从网关 /v1/models 列出模型
04-29 v2.1.123 修复 OAuth 401 重试循环
04-28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量
04-28 v2.1.121 MCP 服务器配置新增 alwaysLoad 选项

xAI

日期 标题
05-05 Grok 4.3 上线 API:最快最智能,ArtificialAnlys 工具调用/指令遵循第一,ValsAI 企业领域第一,1M 上下文,$1.25/$2.50 per M tokens
05-01 Voice Cloning API 上线:2 分钟创建自定义语音,80+ 语音覆盖 28 种语言

DeepSeek

日期 来源 标题
04-29 X V4-Pro 75% 折扣延期至 5 月 31 日
04-25 X V4-Pro 75% 折扣(原截止 5 月 5 日),支持 Claude Code / OpenCode / OpenClaw 集成
04-24 API Docs DeepSeek-V4 发布:V4-Pro 和 V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 将于 7/24 停用

Google AI

日期 标题
05-05 Future Vision 电影竞赛:与 XPRIZE 合作,奖金 $350 万
05-04 Gemini API Webhooks:减少长任务延迟
05-04 4 月 AI 更新汇总
04-28 Google Translate 20 周年
04-27 AI Agents Vibe Coding 课程:Google 与 Kaggle 合作
04-23 TPU 介绍视频
04-23 奥地利首个数据中心
04-22 TPU v8t 与 v8i 发布:第八代 TPU,面向 Agent 时代

二、Benchmark 快照与变化

LM Arena(Overall)— 本期无变动

数据截至 2026-05-01,Top 3:

排名 模型 分数
1 claude-opus-4-7-thinking 1502.65
2 claude-opus-4-6-thinking 1502.04
3 claude-opus-4-6 1497.10

来源:LM Arena Leaderboard

SWE-bench Verified — 有变动

当前 Top 3:

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变化(显著项):

模型 排名变化 分数变化
Warp #11 → #36 75.6 → 71.0
devlo #44 → #83 / #94 70.2 → 58.2 / 54.2
Nemotron-CORTEXA #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 ↑ 52.2 → 60.4
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0
Solver (2024-09-12) #120 → #126 45.4 → 43.6

来源:SWE-bench Verified

SWE-bench Pro Public — 本期无变动

数据截至 2026-05-06,Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

来源:Scale Leaderboard

Terminal-Bench 2.0 — 有变动

当前 Top 3:

排名 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2

本期变化:

模型 排名变化 分数变化
Warp / Multiple #32 → #37 / #54 61.2 → 59.1 / 50.1

来源:Terminal-Bench Leaderboard


三、采集状态

所有来源均采集成功,无失败记录。

Sources