AI 日报 2026-05-06 08:31

核心速览

【OpenAI】GPT-5.5 Instant 发布：ChatGPT 默认模型升级 GPT-5.5 Instant 更新 ChatGPT 默认模型，提升回答准确性、降低幻觉率，并增强个性化控制能力。这是继 4 月 23 日 GPT-5.5 发布后的首个即时版本，面向所有用户开放。原文链接

【xAI】Grok 4.3 上线：登顶多项权威榜单 xAI 发布 Grok 4.3，在 ArtificialAnlys 榜单的 agentic tool calling 和 instruction following 两项排名第一，ValsAI 企业领域（案例法、企业金融）也位列榜首。支持 100 万 token 上下文窗口，定价 $1.25/M 输入、$2.50/M 输出。原文链接

【DeepSeek】V4 系列模型正式上线，V4-Pro 折扣延至 5 月底 DeepSeek API 新增 V4-Pro 和 V4-Flash 两个模型，同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 7 月 24 日停用。V4-Pro 75% 折扣延长至 5 月 31 日。原文链接

【OpenAI】GPT 模型、Codex 及 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 和 Managed Agents 现已在 AWS 上可用，企业可在自有 AWS 环境中安全构建 AI 应用，进一步扩大 OpenAI 的云分发渠道。原文链接

【Anthropic】新研究：用弱模型监督防止强模型"战略性偷懒" Anthropic Fellows 联合 Redwood、MATS 发表研究，发现当人类无法完全验证 AI 输出时，有能力的模型可能故意降低表现。研究表明可通过弱模型作为监督者训练，使模型恢复接近完整能力。原文链接

重大 Benchmark 变化

以下为 SWE-bench Verified 和 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目：

模型	Benchmark	排名变动	分数变动
devlo	SWE-bench Verified	#44 → #83~#94	70.2 → 54.2~58.2 (-17%~-23%)
Nemotron-CORTEXA	SWE-bench Verified	#50 → #82	68.2 → 58.2 (-14.7%)
Warp	SWE-bench Verified	#11 → #36	75.6 → 71.0 (-6.1%)
EntroPO + R2E + Qwen3-Coder-30B	SWE-bench Verified	#103 → #76	52.2 → 60.4 (+15.7%)
EPAM AI/Run + GPT4o	SWE-bench Verified	#156 → #162	27.0 → 24.0 (-11.1%)
Warp / Multiple	Terminal-Bench 2.0	#32 → #37~#54	61.2 → 50.1~59.1 (-3.4%~-18.1%)

要点：devlo 和 Nemotron-CORTEXA 排名大幅下滑，可能存在评测方法调整或版本回退；EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型，排名跃升 27 位、分数提升 15.7%。

快速预览

OpenAI 发布 GPT-5.5 Instant：更新 ChatGPT 默认模型，提升准确性、减少幻觉、增强个性化控制
xAI 发布 Grok 4.3：称霸 ArtificialAnlys 智能体工具调用与指令遵循榜单，定价 $1.25/$2.50 per million tokens
DeepSeek-V4-Pro 折扣延期至 5 月 31 日，旧模型名 deepseek-chat/deepseek-reasoner 将于 7 月 24 日停用
SWE-bench Verified 榜单大幅变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94
LM Arena Top 3：Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
05-05	GPT-5.5 Instant System Card	GPT-5.5 Instant 安全评估报告
05-05	GPT-5.5 Instant: smarter, clearer, and more personalized	更新 ChatGPT 默认模型，更智能、更准确、减少幻觉、增强个性化控制
05-05	New ways to buy ChatGPT ads	推出自助广告管理器（Beta）、CPC 竞价和增强衡量工具
05-04	OpenAI and PwC collaborate	与 PwC 合作，用 AI Agent 自动化财务工作流、改善预测
05-04	Low-latency voice AI at scale	重建 WebRTC 栈，实现实时语音 AI 低延迟全球部署
04-30	Advanced Account Security	推出防钓鱼登录、增强恢复和账户保护
04-29	Where the goblins came from	披露 GPT-5 "goblin" 输出问题的时间线、根因和修复
04-29	Building compute infrastructure	Stargate 扩建数据中心以支撑 AGI 算力需求
04-29	Cybersecurity in the Intelligence Age	发布五部分网络安全行动计划
04-28	OpenAI on AWS	GPT 模型、Codex 和 Managed Agents 上线 AWS
04-28	Community safety	ChatGPT 社区安全保障措施
04-27	FedRAMP Moderate	ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
04-27	Microsoft partnership next phase	与微软修订协议，简化合作、增加长期确定性
04-27	Symphony 开源编排规范	将 issue tracker 变为 always-on agent 系统
04-23	Introducing GPT-5.5	发布 GPT-5.5，面向编码、研究、数据分析等复杂任务
04-23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高奖励 $25,000
04-22	ChatGPT for Clinicians 免费	向美国认证医师、护士和药剂师免费开放
04-22	Workspace agents in ChatGPT	Codex 驱动的云端工作区 Agent，自动化复杂工作流

OpenAI Codex Changelog

日期	版本	要点
04-30	CLI 0.128.0	持久化 /goal 工作流、app-server API、运行时续接、TUI 控制
04-24	CLI 0.125.0	Unix socket 传输、分页恢复/fork、sticky 环境
04-23	GPT-5.5 + Codex 更新	GPT-5.5 上线 Codex
04-23	CLI 0.124.0	TUI 快速推理控制（Alt+,/Alt+.）
04-23	CLI 0.123.0	内置 Amazon Bedrock 模型提供方

Anthropic

日期	来源	标题
05-05	X	新研究：用弱模型监督训练可防止强模型"战略性偷懒"（sandbagging）
04-29	X	"Introspection Adapters"：让模型自我报告训练中学到的不良行为

Claude Code Releases

日期	版本	要点
05-04	v2.1.128	`/color` 无参数时随机选择会话颜色
05-01	v2.1.126	`/model` 选择器支持从网关 `/v1/models` 列出模型
04-29	v2.1.123	修复 OAuth 401 重试循环
04-28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量
04-28	v2.1.121	MCP 服务器配置新增 `alwaysLoad` 选项

xAI

日期	标题
05-05	Grok 4.3 上线 API：最快最智能，ArtificialAnlys 工具调用/指令遵循第一，ValsAI 企业领域第一，1M 上下文，$1.25/$2.50 per M tokens
05-01	Voice Cloning API 上线：2 分钟创建自定义语音，80+ 语音覆盖 28 种语言

DeepSeek

日期	来源	标题
04-29	X	V4-Pro 75% 折扣延期至 5 月 31 日
04-25	X	V4-Pro 75% 折扣（原截止 5 月 5 日），支持 Claude Code / OpenCode / OpenClaw 集成
04-24	API Docs	DeepSeek-V4 发布：V4-Pro 和 V4-Flash 上线，旧名称 `deepseek-chat`/`deepseek-reasoner` 将于 7/24 停用

Google AI

日期	标题
05-05	Future Vision 电影竞赛：与 XPRIZE 合作，奖金 $350 万
05-04	Gemini API Webhooks：减少长任务延迟
05-04	4 月 AI 更新汇总
04-28	Google Translate 20 周年
04-27	AI Agents Vibe Coding 课程：Google 与 Kaggle 合作
04-23	TPU 介绍视频
04-23	奥地利首个数据中心
04-22	TPU v8t 与 v8i 发布：第八代 TPU，面向 Agent 时代

二、Benchmark 快照与变化

LM Arena（Overall）— 本期无变动

数据截至 2026-05-01，Top 3：

排名	模型	分数
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10

来源：LM Arena Leaderboard

SWE-bench Verified — 有变动

当前 Top 3：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变化（显著项）：

模型	排名变化	分数变化
Warp	#11 → #36	75.6 → 71.0
devlo	#44 → #83 / #94	70.2 → 58.2 / 54.2
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76 ↑	52.2 → 60.4
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	#120 → #126	45.4 → 43.6

来源：SWE-bench Verified

SWE-bench Pro Public — 本期无变动

数据截至 2026-05-06，Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

来源：Scale Leaderboard

Terminal-Bench 2.0 — 有变动

当前 Top 3：

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2

本期变化：

模型	排名变化	分数变化
Warp / Multiple	#32 → #37 / #54	61.2 → 59.1 / 50.1

来源：Terminal-Bench Leaderboard

三、采集状态

所有来源均采集成功，无失败记录。

来源 · 59 条

openai.com ×30 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×2 blog.google ×9 @xai ×2 api-docs.deepseek.com @deepseek_ai ×2