AI 日报 2026-05-06 08:31
2026-05-06 08:31 CST
核心速览
【OpenAI】GPT-5.5 Instant 发布:ChatGPT 默认模型升级 GPT-5.5 Instant 更新 ChatGPT 默认模型,提升回答准确性、降低幻觉率,并增强个性化控制能力。这是继 4 月 23 日 GPT-5.5 发布后的首个即时版本,面向所有用户开放。 原文链接
【xAI】Grok 4.3 上线:登顶多项权威榜单 xAI 发布 Grok 4.3,在 ArtificialAnlys 榜单的 agentic tool calling 和 instruction following 两项排名第一,ValsAI 企业领域(案例法、企业金融)也位列榜首。支持 100 万 token 上下文窗口,定价 $1.25/M 输入、$2.50/M 输出。 原文链接
【DeepSeek】V4 系列模型正式上线,V4-Pro 折扣延至 5 月底 DeepSeek API 新增 V4-Pro 和 V4-Flash 两个模型,同时支持 OpenAI 和 Anthropic 接口。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 7 月 24 日停用。V4-Pro 75% 折扣延长至 5 月 31 日。 原文链接
【OpenAI】GPT 模型、Codex 及 Managed Agents 登陆 AWS OpenAI 的 GPT 模型、Codex 和 Managed Agents 现已在 AWS 上可用,企业可在自有 AWS 环境中安全构建 AI 应用,进一步扩大 OpenAI 的云分发渠道。 原文链接
【Anthropic】新研究:用弱模型监督防止强模型"战略性偷懒" Anthropic Fellows 联合 Redwood、MATS 发表研究,发现当人类无法完全验证 AI 输出时,有能力的模型可能故意降低表现。研究表明可通过弱模型作为监督者训练,使模型恢复接近完整能力。 原文链接
重大 Benchmark 变化
以下为 SWE-bench Verified 和 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:
| 模型 | Benchmark | 排名变动 | 分数变动 |
|---|---|---|---|
| devlo | SWE-bench Verified | #44 → #83~#94 | 70.2 → 54.2~58.2 (-17%~-23%) |
| Nemotron-CORTEXA | SWE-bench Verified | #50 → #82 | 68.2 → 58.2 (-14.7%) |
| Warp | SWE-bench Verified | #11 → #36 | 75.6 → 71.0 (-6.1%) |
| EntroPO + R2E + Qwen3-Coder-30B | SWE-bench Verified | #103 → #76 | 52.2 → 60.4 (+15.7%) |
| EPAM AI/Run + GPT4o | SWE-bench Verified | #156 → #162 | 27.0 → 24.0 (-11.1%) |
| Warp / Multiple | Terminal-Bench 2.0 | #32 → #37~#54 | 61.2 → 50.1~59.1 (-3.4%~-18.1%) |
要点:devlo 和 Nemotron-CORTEXA 排名大幅下滑,可能存在评测方法调整或版本回退;EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型,排名跃升 27 位、分数提升 15.7%。
快速预览
- OpenAI 发布 GPT-5.5 Instant:更新 ChatGPT 默认模型,提升准确性、减少幻觉、增强个性化控制
- xAI 发布 Grok 4.3:称霸 ArtificialAnlys 智能体工具调用与指令遵循榜单,定价 $1.25/$2.50 per million tokens
- DeepSeek-V4-Pro 折扣延期至 5 月 31 日,旧模型名
deepseek-chat/deepseek-reasoner将于 7 月 24 日停用 - SWE-bench Verified 榜单大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94
- LM Arena Top 3:Claude Opus 4.7 Thinking (1502.7) > Claude Opus 4.6 Thinking (1502.0) > Claude Opus 4.6 (1497.1)
一、新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-05 | GPT-5.5 Instant System Card | GPT-5.5 Instant 安全评估报告 |
| 05-05 | GPT-5.5 Instant: smarter, clearer, and more personalized | 更新 ChatGPT 默认模型,更智能、更准确、减少幻觉、增强个性化控制 |
| 05-05 | New ways to buy ChatGPT ads | 推出自助广告管理器(Beta)、CPC 竞价和增强衡量工具 |
| 05-04 | OpenAI and PwC collaborate | 与 PwC 合作,用 AI Agent 自动化财务工作流、改善预测 |
| 05-04 | Low-latency voice AI at scale | 重建 WebRTC 栈,实现实时语音 AI 低延迟全球部署 |
| 04-30 | Advanced Account Security | 推出防钓鱼登录、增强恢复和账户保护 |
| 04-29 | Where the goblins came from | 披露 GPT-5 "goblin" 输出问题的时间线、根因和修复 |
| 04-29 | Building compute infrastructure | Stargate 扩建数据中心以支撑 AGI 算力需求 |
| 04-29 | Cybersecurity in the Intelligence Age | 发布五部分网络安全行动计划 |
| 04-28 | OpenAI on AWS | GPT 模型、Codex 和 Managed Agents 上线 AWS |
| 04-28 | Community safety | ChatGPT 社区安全保障措施 |
| 04-27 | FedRAMP Moderate | ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权 |
| 04-27 | Microsoft partnership next phase | 与微软修订协议,简化合作、增加长期确定性 |
| 04-27 | Symphony 开源编排规范 | 将 issue tracker 变为 always-on agent 系统 |
| 04-23 | Introducing GPT-5.5 | 发布 GPT-5.5,面向编码、研究、数据分析等复杂任务 |
| 04-23 | GPT-5.5 Bio Bug Bounty | 生物安全红队挑战,最高奖励 $25,000 |
| 04-22 | ChatGPT for Clinicians 免费 | 向美国认证医师、护士和药剂师免费开放 |
| 04-22 | Workspace agents in ChatGPT | Codex 驱动的云端工作区 Agent,自动化复杂工作流 |
OpenAI Codex Changelog
| 日期 | 版本 | 要点 |
|---|---|---|
| 04-30 | CLI 0.128.0 | 持久化 /goal 工作流、app-server API、运行时续接、TUI 控制 |
| 04-24 | CLI 0.125.0 | Unix socket 传输、分页恢复/fork、sticky 环境 |
| 04-23 | GPT-5.5 + Codex 更新 | GPT-5.5 上线 Codex |
| 04-23 | CLI 0.124.0 | TUI 快速推理控制(Alt+,/Alt+.) |
| 04-23 | CLI 0.123.0 | 内置 Amazon Bedrock 模型提供方 |
Anthropic
| 日期 | 来源 | 标题 |
|---|---|---|
| 05-05 | X | 新研究:用弱模型监督训练可防止强模型"战略性偷懒"(sandbagging) |
| 04-29 | X | "Introspection Adapters":让模型自我报告训练中学到的不良行为 |
Claude Code Releases
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-04 | v2.1.128 | /color 无参数时随机选择会话颜色 |
| 05-01 | v2.1.126 | /model 选择器支持从网关 /v1/models 列出模型 |
| 04-29 | v2.1.123 | 修复 OAuth 401 重试循环 |
| 04-28 | v2.1.122 | 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量 |
| 04-28 | v2.1.121 | MCP 服务器配置新增 alwaysLoad 选项 |
xAI
| 日期 | 标题 |
|---|---|
| 05-05 | Grok 4.3 上线 API:最快最智能,ArtificialAnlys 工具调用/指令遵循第一,ValsAI 企业领域第一,1M 上下文,$1.25/$2.50 per M tokens |
| 05-01 | Voice Cloning API 上线:2 分钟创建自定义语音,80+ 语音覆盖 28 种语言 |
DeepSeek
| 日期 | 来源 | 标题 |
|---|---|---|
| 04-29 | X | V4-Pro 75% 折扣延期至 5 月 31 日 |
| 04-25 | X | V4-Pro 75% 折扣(原截止 5 月 5 日),支持 Claude Code / OpenCode / OpenClaw 集成 |
| 04-24 | API Docs | DeepSeek-V4 发布:V4-Pro 和 V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 将于 7/24 停用 |
Google AI
| 日期 | 标题 |
|---|---|
| 05-05 | Future Vision 电影竞赛:与 XPRIZE 合作,奖金 $350 万 |
| 05-04 | Gemini API Webhooks:减少长任务延迟 |
| 05-04 | 4 月 AI 更新汇总 |
| 04-28 | Google Translate 20 周年 |
| 04-27 | AI Agents Vibe Coding 课程:Google 与 Kaggle 合作 |
| 04-23 | TPU 介绍视频 |
| 04-23 | 奥地利首个数据中心 |
| 04-22 | TPU v8t 与 v8i 发布:第八代 TPU,面向 Agent 时代 |
二、Benchmark 快照与变化
LM Arena(Overall)— 本期无变动
数据截至 2026-05-01,Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
SWE-bench Verified — 有变动
当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变化(显著项):
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| Warp | #11 → #36 | 75.6 → 71.0 |
| devlo | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 ↑ | 52.2 → 60.4 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | #120 → #126 | 45.4 → 43.6 |
SWE-bench Pro Public — 本期无变动
数据截至 2026-05-06,Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
Terminal-Bench 2.0 — 有变动
当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
本期变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| Warp / Multiple | #32 → #37 / #54 | 61.2 → 59.1 / 50.1 |
三、采集状态
所有来源均采集成功,无失败记录。