AI 日报 2026-05-10 08:36
2026-05-10 08:36 CST
核心速览
1. 【OpenAI】ChatGPT 开始测试广告
OpenAI 正式在 ChatGPT 中测试广告,以支持免费用户的使用。广告将明确标注,不影响回答内容的独立性,并提供强隐私保护和用户控制选项。这标志着 ChatGPT 商业化进入新阶段。 原文链接
2. 【xAI】Grok 4.3 发布,登顶多项排行榜
xAI 发布 Grok 4.3,称其为"最快、最智能的模型"。该模型在 ArtificialAnlys 的 Agentic Tool Calling 和指令跟随排行榜排名第一,在 ValsAI 的法律和企业金融领域也位列榜首,支持 100 万 token 上下文窗口,定价 $1.25/$2.50 per million tokens。 原文链接
3. 【OpenAI】GPT-5.5 Instant 更新默认模型
GPT-5.5 Instant 更新为 ChatGPT 的默认模型,带来更智能、更准确的回答,显著减少幻觉,并改进个性化控制。同时发布的还有 GPT-5.5-Cyber,面向网络安全防御场景的专用模型。 原文链接
4. 【Anthropic】将对齐工具 Petri 捐赠给 Meridian Labs
Anthropic 将开源对齐测试工具 Petri 捐赠给 Meridian Labs 以独立运营,同时发布重大更新,提升了测试的适应性、真实性和深度。此举旨在推动 AI 安全评估工具的社区化发展。 原文链接
5. 【OpenAI】Codex 推出 Chrome 扩展
Codex 发布 Chrome 浏览器扩展,可在后台跨标签页并行工作,与网页和应用交互,且不会接管浏览器。用户可自主控制 Codex 可访问的网站范围。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 变动幅度 |
|---|---|---|---|
| devlo | #44 → #83/94 | 70.2 → 54.2~58.2 | 排名 ↓39-50,分数 ↓17-23% |
| Warp | #11 → #36 | 75.6 → 71.0 | 排名 ↓25,分数 ↓6.1% |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 排名 ↑27,分数 ↑15.7% |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 排名 ↓32,分数 ↓14.7% |
Terminal Bench 2.0
| 模型 | 排名变动 | 分数变动 | 变动幅度 |
|---|---|---|---|
| Warp / Multiple | #32 → #37~54 | 61.2 → 50.1~59.1 | 排名 ↓5-22,分数 ↓3.4-18.1% |
值得关注:devlo 和 Warp 在 SWE-bench 上大幅下滑,devlo 分数降幅超 23%;EntroPO + Qwen3-Coder-30B 则逆市上升 27 位,分数提升 15.7%,表现抢眼。Warp 在两个 Benchmark 上同时下跌,需关注原因。
快速预览
- OpenAI 5/8 发布 Codex 安全运行白皮书,涵盖沙箱、审批、网络策略与 agent 原生遥测;同期 Codex 推出 Chrome 扩展(详情)
- xAI Grok 4.3 上线 API,称在 ArtificialAnlys 工具调用/指令跟随榜单及 ValsAI 企业域排名第一,定价 $1.25/$2.50 per M tokens(来源)
- OpenAI 测试 ChatGPT 广告并推出自服务平台 Ads Manager(beta),含 CPC 竞价(详情)
- Anthropic 将开源对齐工具 Petri 捐赠给 Meridian Labs,并公开 HackerOne 安全赏金计划(来源)
- Benchmark 重点变化:SWE-bench Verified 中 Warp 从 #11 跌至 #36(75.6→71.0),devlo 从 #44 跌至 #83/#94;LM Arena 整体排名前 3 均为 Claude Opus 系列
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-08 | Running Codex safely | Codex 安全运行方案:沙箱、审批、网络策略、agent 原生遥测 |
| 05-07 | GPT-5.5 & GPT-5.5-Cyber Trusted Access | 扩展网络安全 Trusted Access,面向已验证防御者 |
| 05-07 | Parloa 客户服务案例 | Parloa 用 OpenAI 模型驱动语音客服 agent |
| 05-07 | 新实时语音模型上线 API | 新 realtime voice 模型支持推理、翻译、转录 |
| 05-07 | ChatGPT 测试广告 | 开始在 ChatGPT 中测试广告,明确标注、隐私保护、用户可控 |
| 05-07 | Trusted Contact 功能 | 检测到严重自伤风险时通知用户信任的联系人 |
| 05-07 | Simplex 案例 | Simplex 用 Codex 加速设计、构建与测试 |
| 05-06 | ChatGPT 隐私保护 | 减少训练中的个人数据,用户可控制是否用于改进模型 |
| 05-06 | Uber 案例 | Uber 用 OpenAI 驱动 AI 助手与语音功能 |
| 05-06 | B2B Signals 研究 | 前沿企业如何通过 AI 采纳建立竞争优势 |
| 05-06 | ChatGPT Futures 2026 | 26 名学生创新者计划 |
| 05-06 | Singular Bank 案例 | 银行家每日节省 60-90 分钟 |
| 05-05 | MRC 网络协议 | 新超算网络协议 MRC,通过 OCP 开源发布 |
| 05-05 | GPT-5.5 Instant | 更新默认模型,更智能、减少幻觉、增强个性化 |
| 05-05 | GPT-5.5 Instant System Card | 系统安全卡发布 |
| 05-05 | EMEA 青少年安全 | 欧洲青少年安全蓝图与资助计划 |
| 05-05 | ChatGPT 广告自服务 | Beta Ads Manager + CPC 竞价 + 增强度量工具 |
| 05-04 | OpenAI × PwC CFO 协作 | AI agent 自动化财务流程 |
| 05-04 | 低延迟语音 AI 基础设施 | 重构 WebRTC 栈实现全球低延迟语音 AI |
| 04-30 | 高级账户安全 | 抗钓鱼登录、更强恢复机制 |
| 04-29 | GPT-5「goblin」输出溯源 | 人格化怪异输出的根因与修复 |
| 04-29 | Stargate 基础设施 | 扩展 Stargate 超算容量 |
| 04-29 | 网络安全行动计划 | 五部分行动方案强化 AI 时代网络安全 |
| 04-28 | OpenAI 登陆 AWS | GPT 模型、Codex、Managed Agents 上线 AWS |
| 04-28 | 社区安全承诺 | 模型防护、滥用检测、政策执行 |
| 04-27 | FedRAMP Moderate 授权 | ChatGPT Enterprise 和 API 获 FedRAMP 中级授权 |
| 04-27 | 微软合作新阶段 | 修订协议简化合作关系 |
| 04-27 | Symphony 开源编排规范 | Codex 编排的开源规范 |
| 04-27 | Choco 案例 | 食品分销 AI agent 自动化 |
| 04-26 | Our Principles | Sam Altman 分享五项指导原则 |
OpenAI Codex Changelog
| 日期 | 更新 |
|---|---|
| 05-07 | Codex for Chrome — 新 Chrome 扩展,支持跨标签页后台并行操作 |
| 05-06 | Analytics 治理文档更新 — 补充 Analytics 图表、数据导出、API 端点说明 |
Anthropic / Claude Code(按日期倒序)
Claude Code 版本更新:
| 版本 | 日期 | 要点 |
|---|---|---|
| v2.1.138 | 05-09 | 内部修复 |
| v2.1.137 | 05-09 | 修复 VSCode 扩展在 Windows 上激活失败 |
| v2.1.136 | 05-08 | 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL 环境变量 |
| v2.1.133 | 05-07 | 新增 worktree.baseRef 设置(fresh | head),默认值变更 |
| v2.1.132 | 05-06 | Bash 子进程新增 CLAUDE_CODE_SESSION_ID 环境变量 |
Anthropic X 动态:
| 日期 | 内容 |
|---|---|
| 05-07 | 将开源对齐工具 Petri 捐赠给 Meridian Labs 并发布重大更新,提升测试适应性、真实性与深度 |
| 05-07 | 安全赏金计划公开上线 HackerOne — 任何人可报告漏洞并获得奖励 |
xAI(按日期倒序)
| 日期 | 内容 |
|---|---|
| 05-08 | Grok 连接器扩展 — Grok 可读取邮件、整理日历、管理 Notion,所有套餐可用 |
| 05-07 | Image Gen Quality Mode 上线 API — 已生成超 3 亿张图像,更高真实感与文字渲染 |
| 05-05 | Grok 4.3 上线 API — 号称 ArtificialAnlys 工具调用/指令跟随第一、ValsAI 企业域第一;1M 上下文,$1.25/$2.50 per M tokens |
| 05-01 | Voice Cloning 上线 API — 2 分钟创建自定义声音,80+ 声音库、28 种语言 |
DeepSeek(按日期倒序)
| 日期 | 内容 |
|---|---|
| 04-29 | DeepSeek-V4-Pro 折扣延长至 5/31 — 75% OFF,支持 Claude Code / OpenCode / OpenClaw 集成 |
Google Blog AI(按日期倒序)
| 日期 | 内容 |
|---|---|
| 05-08 | 创意传奇为小企业用 AI 制作广告 |
| 05-06 | Search 中的园艺技巧 |
| 05-05 | XPRIZE Future Vision 电影竞赛 — $350 万奖金 |
| 05-04 | 2026 年 4 月 AI 更新汇总 |
| 05-04 | Gemini API Webhooks — 降低长时间任务延迟 |
| 04-28 | Google Translate 20 周年 |
| 04-27 | Kaggle AI Agents Vibe Coding 课程 |
二、Benchmark 快照与变化
LM Arena(整体)
快照日期:2026-05-01 · 数据来源
| 排名 | 模型 | 分数 |
|---|---|---|
| #1 | claude-opus-4-7-thinking | 1502.65 |
| #2 | claude-opus-4-6-thinking | 1502.04 |
| #3 | claude-opus-4-6 | 1497.10 |
| #4 | gemini-3.1-pro-preview | 1492.56 |
| #5 | claude-opus-4-7 | 1491.27 |
本期无排名变化数据。
SWE-bench Verified(Top 10 快照)
快照日期不一 · 数据来源
| 排名 | 模型 | 分数 |
|---|---|---|
| #1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| #2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| #3 | TRAE + Doubao-Seed-Code | 78.8 |
| #4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 |
| #5 | Atlassian Rovo Dev | 76.8 |
本期变化(显著项):
| 模型 | 排名变化 | 分数变化 | 说明 |
|---|---|---|---|
| Warp | #11 → #36 | 75.6 → 71.0 | 大幅下滑 25 位 |
| devlo | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 | 两个条目均显著下降 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | 下滑 32 位 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | 上升 27 位,分数提升明显 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 | 小幅下滑 |
| Solver (2024-09-12) | #120 → #126 | 45.4 → 43.6 | 小幅下滑 |
SWE-bench Pro Public(Top 10 快照)
快照日期:2026-05-10 · 数据来源
| 排名 | 模型 | 分数 |
|---|---|---|
| #1 | gpt-5.4 (xHigh)* | 59.1 |
| #2 | Muse Spark* | 55.0 |
| #3 | claude-opus-4-6 (thinking)* | 51.9 |
| #4 | gemini-3.1-pro (thinking)* | 46.1 |
| #5 | claude-opus-4-5-20251101 | 45.89 |
本期无排名变化数据。
Terminal-bench 2.0(Top 10 快照)
快照日期不一 · 数据来源
| 排名 | 模型 | 分数 |
|---|---|---|
| #1 | Codex CLI / GPT-5.5 | 82.0 |
| #2 | ForgeCode / GPT-5.4 | 81.8 |
| #3 | TongAgents / Gemini 3.1 Pro | 80.2 |
| #4 | ForgeCode / Claude Opus 4.6 | 79.8 |
| #5 | SageAgent / GPT-5.3-Codex | 78.4 |
本期变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| Warp / Multiple | #32 → #37 / #54 | 61.2 → 59.1 / 50.1 |
三、来源状态
所有计划来源均已成功采集,无采集失败来源。