AI 日报 2026-05-17 08:35
2026-05-17 08:35 CST
核心速览
【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中测试广告投放以支撑免费用户访问,广告将明确标注、与回答内容隔离,并提供隐私保护和用户控制选项。标志着 OpenAI 商业模式的重要转变,从纯订阅制向广告变现延伸。 原文链接
【xAI】Grok 4.3 发布,登顶多项排行榜 xAI 发布 Grok 4.3,称其为最快、最智能模型,在 Artificial Analysis 的 agentic tool calling 和指令遵循排行榜排名第一,ValsAI 企业法律与金融领域也位列榜首。支持 100 万 token 上下文,定价 $1.25/M input、$2.50/M output。 原文链接
【OpenAI】GPT-5.5 Instant 更新默认模型 OpenAI 更新 ChatGPT 默认模型 GPT-5.5 Instant,提升回答准确性和个性化能力,同时显著降低幻觉率。作为用户量最大的默认模型,此次更新将直接影响数亿用户的日常体验。 原文链接
【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作,承诺投入 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的 grants、Claude 额度和技术支持。这是 AI 公司在公益领域最大规模的单笔承诺之一。 原文链接
【OpenAI × Databricks】GPT-5.5 进入企业 Agent 工作流 Databricks 将 GPT-5.5 引入企业级 Agent 工作流,该模型在 OfficeQA Pro 基准测试中创下新纪录。标志着前沿模型加速渗透企业数据平台生态。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B | 103 → 76 ⬆️ | 52.2 → 60.4 (+15.7%) |
| devlo | 44 → 83/94 ⬇️ | 70.2 → 58.2/54.2 (-17%~-23%) |
| Warp | 11 → 36 ⬇️ | 75.6 → 71.0 (-6.1%) |
| Nemotron-CORTEXA | 50 → 82 ⬇️ | 68.2 → 58.2 (-14.7%) |
Terminal-bench 2.0
| 模型 | 排名变动 | 分数变动 |
|---|---|---|
| LemonHarness / Multiple | 11 → 4 ⬆️ | 79.9 → 84.5 (+5.8%) |
| Warp / Multiple | 45 → 69 ⬇️ | 61.2 → 50.1 (-18.1%) |
关注点:EntroPO + Qwen3-Coder-30B 在 SWE-bench 上排名跃升 27 位,分数提升 15.7%,表现突出;Warp 在两个榜单均出现明显下滑。
快速预览
- OpenAI 马耳他合作:为全体公民提供 ChatGPT Plus 及 AI 培训(5/16)
- xAI 发布 Grok Build:面向 SuperGrok Heavy 用户的 CLI 编程工具公测(5/14)
- Anthropic × 盖茨基金会:承诺 2 亿美元资助全球健康、教育等领域(5/14)
- LM Arena 榜首:claude-opus-4-6-thinking 以 1501.5 分领跑总榜
- SWE-bench Verified 重大变动:Warp 排名从 #11 跌至 #36,devlo 从 #44 暴跌至 #83/#94
一、行业新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-16 | 马耳他合作:ChatGPT Plus 惠及全体公民 | 为马耳他全体公民提供 ChatGPT Plus 及 AI 技能培训 |
| 05-15 | Databricks 引入 GPT-5.5 企业 Agent 工作流 | GPT-5.5 在 OfficeQA Pro 基准创下新 SOTA 后被 Databricks 引入企业场景 |
| 05-15 | ChatGPT 个人理财体验预览 | 美国 Pro 用户可安全关联金融账户,获得 AI 理财洞察 |
| 05-15 | Codex 场景指南:业务运营 / 数据科学 / 销售团队 | 发布三份 Codex 团队使用指南(业务运营、数据科学、销售) |
| 05-14 | Codex 移动端上线 | 通过 ChatGPT 移动 App 连接 Mac 主机,随时随地使用 Codex |
| 05-14 | Sea Limited 部署 Codex | Sea CPO 解释为何在亚洲工程团队全面部署 Codex |
| 05-14 | ChatGPT 敏感对话上下文识别升级 | 新安全更新提升敏感场景的上下文感知能力 |
| 05-13 | Codex Windows 沙箱 | 为 Codex 在 Windows 上构建安全沙箱,支持受控文件访问和网络限制 |
| 05-13 | 回应 TanStack npm 供应链攻击 | 详述应对 "Mini Shai-Hulud" 供应链攻击的措施;macOS 用户须在 6/12 前更新 |
| 05-12 | NVIDIA 工程师使用 Codex + GPT-5.5 | NVIDIA 团队使用 Codex 搭配 GPT-5.5 交付生产系统并转化研究实验 |
| 05-12 | AutoScout24 AI 工作流 | AutoScout24 使用 Codex + ChatGPT 加速开发、提升代码质量 |
| 05-11 | OpenAI 成立 DeployCo 企业部署公司 | 新子公司帮助组织将前沿 AI 带入生产环境 |
| 05-11 | ChatGPT 2026 Q1 采用率报告 | Q1 采用率激增,35 岁以上用户增长最快,性别使用更均衡 |
| 05-07 | GPT-5.5 & GPT-5.5-Cyber 用于网络防御 | 扩展 Trusted Access for Cyber,帮助验证的防御者加速漏洞研究 |
| 05-07 | ChatGPT 测试广告 | 开始在 ChatGPT 中测试广告以支持免费访问,附带隐私保护和明确标注 |
| 05-05 | GPT-5.5 Instant 发布 | 更新 ChatGPT 默认模型:更智能、更准确、减少幻觉、改善个性化 |
Codex Changelog(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-14 | Codex 移动端支持 | ChatGPT 移动 App 可连接 Mac 上的 Codex 主机远程工作 |
| 05-11 | Auto-review 文档扩展 | 新增 Auto-review 专用页面,覆盖审核生命周期、触发条件等 |
| 05-08 | Codex CLI 0.130.0 | 插件详情展示内置 hooks;插件分享增加链接元数据 |
| 05-07 | Codex for Chrome | 新 Chrome 扩展,可在后台跨标签页并行操作浏览器应用和网站 |
| 05-07 | Codex CLI 0.129.0 | TUI 编辑器支持 Vim 模态编辑 |
Anthropic(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-15 | Claude Code v2.1.143 | 新增插件依赖强制执行:禁用插件时检查依赖关系 |
| 05-14 | Claude Code v2.1.142 | claude agents 新增 --add-dir、--model、--permission-mode 等标志 |
| 05-14 | AI 竞争力论文 | 发布关于中美 AI 竞争的研究论文,认为美国及盟友目前保持前沿领先地位 |
| 05-14 | 盖茨基金会合作 | 承诺 2 亿美元资助全球健康、生命科学、教育、农业和经济流动性项目 |
| 05-13 | Claude Code v2.1.141 | hook JSON 输出新增 terminalSequence 字段,支持桌面通知和窗口标题 |
| 05-12 | Claude Code v2.1.140 | Agent 工具 subagent_type 匹配支持大小写和分隔符不敏感 |
| 05-11 | Claude Code v2.1.139 | 新增 Agent 视图(Research Preview):claude agents 统一查看所有会话 |
| 05-11 | Claude 宪法有声书 | 由作者 Amanda Askell 和 Joe Carlsmith 朗读,附 Q&A |
| 05-07 | Petri 开源工具捐赠给 Meridian Labs | 开源对齐工具 Petri 独立运营,同步发布重大更新 |
| 05-07 | Bug Bounty 公开上线 HackerOne | 安全漏洞赏金计划从私有转为公开 |
xAI / Grok(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-15 | Grok × Hermes Agent 集成 | 可在 NousResearch Hermes Agent 中使用 Grok 订阅 |
| 05-14 | Grok Build CLI 公测 | 面向 SuperGrok Heavy 用户的 agentic CLI,用于编码、构建应用和自动化工作流 |
| 05-08 | Grok 连接器扩展 | 支持邮件、幻灯片、日历、Notion 等连接器,覆盖所有计划 |
| 05-07 | 图像生成 Quality Mode API 上线 | 已生成超 3 亿张图片;更高真实感、文字渲染和创意控制 |
| 05-05 | Grok 4.3 API 上线 | 100 万 token 上下文窗口;在 Artificial Analysis 工具调用/指令遵循及 ValsAI 企业领域榜单排名 #1;定价 $1.25/m 输入、$2.50/m 输出 |
Google AI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-11 | AI 驱动 Google Finance 欧洲扩展 | AI 理财体验扩展至欧洲市场 |
| 05-08 | 创意大师为小企业用 AI 制作广告 | Susan Credle 等创意领袖联手 AI 为小企业打造广告 |
| 05-04 | Gemini API Webhooks 支持 | 事件驱动 Webhooks 降低长时任务的摩擦和延迟 |
二、Benchmark 快照与变化
LM Arena(综合榜单)— 本期无变动
数据截至 2026-05-14。当前 Top 3:
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.5 |
| 2 | claude-opus-4-7-thinking | 1500.4 |
| 3 | claude-opus-4-6 | 1497.7 |
Top 10 中 Anthropic 占 4 席,Google Gemini 占 2 席,OpenAI GPT 占 2 席,xAI Grok 和 Muse 各 1 席。
SWE-bench Verified — 有变化
当前 Top 3(无变动):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变动:
| 模型 | 分数变化 | 排名变化 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 52.2 → 60.4 (+8.2) | #103 → #76 ⬆️ |
| Warp | 75.6 → 71.0 (-4.6) | #11 → #36 ⬇️ |
| devlo | 70.2 → 58.2 / 54.2 | #44 → #83 / #94 ⬇️ |
| Nemotron-CORTEXA | 68.2 → 58.2 (-10.0) | #50 → #82 ⬇️ |
| EPAM AI/Run + GPT4o | 27.0 → 24.0 (-3.0) | #156 → #162 ⬇️ |
| Solver (2024-09-12) | 45.4 → 43.6 (-1.8) | #120 → #126 ⬇️ |
唯一上升:EntroPO + R2E + Qwen3-Coder-30B 分数大涨 8.2 分,排名前进 27 位。其余变动均为下降。
SWE-bench Pro Public — 本期无变动
数据截至 2026-05-17。当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
OpenAI GPT-5.4 领跑此榜单,领先第二名 4.1 分。
Terminal-bench 2.0 — 有变化
当前 Top 3(无变动):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变动:
| 模型 | 分数变化 | 排名变化 |
|---|---|---|
| LemonHarness / Multiple | 79.9 → 84.5 (+4.6) | #11 → #4 ⬆️ |
| little-coder / Qwen3.6-35B-A3B | 23.0 → 24.6 (+1.6) | #125 → #120 ⬆️ |
| Warp / Multiple | 61.2 → 59.1 / 50.1 | #45 → #50 / #69 ⬇️ |
LemonHarness 表现抢眼,分数提升 4.6 分,从 #11 直接跃入 Top 5。Warp 在两个 benchmark 上均出现下滑。