AI 日报 2026-05-17 08:35

2026-05-17 08:35 CST

核心速览

【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中测试广告投放以支撑免费用户访问,广告将明确标注、与回答内容隔离,并提供隐私保护和用户控制选项。标志着 OpenAI 商业模式的重要转变,从纯订阅制向广告变现延伸。 原文链接

【xAI】Grok 4.3 发布,登顶多项排行榜 xAI 发布 Grok 4.3,称其为最快、最智能模型,在 Artificial Analysis 的 agentic tool calling 和指令遵循排行榜排名第一,ValsAI 企业法律与金融领域也位列榜首。支持 100 万 token 上下文,定价 $1.25/M input、$2.50/M output。 原文链接

【OpenAI】GPT-5.5 Instant 更新默认模型 OpenAI 更新 ChatGPT 默认模型 GPT-5.5 Instant,提升回答准确性和个性化能力,同时显著降低幻觉率。作为用户量最大的默认模型,此次更新将直接影响数亿用户的日常体验。 原文链接

【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作,承诺投入 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的 grants、Claude 额度和技术支持。这是 AI 公司在公益领域最大规模的单笔承诺之一。 原文链接

【OpenAI × Databricks】GPT-5.5 进入企业 Agent 工作流 Databricks 将 GPT-5.5 引入企业级 Agent 工作流,该模型在 OfficeQA Pro 基准测试中创下新纪录。标志着前沿模型加速渗透企业数据平台生态。 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动
EntroPO + R2E + Qwen3-Coder-30B-A3B 103 → 76 ⬆️ 52.2 → 60.4 (+15.7%)
devlo 44 → 83/94 ⬇️ 70.2 → 58.2/54.2 (-17%~-23%)
Warp 11 → 36 ⬇️ 75.6 → 71.0 (-6.1%)
Nemotron-CORTEXA 50 → 82 ⬇️ 68.2 → 58.2 (-14.7%)

Terminal-bench 2.0

模型 排名变动 分数变动
LemonHarness / Multiple 11 → 4 ⬆️ 79.9 → 84.5 (+5.8%)
Warp / Multiple 45 → 69 ⬇️ 61.2 → 50.1 (-18.1%)

关注点:EntroPO + Qwen3-Coder-30B 在 SWE-bench 上排名跃升 27 位,分数提升 15.7%,表现突出;Warp 在两个榜单均出现明显下滑。

快速预览

  • OpenAI 马耳他合作:为全体公民提供 ChatGPT Plus 及 AI 培训(5/16)
  • xAI 发布 Grok Build:面向 SuperGrok Heavy 用户的 CLI 编程工具公测(5/14)
  • Anthropic × 盖茨基金会:承诺 2 亿美元资助全球健康、教育等领域(5/14)
  • LM Arena 榜首:claude-opus-4-6-thinking 以 1501.5 分领跑总榜
  • SWE-bench Verified 重大变动:Warp 排名从 #11 跌至 #36,devlo 从 #44 暴跌至 #83/#94

一、行业新闻

OpenAI(按日期倒序)

日期 标题 摘要
05-16 马耳他合作:ChatGPT Plus 惠及全体公民 为马耳他全体公民提供 ChatGPT Plus 及 AI 技能培训
05-15 Databricks 引入 GPT-5.5 企业 Agent 工作流 GPT-5.5 在 OfficeQA Pro 基准创下新 SOTA 后被 Databricks 引入企业场景
05-15 ChatGPT 个人理财体验预览 美国 Pro 用户可安全关联金融账户,获得 AI 理财洞察
05-15 Codex 场景指南:业务运营 / 数据科学 / 销售团队 发布三份 Codex 团队使用指南(业务运营、数据科学、销售)
05-14 Codex 移动端上线 通过 ChatGPT 移动 App 连接 Mac 主机,随时随地使用 Codex
05-14 Sea Limited 部署 Codex Sea CPO 解释为何在亚洲工程团队全面部署 Codex
05-14 ChatGPT 敏感对话上下文识别升级 新安全更新提升敏感场景的上下文感知能力
05-13 Codex Windows 沙箱 为 Codex 在 Windows 上构建安全沙箱,支持受控文件访问和网络限制
05-13 回应 TanStack npm 供应链攻击 详述应对 "Mini Shai-Hulud" 供应链攻击的措施;macOS 用户须在 6/12 前更新
05-12 NVIDIA 工程师使用 Codex + GPT-5.5 NVIDIA 团队使用 Codex 搭配 GPT-5.5 交付生产系统并转化研究实验
05-12 AutoScout24 AI 工作流 AutoScout24 使用 Codex + ChatGPT 加速开发、提升代码质量
05-11 OpenAI 成立 DeployCo 企业部署公司 新子公司帮助组织将前沿 AI 带入生产环境
05-11 ChatGPT 2026 Q1 采用率报告 Q1 采用率激增,35 岁以上用户增长最快,性别使用更均衡
05-07 GPT-5.5 & GPT-5.5-Cyber 用于网络防御 扩展 Trusted Access for Cyber,帮助验证的防御者加速漏洞研究
05-07 ChatGPT 测试广告 开始在 ChatGPT 中测试广告以支持免费访问,附带隐私保护和明确标注
05-05 GPT-5.5 Instant 发布 更新 ChatGPT 默认模型:更智能、更准确、减少幻觉、改善个性化

Codex Changelog(按日期倒序)

日期 标题 摘要
05-14 Codex 移动端支持 ChatGPT 移动 App 可连接 Mac 上的 Codex 主机远程工作
05-11 Auto-review 文档扩展 新增 Auto-review 专用页面,覆盖审核生命周期、触发条件等
05-08 Codex CLI 0.130.0 插件详情展示内置 hooks;插件分享增加链接元数据
05-07 Codex for Chrome 新 Chrome 扩展,可在后台跨标签页并行操作浏览器应用和网站
05-07 Codex CLI 0.129.0 TUI 编辑器支持 Vim 模态编辑

Anthropic(按日期倒序)

日期 标题 摘要
05-15 Claude Code v2.1.143 新增插件依赖强制执行:禁用插件时检查依赖关系
05-14 Claude Code v2.1.142 claude agents 新增 --add-dir--model--permission-mode 等标志
05-14 AI 竞争力论文 发布关于中美 AI 竞争的研究论文,认为美国及盟友目前保持前沿领先地位
05-14 盖茨基金会合作 承诺 2 亿美元资助全球健康、生命科学、教育、农业和经济流动性项目
05-13 Claude Code v2.1.141 hook JSON 输出新增 terminalSequence 字段,支持桌面通知和窗口标题
05-12 Claude Code v2.1.140 Agent 工具 subagent_type 匹配支持大小写和分隔符不敏感
05-11 Claude Code v2.1.139 新增 Agent 视图(Research Preview):claude agents 统一查看所有会话
05-11 Claude 宪法有声书 由作者 Amanda Askell 和 Joe Carlsmith 朗读,附 Q&A
05-07 Petri 开源工具捐赠给 Meridian Labs 开源对齐工具 Petri 独立运营,同步发布重大更新
05-07 Bug Bounty 公开上线 HackerOne 安全漏洞赏金计划从私有转为公开

xAI / Grok(按日期倒序)

日期 标题 摘要
05-15 Grok × Hermes Agent 集成 可在 NousResearch Hermes Agent 中使用 Grok 订阅
05-14 Grok Build CLI 公测 面向 SuperGrok Heavy 用户的 agentic CLI,用于编码、构建应用和自动化工作流
05-08 Grok 连接器扩展 支持邮件、幻灯片、日历、Notion 等连接器,覆盖所有计划
05-07 图像生成 Quality Mode API 上线 已生成超 3 亿张图片;更高真实感、文字渲染和创意控制
05-05 Grok 4.3 API 上线 100 万 token 上下文窗口;在 Artificial Analysis 工具调用/指令遵循及 ValsAI 企业领域榜单排名 #1;定价 $1.25/m 输入、$2.50/m 输出

Google AI(按日期倒序)

日期 标题 摘要
05-11 AI 驱动 Google Finance 欧洲扩展 AI 理财体验扩展至欧洲市场
05-08 创意大师为小企业用 AI 制作广告 Susan Credle 等创意领袖联手 AI 为小企业打造广告
05-04 Gemini API Webhooks 支持 事件驱动 Webhooks 降低长时任务的摩擦和延迟

二、Benchmark 快照与变化

LM Arena(综合榜单)— 本期无变动

数据截至 2026-05-14。当前 Top 3:

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1501.5
2 claude-opus-4-7-thinking 1500.4
3 claude-opus-4-6 1497.7

Top 10 中 Anthropic 占 4 席,Google Gemini 占 2 席,OpenAI GPT 占 2 席,xAI Grok 和 Muse 各 1 席。

SWE-bench Verified — 有变化

当前 Top 3(无变动):

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变动:

模型 分数变化 排名变化
EntroPO + R2E + Qwen3-Coder-30B 52.2 → 60.4 (+8.2) #103 → #76 ⬆️
Warp 75.6 → 71.0 (-4.6) #11 → #36 ⬇️
devlo 70.2 → 58.2 / 54.2 #44 → #83 / #94 ⬇️
Nemotron-CORTEXA 68.2 → 58.2 (-10.0) #50 → #82 ⬇️
EPAM AI/Run + GPT4o 27.0 → 24.0 (-3.0) #156 → #162 ⬇️
Solver (2024-09-12) 45.4 → 43.6 (-1.8) #120 → #126 ⬇️

唯一上升:EntroPO + R2E + Qwen3-Coder-30B 分数大涨 8.2 分,排名前进 27 位。其余变动均为下降。

SWE-bench Pro Public — 本期无变动

数据截至 2026-05-17。当前 Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

OpenAI GPT-5.4 领跑此榜单,领先第二名 4.1 分。

Terminal-bench 2.0 — 有变化

当前 Top 3(无变动):

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期变动:

模型 分数变化 排名变化
LemonHarness / Multiple 79.9 → 84.5 (+4.6) #11 → #4 ⬆️
little-coder / Qwen3.6-35B-A3B 23.0 → 24.6 (+1.6) #125 → #120 ⬆️
Warp / Multiple 61.2 → 59.1 / 50.1 #45 → #50 / #69 ⬇️

LemonHarness 表现抢眼,分数提升 4.6 分,从 #11 直接跃入 Top 5。Warp 在两个 benchmark 上均出现下滑。


三、数据来源

Sources