AI 日报 2026-05-16 08:54

2026-05-16 08:54 CST

核心速览

【OpenAI】ChatGPT 开始测试广告(5月7日) OpenAI 在 ChatGPT 中启动广告测试,以支持免费用户的持续访问。广告将明确标注、与回答内容独立,并提供隐私保护和用户控制选项。这是 ChatGPT 商业模式的重大转向。 原文链接

【xAI】Grok 4.3 上线 API,登顶多项榜单(5月5日) xAI 发布 Grok 4.3,称其为最快、最智能的模型。该模型在 Artificial Analysis 排行榜的 agentic tool calling 和 instruction following 两项排名第一,在 ValsAI 企业领域(案例法、企业金融)也位列榜首,支持 100 万 token 上下文,定价 $1.25/$2.50 per M tokens。 原文链接

【Anthropic】与盖茨基金会达成 2 亿美元合作(5月14日) Anthropic 与盖茨基金会合作,承诺 2 亿美元用于资助、Claude 额度和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性等领域。这是 Anthropic 在公益 AI 应用领域最大规模的单笔投入。 原文链接

【OpenAI】GPT-5.5 Instant 更新 ChatGPT 默认模型(5月5日) OpenAI 发布 GPT-5.5 Instant,更新 ChatGPT 的默认模型,提供更准确的回答、更低的幻觉率以及改进的个性化控制能力。该模型同时在 lmarena 总榜排名第 12 位(1476.3 分)。 原文链接

【xAI】Grok Build 发布早期 Beta(5月14日) xAI 推出 Grok Build——面向 SuperGrok Heavy 订阅用户的 agentic CLI 工具,支持编码、构建应用和自动化工作流。该产品直接对标 OpenAI Codex 和 Anthropic Claude Code,标志着 CLI 编码 Agent 赛道三方竞争格局形成。 原文链接


重大 Benchmark 变化

LMArena 总榜(新上榜模型,前 20 名)

排名 模型 分数 来源
#1 claude-opus-4-6-thinking 1501.5 Anthropic
#2 claude-opus-4-7-thinking 1500.4 Anthropic
#3 claude-opus-4-6 1497.7 Anthropic
#4 claude-opus-4-7 1492.1 Anthropic
#5 muse-spark 1490.1
#6 gemini-3.1-pro-preview 1488.9 Google
#7 gemini-3-pro 1485.9 Google
#8 gpt-5.5-high 1483.9 OpenAI
#9 gpt-5.4-high 1478.8 OpenAI
#10 grok-4.20-beta1 1478.7 xAI
#11 gpt-5.2-chat-latest 1476.9 OpenAI
#12 gpt-5.5 1476.3 OpenAI
#15 gemini-3-flash 1473.5 Google
#17 ernie-5.1 1472.4 百度
#18 glm-5.1 1472.3 智谱

Anthropic Claude Opus 4-6/4-7 占据榜单前四,Google Gemini 3 系列紧随其后。国产模型中百度 ERNIE 5.1(#17)和智谱 GLM-5.1(#18)进入 Top 20。

SWE-Bench Verified 重大变动

模型 原排名 → 现排名 分数变化
devlo #44 → #83/#94 70.2 → 58.2/54.2(↓17-23%)
Nemotron-CORTEXA #50 → #82 68.2 → 58.2(↓14.7%)
Warp #11 → #36 75.6 → 71.0(↓6.1%)
EntroPO + R2E + Qwen3-Coder #103 → #76 52.2 → 60.4(↑15.7%)

Terminal-Bench 2.0 重大变动

模型 原排名 → 现排名 分数变化
JJAgent / Multiple 新上榜 #2,87.1 分
LemonHarness / Multiple #10 → #4 79.9 → 84.5(↑5.8%)
Warp / Multiple #44 → #69 61.2 → 50.1(↓18.1%)

快速预览

  • LM Arena 大规模洗牌:100 个模型涌入榜单,claude-opus-4-6-thinking 以 1501.5 分登顶,Anthropic 包揽前四
  • OpenAI 连发 GPT-5.5 生态产品:Databricks 集成、ChatGPT 个人理财、Codex 移动端支持、Instant 模型更新
  • xAI Grok Build CLI 公测:面向 SuperGrok Heavy 用户的 agentic CLI,Grok 4.3 登陆 API
  • SWE-bench Verified 变动:Warp 从 #11 跌至 #36(75.6→71.0),devlo 大幅下滑;EntroPO + Qwen3-Coder 跃升 27 位
  • Anthropic 与盖茨基金会达成 2 亿美元合作,覆盖全球健康、生命科学、教育等领域

详细正文

一、新闻

OpenAI(按日期倒序)

日期 标题 摘要
05-15 ChatGPT 个人理财体验 Pro 用户可连接金融账户,获得 AI 驱动的理财洞察
05-15 Databricks 集成 GPT-5.5 GPT-5.5 在 OfficeQA Pro benchmark 创新高后进入企业 Agent 工作流
05-14 Sea 部署 Codex 加速亚洲开发 Sea Limited CPO 解释工程团队全面采用 Codex 的决策
05-14 Codex 移动端 ChatGPT 移动 App 可连接 Mac 运行 Codex,实时监控和审批任务
05-14 ChatGPT 敏感对话上下文识别 安全更新提升敏感对话中的上下文感知能力
05-13 Codex Windows 安全沙箱 为 Codex 构建受控文件访问和网络限制的安全沙箱
05-13 TanStack npm 供应链攻击应对 macOS 用户须在 6 月 12 日前更新 OpenAI 应用
05-12 NVIDIA 工程师使用 Codex 配合 GPT-5.5 将研究想法转化为可运行实验
05-12 AutoScout24 AI 工作流扩展 使用 Codex 和 ChatGPT 加速开发周期
05-12 Parameter Golf 洞察 1000+ 参与者探索 AI 辅助 ML 研究
05-11 ChatGPT 2026 Q1 采用趋势 35 岁以上用户增长最快,性别使用更趋均衡
05-11 DeployCo 发布 新企业部署公司,帮助组织将前沿 AI 带入生产环境
05-07 ChatGPT 广告测试 开始在 ChatGPT 中测试广告,保障免费使用
05-07 GPT-5.5 网络安全访问扩展 受信任防御者可用 GPT-5.5/GPT-5.5-Cyber 加速漏洞研究
05-07 语音智能新模型 API 新增可推理、翻译、转录的实时语音模型
05-07 Trusted Contact 功能 检测严重自伤风险时通知信任联系人
05-05 GPT-5.5 Instant 更新 ChatGPT 默认模型,减少幻觉,提升个性化控制
05-05 MRC 网络协议 通过 OCP 发布超算网络协议,提升大规模训练韧性
05-05 ChatGPT 广告自助工具 Beta 版 Ads Manager、CPC 竞价、增强测量工具
05-04 OpenAI × PwC CFO 协作 用 AI Agent 自动化财务工作流和预测

Codex Changelog(按日期倒序)

日期 版本/标题 摘要
05-14 Codex 移动端 从 ChatGPT 移动 App 连接 Mac 运行 Codex
05-11 Auto-review 文档扩展 新增专用 Auto-review 页面
05-08 CLI 0.130.0 插件详情展示 bundled hooks,分享暴露元数据
05-07 Codex for Chrome 扩展 后台并行跨标签页工作,用户控制权限
05-07 CLI 0.129.0 TUI 支持 Vim 编辑模式

Anthropic / Claude(按日期倒序)

日期 标题 摘要
05-15 Claude Code v2.1.143 插件依赖强制:disable 被依赖时拒绝,enable 自动传递依赖
05-14 Claude Code v2.1.142 claude agents 新增 --add-dir--settings--model 等 8 个参数
05-14 AI 竞争论文 阐述美国与民主盟友在前沿 AI 领域保持领先的观点
05-14 盖茨基金会合作 2 亿美元投入全球健康、生命科学、教育、农业和经济流动性
05-13 Claude Code v2.1.141 Hook JSON 输出新增 terminalSequence 字段
05-12 Claude Code v2.1.140 Agent tool subagent_type 支持大小写和分隔符不敏感匹配
05-11 Claude Code v2.1.139 Agent View Research Preview:claude agents 查看所有会话状态
05-11 Claude's Constitution 有声书 Amanda Askell 和 Joe Carlsmith 朗读
05-07 Petri 捐赠 Meridian Labs 开源对齐工具独立运营,发布重大更新
05-07 Bug Bounty 公开 HackerOne 安全漏洞奖励计划面向所有人开放

Google(按日期倒序)

日期 标题 摘要
05-11 AI Google Finance 欧洲扩展 AI 驱动的 Google Finance 扩展至欧洲
05-08 创意广告与小企业 创意大师用 AI 为小企业制作广告
05-04 Gemini API Webhooks 事件驱动 Webhooks 降低长任务延迟

xAI / Grok(按日期倒序)

日期 标题 摘要
05-15 Grok × NousResearch Hermes Grok 订阅可直接在 Hermes Agent 中使用
05-14 Grok Build CLI Beta agentic CLI 用于编码、应用构建和工作流自动化,SuperGrok Heavy 专享
05-08 Grok Connectors 全平台接入邮件、日历、Notion 等连接器
05-07 图片生成 Quality Mode API 已在 Grok 生成超 3 亿张图片,更高真实感和文字渲染
05-05 Grok 4.3 发布 最快最智能,ArtificialAnlys 榜单 agentic 工具调用和指令跟随第一,100 万 token 上下文

二、Benchmark 快照

LM Arena(Overall)— 05-14 采集

Top 10:

排名 模型 分数
1 claude-opus-4-6-thinking 1501.5
2 claude-opus-4-7-thinking 1500.4
3 claude-opus-4-6 1497.7
4 claude-opus-4-7 1492.1
5 muse-spark 1490.1
6 gemini-3.1-pro-preview 1488.9
7 gemini-3-pro 1485.9
8 gpt-5.5-high 1483.9
9 gpt-5.4-high 1478.8
10 grok-4.20-beta1 1478.7

重大变化:本轮大量新模型涌入榜单(均为 new_model 类型),Anthropic 系 Claude Opus 4.6/4.7 包揽前四。中国厂商方面,ernie-5.1 (#17)、glm-5.1 (#18)、qwen3.5-max-preview (#24)、mimo-v2.5-pro (#25)、kimi-k2.6 (#27)、deepseek-v4-pro-thinking (#28) 进入 Top 30。

SWE-bench Verified — 当前 Top 10

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

本期变化(显著变动):

模型 变化 前排名→现排名 前分数→现分数
EntroPO + R2E + Qwen3-Coder-30B ↑ 大幅上升 #103 → #76 52.2 → 60.4
devlo ↓ 大幅下降 #44 → #83/#94 70.2 → 58.2/54.2
Warp ↓ 大幅下降 #11 → #36 75.6 → 71.0
Nemotron-CORTEXA ↓ 大幅下降 #50 → #82 68.2 → 58.2
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0
Solver #120 → #126 45.4 → 43.6

SWE-bench Pro Public — 05-16 采集,当前 Top 10

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.9
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.8
10 gpt-5.2-codex 41.0

本期无新增变动,以上为当前快照。

Terminal-bench 2.0 — 05-15 采集,当前 Top 10

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple(新) 87.1
3 NexAU-AHE / GPT-5.5 84.7
4 LemonHarness / Multiple(↑6位) 84.5
5 Capy / GPT-5.5 83.1
6 Polaris / Multiple 82.2
7 Codex CLI / GPT-5.5 82.0
8 ForgeCode / GPT-5.4 81.8
9 WOZCODE / Claude Opus 4.7 80.2
10 TongAgents / Gemini 3.1 Pro 80.2

主要变化:

  • JJAgent / Multiple 新入榜直冲 #2(87.1),表现亮眼
  • LemonHarness / Multiple 从 #10 跃升至 #4(79.9 → 84.5,+4.6 分)
  • 多数现有模型仅因新进入者的插入发生 1-2 位排名位移,分数未变

三、来源状态

所有来源均采集成功,无失败记录。

Sources