AI 日报 2026-05-16 08:54
2026-05-16 08:54 CST
核心速览
【OpenAI】ChatGPT 开始测试广告(5月7日) OpenAI 在 ChatGPT 中启动广告测试,以支持免费用户的持续访问。广告将明确标注、与回答内容独立,并提供隐私保护和用户控制选项。这是 ChatGPT 商业模式的重大转向。 原文链接
【xAI】Grok 4.3 上线 API,登顶多项榜单(5月5日) xAI 发布 Grok 4.3,称其为最快、最智能的模型。该模型在 Artificial Analysis 排行榜的 agentic tool calling 和 instruction following 两项排名第一,在 ValsAI 企业领域(案例法、企业金融)也位列榜首,支持 100 万 token 上下文,定价 $1.25/$2.50 per M tokens。 原文链接
【Anthropic】与盖茨基金会达成 2 亿美元合作(5月14日) Anthropic 与盖茨基金会合作,承诺 2 亿美元用于资助、Claude 额度和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性等领域。这是 Anthropic 在公益 AI 应用领域最大规模的单笔投入。 原文链接
【OpenAI】GPT-5.5 Instant 更新 ChatGPT 默认模型(5月5日) OpenAI 发布 GPT-5.5 Instant,更新 ChatGPT 的默认模型,提供更准确的回答、更低的幻觉率以及改进的个性化控制能力。该模型同时在 lmarena 总榜排名第 12 位(1476.3 分)。 原文链接
【xAI】Grok Build 发布早期 Beta(5月14日) xAI 推出 Grok Build——面向 SuperGrok Heavy 订阅用户的 agentic CLI 工具,支持编码、构建应用和自动化工作流。该产品直接对标 OpenAI Codex 和 Anthropic Claude Code,标志着 CLI 编码 Agent 赛道三方竞争格局形成。 原文链接
重大 Benchmark 变化
LMArena 总榜(新上榜模型,前 20 名)
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| #1 | claude-opus-4-6-thinking | 1501.5 | Anthropic |
| #2 | claude-opus-4-7-thinking | 1500.4 | Anthropic |
| #3 | claude-opus-4-6 | 1497.7 | Anthropic |
| #4 | claude-opus-4-7 | 1492.1 | Anthropic |
| #5 | muse-spark | 1490.1 | — |
| #6 | gemini-3.1-pro-preview | 1488.9 | |
| #7 | gemini-3-pro | 1485.9 | |
| #8 | gpt-5.5-high | 1483.9 | OpenAI |
| #9 | gpt-5.4-high | 1478.8 | OpenAI |
| #10 | grok-4.20-beta1 | 1478.7 | xAI |
| #11 | gpt-5.2-chat-latest | 1476.9 | OpenAI |
| #12 | gpt-5.5 | 1476.3 | OpenAI |
| #15 | gemini-3-flash | 1473.5 | |
| #17 | ernie-5.1 | 1472.4 | 百度 |
| #18 | glm-5.1 | 1472.3 | 智谱 |
Anthropic Claude Opus 4-6/4-7 占据榜单前四,Google Gemini 3 系列紧随其后。国产模型中百度 ERNIE 5.1(#17)和智谱 GLM-5.1(#18)进入 Top 20。
SWE-Bench Verified 重大变动
| 模型 | 原排名 → 现排名 | 分数变化 |
|---|---|---|
| devlo | #44 → #83/#94 | 70.2 → 58.2/54.2(↓17-23%) |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2(↓14.7%) |
| Warp | #11 → #36 | 75.6 → 71.0(↓6.1%) |
| EntroPO + R2E + Qwen3-Coder | #103 → #76 | 52.2 → 60.4(↑15.7%) |
Terminal-Bench 2.0 重大变动
| 模型 | 原排名 → 现排名 | 分数变化 |
|---|---|---|
| JJAgent / Multiple | 新上榜 | → #2,87.1 分 |
| LemonHarness / Multiple | #10 → #4 | 79.9 → 84.5(↑5.8%) |
| Warp / Multiple | #44 → #69 | 61.2 → 50.1(↓18.1%) |
快速预览
- LM Arena 大规模洗牌:100 个模型涌入榜单,claude-opus-4-6-thinking 以 1501.5 分登顶,Anthropic 包揽前四
- OpenAI 连发 GPT-5.5 生态产品:Databricks 集成、ChatGPT 个人理财、Codex 移动端支持、Instant 模型更新
- xAI Grok Build CLI 公测:面向 SuperGrok Heavy 用户的 agentic CLI,Grok 4.3 登陆 API
- SWE-bench Verified 变动:Warp 从 #11 跌至 #36(75.6→71.0),devlo 大幅下滑;EntroPO + Qwen3-Coder 跃升 27 位
- Anthropic 与盖茨基金会达成 2 亿美元合作,覆盖全球健康、生命科学、教育等领域
详细正文
一、新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-15 | ChatGPT 个人理财体验 | Pro 用户可连接金融账户,获得 AI 驱动的理财洞察 |
| 05-15 | Databricks 集成 GPT-5.5 | GPT-5.5 在 OfficeQA Pro benchmark 创新高后进入企业 Agent 工作流 |
| 05-14 | Sea 部署 Codex 加速亚洲开发 | Sea Limited CPO 解释工程团队全面采用 Codex 的决策 |
| 05-14 | Codex 移动端 | ChatGPT 移动 App 可连接 Mac 运行 Codex,实时监控和审批任务 |
| 05-14 | ChatGPT 敏感对话上下文识别 | 安全更新提升敏感对话中的上下文感知能力 |
| 05-13 | Codex Windows 安全沙箱 | 为 Codex 构建受控文件访问和网络限制的安全沙箱 |
| 05-13 | TanStack npm 供应链攻击应对 | macOS 用户须在 6 月 12 日前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师使用 Codex | 配合 GPT-5.5 将研究想法转化为可运行实验 |
| 05-12 | AutoScout24 AI 工作流扩展 | 使用 Codex 和 ChatGPT 加速开发周期 |
| 05-12 | Parameter Golf 洞察 | 1000+ 参与者探索 AI 辅助 ML 研究 |
| 05-11 | ChatGPT 2026 Q1 采用趋势 | 35 岁以上用户增长最快,性别使用更趋均衡 |
| 05-11 | DeployCo 发布 | 新企业部署公司,帮助组织将前沿 AI 带入生产环境 |
| 05-07 | ChatGPT 广告测试 | 开始在 ChatGPT 中测试广告,保障免费使用 |
| 05-07 | GPT-5.5 网络安全访问扩展 | 受信任防御者可用 GPT-5.5/GPT-5.5-Cyber 加速漏洞研究 |
| 05-07 | 语音智能新模型 | API 新增可推理、翻译、转录的实时语音模型 |
| 05-07 | Trusted Contact 功能 | 检测严重自伤风险时通知信任联系人 |
| 05-05 | GPT-5.5 Instant | 更新 ChatGPT 默认模型,减少幻觉,提升个性化控制 |
| 05-05 | MRC 网络协议 | 通过 OCP 发布超算网络协议,提升大规模训练韧性 |
| 05-05 | ChatGPT 广告自助工具 | Beta 版 Ads Manager、CPC 竞价、增强测量工具 |
| 05-04 | OpenAI × PwC CFO 协作 | 用 AI Agent 自动化财务工作流和预测 |
Codex Changelog(按日期倒序)
| 日期 | 版本/标题 | 摘要 |
|---|---|---|
| 05-14 | Codex 移动端 | 从 ChatGPT 移动 App 连接 Mac 运行 Codex |
| 05-11 | Auto-review 文档扩展 | 新增专用 Auto-review 页面 |
| 05-08 | CLI 0.130.0 | 插件详情展示 bundled hooks,分享暴露元数据 |
| 05-07 | Codex for Chrome 扩展 | 后台并行跨标签页工作,用户控制权限 |
| 05-07 | CLI 0.129.0 | TUI 支持 Vim 编辑模式 |
Anthropic / Claude(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-15 | Claude Code v2.1.143 | 插件依赖强制:disable 被依赖时拒绝,enable 自动传递依赖 |
| 05-14 | Claude Code v2.1.142 | claude agents 新增 --add-dir、--settings、--model 等 8 个参数 |
| 05-14 | AI 竞争论文 | 阐述美国与民主盟友在前沿 AI 领域保持领先的观点 |
| 05-14 | 盖茨基金会合作 | 2 亿美元投入全球健康、生命科学、教育、农业和经济流动性 |
| 05-13 | Claude Code v2.1.141 | Hook JSON 输出新增 terminalSequence 字段 |
| 05-12 | Claude Code v2.1.140 | Agent tool subagent_type 支持大小写和分隔符不敏感匹配 |
| 05-11 | Claude Code v2.1.139 | Agent View Research Preview:claude agents 查看所有会话状态 |
| 05-11 | Claude's Constitution 有声书 | Amanda Askell 和 Joe Carlsmith 朗读 |
| 05-07 | Petri 捐赠 Meridian Labs | 开源对齐工具独立运营,发布重大更新 |
| 05-07 | Bug Bounty 公开 | HackerOne 安全漏洞奖励计划面向所有人开放 |
Google(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-11 | AI Google Finance 欧洲扩展 | AI 驱动的 Google Finance 扩展至欧洲 |
| 05-08 | 创意广告与小企业 | 创意大师用 AI 为小企业制作广告 |
| 05-04 | Gemini API Webhooks | 事件驱动 Webhooks 降低长任务延迟 |
xAI / Grok(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-15 | Grok × NousResearch Hermes | Grok 订阅可直接在 Hermes Agent 中使用 |
| 05-14 | Grok Build CLI Beta | agentic CLI 用于编码、应用构建和工作流自动化,SuperGrok Heavy 专享 |
| 05-08 | Grok Connectors | 全平台接入邮件、日历、Notion 等连接器 |
| 05-07 | 图片生成 Quality Mode API | 已在 Grok 生成超 3 亿张图片,更高真实感和文字渲染 |
| 05-05 | Grok 4.3 发布 | 最快最智能,ArtificialAnlys 榜单 agentic 工具调用和指令跟随第一,100 万 token 上下文 |
二、Benchmark 快照
LM Arena(Overall)— 05-14 采集
Top 10:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.5 |
| 2 | claude-opus-4-7-thinking | 1500.4 |
| 3 | claude-opus-4-6 | 1497.7 |
| 4 | claude-opus-4-7 | 1492.1 |
| 5 | muse-spark | 1490.1 |
| 6 | gemini-3.1-pro-preview | 1488.9 |
| 7 | gemini-3-pro | 1485.9 |
| 8 | gpt-5.5-high | 1483.9 |
| 9 | gpt-5.4-high | 1478.8 |
| 10 | grok-4.20-beta1 | 1478.7 |
重大变化:本轮大量新模型涌入榜单(均为 new_model 类型),Anthropic 系 Claude Opus 4.6/4.7 包揽前四。中国厂商方面,ernie-5.1 (#17)、glm-5.1 (#18)、qwen3.5-max-preview (#24)、mimo-v2.5-pro (#25)、kimi-k2.6 (#27)、deepseek-v4-pro-thinking (#28) 进入 Top 30。
SWE-bench Verified — 当前 Top 10
| 排名 | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
本期变化(显著变动):
| 模型 | 变化 | 前排名→现排名 | 前分数→现分数 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | ↑ 大幅上升 | #103 → #76 | 52.2 → 60.4 |
| devlo | ↓ 大幅下降 | #44 → #83/#94 | 70.2 → 58.2/54.2 |
| Warp | ↓ 大幅下降 | #11 → #36 | 75.6 → 71.0 |
| Nemotron-CORTEXA | ↓ 大幅下降 | #50 → #82 | 68.2 → 58.2 |
| EPAM AI/Run + GPT4o | ↓ | #156 → #162 | 27.0 → 24.0 |
| Solver | ↓ | #120 → #126 | 45.4 → 43.6 |
SWE-bench Pro Public — 05-16 采集,当前 Top 10
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.8 |
| 10 | gpt-5.2-codex | 41.0 |
本期无新增变动,以上为当前快照。
Terminal-bench 2.0 — 05-15 采集,当前 Top 10
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple(新) | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
| 4 | LemonHarness / Multiple(↑6位) | 84.5 |
| 5 | Capy / GPT-5.5 | 83.1 |
| 6 | Polaris / Multiple | 82.2 |
| 7 | Codex CLI / GPT-5.5 | 82.0 |
| 8 | ForgeCode / GPT-5.4 | 81.8 |
| 9 | WOZCODE / Claude Opus 4.7 | 80.2 |
| 10 | TongAgents / Gemini 3.1 Pro | 80.2 |
主要变化:
- JJAgent / Multiple 新入榜直冲 #2(87.1),表现亮眼
- LemonHarness / Multiple 从 #10 跃升至 #4(79.9 → 84.5,+4.6 分)
- 多数现有模型仅因新进入者的插入发生 1-2 位排名位移,分数未变
三、来源状态
所有来源均采集成功,无失败记录。