AI 日报 2026-05-19 08:49

2026-05-19 08:49 CST

核心速览

【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless,后者是为其 API 提供所有 SDK 及 MCP 服务器支持的平台公司。此次收购将加强 Anthropic 的开发者工具链,巩固 API 生态基础设施能力。 🔗 原文链接

【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作,承诺提供 2 亿美元的资助、Claude 额度及技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性领域,推进 AI 在公共事业中的应用。 🔗 原文链接

【xAI】Grok 4.3 上线,登顶多项评测榜单 xAI 发布 Grok 4.3,声称是最快速、最智能的模型。该模型在 Artificial Analysis 评测中排名第一(智能体工具调用和指令遵循),并在 ValsAI 企业领域(案例法、企业金融)排名第一,支持 100 万 token 上下文,定价 $1.25/$2.50 per million tokens。 🔗 原文链接

【OpenAI】与 Dell 合作将 Codex 推向混合/本地企业环境 OpenAI 与戴尔达成合作,将 Codex AI 编程代理引入混合云和本地部署环境。此举旨在帮助企业在自身数据和工作流中安全部署 AI 编程代理,加速企业级 Codex 采用。 🔗 原文链接

【OpenAI】成立 DeployCo 企业部署公司 OpenAI 成立 DeployCo,一家专注于帮助组织将前沿 AI 落地生产、转化为可衡量商业价值的企业部署公司,标志着 OpenAI 从模型研发向企业落地交付的战略延伸。 🔗 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 (+27) 52.2 → 60.4 (+15.7%) 大幅跃升,30B 参数编码模型表现抢眼
devlo 44 → 83/94 (↓39–50) 70.2 → 54.2–58.2 (↓17–23%) 排名大幅下滑,疑似评测配置或回归问题
Nemotron-CORTEXA 50 → 82 (↓32) 68.2 → 58.2 (↓14.7%) 显著下跌,可能与评测基线调整有关
Warp 11 → 36 (↓25) 75.6 → 71.0 (↓6.1%) 排名下滑明显,仍保持 70+ 水平
EPAM AI/Run + GPT4o 156 → 162 (↓6) 27.0 → 24.0 (↓11.1%) 分数下降超 5%,排名小幅后移

Terminal-Bench 2.0

模型 排名变动 分数变动 说明
LemonHarness / Multiple 10 → 4 (+6) 79.9 → 84.5 (+5.8%) 冲入 Top 5,终端能力显著提升
Warp / Multiple 42 → 48/66 61.2 → 50.1–59.1 (↓3.4–18.1%) 两项提交均下滑,最低跌至 50.1

快速预览

  • Anthropic 收购 Stainless(SDK/MCP 平台),强化 API 基础设施;同时与盖茨基金会达成 $2 亿合作
  • OpenAI × Dell 将 Codex 推入混合/本地企业环境(5/18);Codex CLI 发布 0.131.0
  • xAI 发布 Grok Build(agentic CLI)beta,Grok 4.3 登顶 ArtificialAnlys 工具调用/指令遵循榜单
  • LM Arena 榜首易主:claude-opus-4-6-thinking(1501.5)超越 claude-opus-4-7-thinking(1500.4)夺冠
  • SWE-bench Verified 有显著波动:devlo 从 #44 跌至 #94,Warp 从 #11 跌至 #36;EntroPO + Qwen3-Coder 从 #103 升至 #76

一、行业新闻

OpenAI(按日期倒序)

日期 标题 摘要
05-18 OpenAI × Dell:Codex 进军混合/本地企业 企业可跨数据和工作流安全部署 AI 编程代理
05-16 OpenAI × Malta:ChatGPT Plus 面向全民 全民获取 ChatGPT Plus 及 AI 技能培训
05-15 Databricks 引入 GPT-5.5 用于企业 Agent 工作流 GPT-5.5 在 OfficeQA Pro benchmark 刷新 SOTA
05-15 ChatGPT 个人理财体验(美国 Pro 用户预览) 安全连接金融账户,提供 AI 理财建议
05-14 Sea Limited 全面部署 Codex CPO 阐述亚洲 AI 原生软件开发战略
05-14 Codex 移动端上线 ChatGPT 移动 App 可连接 Mac 运行 Codex
05-14 ChatGPT 敏感对话上下文识别能力升级 新安全更新增强长期风险检测
05-13 Codex Windows 安全沙箱 受控文件访问和网络限制
05-13 TanStack npm 供应链攻击应对 macOS 用户需在 6/12 前更新 OpenAI 应用
05-11 OpenAI 成立 DeployCo 专门帮助企业将前沿 AI 投产并转化为商业价值
05-07 ChatGPT 广告测试 支持免费访问,明确标注、强隐私保护
05-07 GPT-5.5 及 GPT-5.5-Cyber Trusted Access 扩展 面向安全防御者的漏洞研究加速
05-05 GPT-5.5 Instant 发布 ChatGPT 默认模型升级:更智能、减少幻觉、个性化增强
05-05 MRC 超算网络协议 通过 OCP 发布,提升大规模 AI 训练集群韧性

OpenAI Codex 更新日志

日期 版本/标题 要点
05-18 Codex CLI 0.131.0 TUI 会话控制增强:数据驱动服务层命令、混合 token 用量、权限/审批模式
05-14 Codex 移动端 ChatGPT 移动 App 连接 Mac 运行 Codex
05-11 Auto-review 文档扩展 审阅者生命周期、触发条件、失败行为
05-08 Codex CLI 0.130.0 插件详情显示 bundled hooks,插件分享增强
05-07 Codex for Chrome 浏览器扩展:跨标签后台运行,用户控制网站访问权限

Anthropic

日期 标题 摘要
05-18 收购 Stainless SDK 和 MCP 服务器平台,已支撑所有 Anthropic SDK
05-14 美中 AI 竞争论文 阐述保持前沿 AI 领先所需条件
05-14 × 盖茨基金会 $2 亿合作 资助、Claude 额度及技术支持,覆盖全球健康/生命科学/教育/农业/经济流动
05-11 Claude Constitution 有声书发布 Amanda Askell 和 Joe Carlsmith 朗读,含创作 Q&A
05-07 Petri 对齐工具捐赠给 Meridian Labs 大版本更新:提升测试适应性、真实性和深度
05-07 Bug Bounty 公开上线 HackerOne 任何人可报告漏洞并获得奖励

Claude Code 发版

日期 版本 要点
05-15 v2.1.143 插件依赖强制:disable 拒绝被依赖项,enable 自动启用传递依赖
05-14 v2.1.142 claude agents 新增 --add-dir--model--effort 等标志
05-13 v2.1.141 hook JSON 输出新增 terminalSequence 字段,支持桌面通知
05-12 v2.1.140 Agent subagent_type 匹配忽略大小写和分隔符
05-11 v2.1.139 Agent View(Research Preview):统一查看所有会话状态

xAI

日期 标题 摘要
05-18 NVIDIA Vera CPU × SpaceX 试用转推 强调 agentic AI 专用 CPU
05-15 Grok × NousResearch Hermes Agent 集成 Grok 订阅可用于 Hermes Agent
05-14 Grok Build CLI beta 上线 agentic CLI,SuperGrok Heavy 用户可用
05-08 Grok 连接器扩展 支持邮件、Slides、日历、Notion,全平台可用
05-07 图片生成 Quality Mode API 上线 已生成超 3 亿张图片,更高真实感/文字渲染
05-05 Grok 4.3 发布 登顶 ArtificialAnlys 工具调用/指令遵循榜单;ValsAI 企业领域 #1;100 万 token 上下文;$1.25/$2.50 定价

Google

日期 标题 摘要
05-11 AI 驱动 Google Finance 扩展至欧洲 金融信息 AI 体验
05-08 The Small Brief:AI 为小企业做广告 创意大师用 AI 制作广告
05-05 × XPRIZE $350 万 Future Vision 电影竞赛 AI 电影创作竞赛

二、Benchmark 快照与变化

1. LM Arena(Overall)

来源:lmarena-ai/leaderboard-dataset | 快照日期:2026-05-14

本期无变动(与上期对比未检测到变化数据)。

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1501.5
2 claude-opus-4-7-thinking 1500.4
3 claude-opus-4-6 1497.7
4 claude-opus-4-7 1492.1
5 muse-spark 1490.1

注:claude-opus-4-6-thinking 以 1.1 分微弱优势超越 4-7-thinking 登顶。Top 4 全为 Claude 系列。

2. SWE-bench Verified

来源:live-swe-agentsonarsource 等 | 快照日期不一(见表)

Top 3(无变动):

排名 Agent + 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28

显著变化:

模型 变化 排名 分数
devlo ⬇️ 下降 #44 → #94 70.2 → 54.2
Warp ⬇️ 下降 #11 → #36 75.6 → 71.0
Nemotron-CORTEXA ⬇️ 下降 #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B ⬆️ 上升 #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o ⬇️ 下降 #156 → #162 27.0 → 24.0
Solver (2024-09-12) ⬇️ 下降 #120 → #126 45.4 → 43.6

3. SWE-bench Pro Public

来源:Scale AI Leaderboard | 快照日期:2026-05-19

本期无变动(仅提供当前快照)。

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.9

注:GPT-5.4 以 4.1 分领先第二名 Muse Spark;Anthropic 和 Google 紧随其后。

4. Terminal Bench 2.0

来源:tbench.ai | 快照日期:2026-05-14/15

Top 3(无变动):

排名 Agent + 模型 分数 采集日期
1 vix / Claude Opus 4.7 90.2 2026-05-15
2 JJAgent / Multiple 87.1 2026-05-15
3 NexAU-AHE / GPT-5.5 84.7 2026-05-14

显著变化:

模型 变化 排名 分数
LemonHarness / Multiple ⬆️ 大幅上升 #10 → #4 79.9 → 84.5
little-coder / Qwen3.6-35B-A3B ⬆️ 小幅上升 #122 → #117 23.0 → 24.6
Warp / Multiple ⬇️ 下降 #42 → #48/66 61.2 → 59.1/50.1

三、关注要点

  • Codex 生态扩张明显:OpenAI 一周内密集发布 Codex 移动端、Chrome 扩展、Windows 沙箱、Dell 合作,CLI 更新至 0.131.0,企业场景覆盖(金融、销售、数据科学、业务运营)
  • Anthropic 基础设施投资:收购 Stainless(SDK 平台)+ Claude Code Agent View(Research Preview)+ $2 亿盖茨基金会公益合作
  • xAI Grok 4.3 进入第一梯队:LM Arena #10(1478.7),登顶 ArtificialAnlys 工具调用榜单,Grok Build CLI beta 瞄准开发者
  • SWE-bench Verified 变化剧烈:多款 Agent 分数大幅下降(devlo -16 分,Warp -4.6 分),可能与评估方法或数据集更新有关
  • 无采集失败来源:所有数据源均正常

Sources