AI 日报 2026-05-19 08:49

核心速览

【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless，后者是为其 API 提供所有 SDK 及 MCP 服务器支持的平台公司。此次收购将加强 Anthropic 的开发者工具链，巩固 API 生态基础设施能力。 🔗 原文链接

【Anthropic】与盖茨基金会合作，承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作，承诺提供 2 亿美元的资助、Claude 额度及技术支持，覆盖全球健康、生命科学、教育、农业和经济流动性领域，推进 AI 在公共事业中的应用。 🔗 原文链接

【xAI】Grok 4.3 上线，登顶多项评测榜单 xAI 发布 Grok 4.3，声称是最快速、最智能的模型。该模型在 Artificial Analysis 评测中排名第一（智能体工具调用和指令遵循），并在 ValsAI 企业领域（案例法、企业金融）排名第一，支持 100 万 token 上下文，定价 $1.25/$2.50 per million tokens。 🔗 原文链接

【OpenAI】与 Dell 合作将 Codex 推向混合/本地企业环境 OpenAI 与戴尔达成合作，将 Codex AI 编程代理引入混合云和本地部署环境。此举旨在帮助企业在自身数据和工作流中安全部署 AI 编程代理，加速企业级 Codex 采用。 🔗 原文链接

【OpenAI】成立 DeployCo 企业部署公司 OpenAI 成立 DeployCo，一家专注于帮助组织将前沿 AI 落地生产、转化为可衡量商业价值的企业部署公司，标志着 OpenAI 从模型研发向企业落地交付的战略延伸。 🔗 原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B	103 → 76 (+27)	52.2 → 60.4 (+15.7%)	大幅跃升，30B 参数编码模型表现抢眼
devlo	44 → 83/94 (↓39–50)	70.2 → 54.2–58.2 (↓17–23%)	排名大幅下滑，疑似评测配置或回归问题
Nemotron-CORTEXA	50 → 82 (↓32)	68.2 → 58.2 (↓14.7%)	显著下跌，可能与评测基线调整有关
Warp	11 → 36 (↓25)	75.6 → 71.0 (↓6.1%)	排名下滑明显，仍保持 70+ 水平
EPAM AI/Run + GPT4o	156 → 162 (↓6)	27.0 → 24.0 (↓11.1%)	分数下降超 5%，排名小幅后移

Terminal-Bench 2.0

模型	排名变动	分数变动	说明
LemonHarness / Multiple	10 → 4 (+6)	79.9 → 84.5 (+5.8%)	冲入 Top 5，终端能力显著提升
Warp / Multiple	42 → 48/66	61.2 → 50.1–59.1 (↓3.4–18.1%)	两项提交均下滑，最低跌至 50.1

快速预览

Anthropic 收购 Stainless（SDK/MCP 平台），强化 API 基础设施；同时与盖茨基金会达成 $2 亿合作
OpenAI × Dell 将 Codex 推入混合/本地企业环境（5/18）；Codex CLI 发布 0.131.0
xAI 发布 Grok Build（agentic CLI）beta，Grok 4.3 登顶 ArtificialAnlys 工具调用/指令遵循榜单
LM Arena 榜首易主：claude-opus-4-6-thinking（1501.5）超越 claude-opus-4-7-thinking（1500.4）夺冠
SWE-bench Verified 有显著波动：devlo 从 #44 跌至 #94，Warp 从 #11 跌至 #36；EntroPO + Qwen3-Coder 从 #103 升至 #76

一、行业新闻

OpenAI（按日期倒序）

日期	标题	摘要
05-18	OpenAI × Dell：Codex 进军混合/本地企业	企业可跨数据和工作流安全部署 AI 编程代理
05-16	OpenAI × Malta：ChatGPT Plus 面向全民	全民获取 ChatGPT Plus 及 AI 技能培训
05-15	Databricks 引入 GPT-5.5 用于企业 Agent 工作流	GPT-5.5 在 OfficeQA Pro benchmark 刷新 SOTA
05-15	ChatGPT 个人理财体验（美国 Pro 用户预览）	安全连接金融账户，提供 AI 理财建议
05-14	Sea Limited 全面部署 Codex	CPO 阐述亚洲 AI 原生软件开发战略
05-14	Codex 移动端上线	ChatGPT 移动 App 可连接 Mac 运行 Codex
05-14	ChatGPT 敏感对话上下文识别能力升级	新安全更新增强长期风险检测
05-13	Codex Windows 安全沙箱	受控文件访问和网络限制
05-13	TanStack npm 供应链攻击应对	macOS 用户需在 6/12 前更新 OpenAI 应用
05-11	OpenAI 成立 DeployCo	专门帮助企业将前沿 AI 投产并转化为商业价值
05-07	ChatGPT 广告测试	支持免费访问，明确标注、强隐私保护
05-07	GPT-5.5 及 GPT-5.5-Cyber Trusted Access 扩展	面向安全防御者的漏洞研究加速
05-05	GPT-5.5 Instant 发布	ChatGPT 默认模型升级：更智能、减少幻觉、个性化增强
05-05	MRC 超算网络协议	通过 OCP 发布，提升大规模 AI 训练集群韧性

OpenAI Codex 更新日志

日期	版本/标题	要点
05-18	Codex CLI 0.131.0	TUI 会话控制增强：数据驱动服务层命令、混合 token 用量、权限/审批模式
05-14	Codex 移动端	ChatGPT 移动 App 连接 Mac 运行 Codex
05-11	Auto-review 文档扩展	审阅者生命周期、触发条件、失败行为
05-08	Codex CLI 0.130.0	插件详情显示 bundled hooks，插件分享增强
05-07	Codex for Chrome	浏览器扩展：跨标签后台运行，用户控制网站访问权限

Anthropic

日期	标题	摘要
05-18	收购 Stainless	SDK 和 MCP 服务器平台，已支撑所有 Anthropic SDK
05-14	美中 AI 竞争论文	阐述保持前沿 AI 领先所需条件
05-14	× 盖茨基金会 $2 亿合作	资助、Claude 额度及技术支持，覆盖全球健康/生命科学/教育/农业/经济流动
05-11	Claude Constitution 有声书发布	Amanda Askell 和 Joe Carlsmith 朗读，含创作 Q&A
05-07	Petri 对齐工具捐赠给 Meridian Labs	大版本更新：提升测试适应性、真实性和深度
05-07	Bug Bounty 公开上线 HackerOne	任何人可报告漏洞并获得奖励

Claude Code 发版

日期	版本	要点
05-15	v2.1.143	插件依赖强制：disable 拒绝被依赖项，enable 自动启用传递依赖
05-14	v2.1.142	`claude agents` 新增 `--add-dir`、`--model`、`--effort` 等标志
05-13	v2.1.141	hook JSON 输出新增 `terminalSequence` 字段，支持桌面通知
05-12	v2.1.140	Agent `subagent_type` 匹配忽略大小写和分隔符
05-11	v2.1.139	Agent View（Research Preview）：统一查看所有会话状态

xAI

日期	标题	摘要
05-18	NVIDIA Vera CPU × SpaceX 试用转推	强调 agentic AI 专用 CPU
05-15	Grok × NousResearch Hermes Agent 集成	Grok 订阅可用于 Hermes Agent
05-14	Grok Build CLI beta 上线	agentic CLI，SuperGrok Heavy 用户可用
05-08	Grok 连接器扩展	支持邮件、Slides、日历、Notion，全平台可用
05-07	图片生成 Quality Mode API 上线	已生成超 3 亿张图片，更高真实感/文字渲染
05-05	Grok 4.3 发布	登顶 ArtificialAnlys 工具调用/指令遵循榜单；ValsAI 企业领域 #1；100 万 token 上下文；$1.25/$2.50 定价

Google

日期	标题	摘要
05-11	AI 驱动 Google Finance 扩展至欧洲	金融信息 AI 体验
05-08	The Small Brief：AI 为小企业做广告	创意大师用 AI 制作广告
05-05	× XPRIZE $350 万 Future Vision 电影竞赛	AI 电影创作竞赛

二、Benchmark 快照与变化

1. LM Arena（Overall）

来源：lmarena-ai/leaderboard-dataset　|　快照日期：2026-05-14

本期无变动（与上期对比未检测到变化数据）。

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1501.5
2	claude-opus-4-7-thinking	1500.4
3	claude-opus-4-6	1497.7
4	claude-opus-4-7	1492.1
5	muse-spark	1490.1

注：claude-opus-4-6-thinking 以 1.1 分微弱优势超越 4-7-thinking 登顶。Top 4 全为 Claude 系列。

2. SWE-bench Verified

来源：live-swe-agent、sonarsource 等　|　快照日期不一（见表）

Top 3（无变动）：

排名	Agent + 模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28

显著变化：

模型	变化	排名	分数
devlo	⬇️ 下降	#44 → #94	70.2 → 54.2
Warp	⬇️ 下降	#11 → #36	75.6 → 71.0
Nemotron-CORTEXA	⬇️ 下降	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	⬆️ 上升	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	⬇️ 下降	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	⬇️ 下降	#120 → #126	45.4 → 43.6

3. SWE-bench Pro Public

来源：Scale AI Leaderboard　|　快照日期：2026-05-19

本期无变动（仅提供当前快照）。

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.9

注：GPT-5.4 以 4.1 分领先第二名 Muse Spark；Anthropic 和 Google 紧随其后。

4. Terminal Bench 2.0

来源：tbench.ai　|　快照日期：2026-05-14/15

Top 3（无变动）：

排名	Agent + 模型	分数	采集日期
1	vix / Claude Opus 4.7	90.2	2026-05-15
2	JJAgent / Multiple	87.1	2026-05-15
3	NexAU-AHE / GPT-5.5	84.7	2026-05-14

显著变化：

模型	变化	排名	分数
LemonHarness / Multiple	⬆️ 大幅上升	#10 → #4	79.9 → 84.5
little-coder / Qwen3.6-35B-A3B	⬆️ 小幅上升	#122 → #117	23.0 → 24.6
Warp / Multiple	⬇️ 下降	#42 → #48/66	61.2 → 59.1/50.1

三、关注要点

Codex 生态扩张明显：OpenAI 一周内密集发布 Codex 移动端、Chrome 扩展、Windows 沙箱、Dell 合作，CLI 更新至 0.131.0，企业场景覆盖（金融、销售、数据科学、业务运营）
Anthropic 基础设施投资：收购 Stainless（SDK 平台）+ Claude Code Agent View（Research Preview）+ $2 亿盖茨基金会公益合作
xAI Grok 4.3 进入第一梯队：LM Arena #10（1478.7），登顶 ArtificialAnlys 工具调用榜单，Grok Build CLI beta 瞄准开发者
SWE-bench Verified 变化剧烈：多款 Agent 分数大幅下降（devlo -16 分，Warp -4.6 分），可能与评估方法或数据集更新有关
无采集失败来源：所有数据源均正常

来源 · 64 条

openai.com ×35 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×6 blog.google ×4 @xai ×6