AI 日报 2026-05-19 08:49
2026-05-19 08:49 CST
核心速览
【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless,后者是为其 API 提供所有 SDK 及 MCP 服务器支持的平台公司。此次收购将加强 Anthropic 的开发者工具链,巩固 API 生态基础设施能力。 🔗 原文链接
【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作,承诺提供 2 亿美元的资助、Claude 额度及技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性领域,推进 AI 在公共事业中的应用。 🔗 原文链接
【xAI】Grok 4.3 上线,登顶多项评测榜单 xAI 发布 Grok 4.3,声称是最快速、最智能的模型。该模型在 Artificial Analysis 评测中排名第一(智能体工具调用和指令遵循),并在 ValsAI 企业领域(案例法、企业金融)排名第一,支持 100 万 token 上下文,定价 $1.25/$2.50 per million tokens。 🔗 原文链接
【OpenAI】与 Dell 合作将 Codex 推向混合/本地企业环境 OpenAI 与戴尔达成合作,将 Codex AI 编程代理引入混合云和本地部署环境。此举旨在帮助企业在自身数据和工作流中安全部署 AI 编程代理,加速企业级 Codex 采用。 🔗 原文链接
【OpenAI】成立 DeployCo 企业部署公司 OpenAI 成立 DeployCo,一家专注于帮助组织将前沿 AI 落地生产、转化为可衡量商业价值的企业部署公司,标志着 OpenAI 从模型研发向企业落地交付的战略延伸。 🔗 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 (+27) | 52.2 → 60.4 (+15.7%) | 大幅跃升,30B 参数编码模型表现抢眼 |
| devlo | 44 → 83/94 (↓39–50) | 70.2 → 54.2–58.2 (↓17–23%) | 排名大幅下滑,疑似评测配置或回归问题 |
| Nemotron-CORTEXA | 50 → 82 (↓32) | 68.2 → 58.2 (↓14.7%) | 显著下跌,可能与评测基线调整有关 |
| Warp | 11 → 36 (↓25) | 75.6 → 71.0 (↓6.1%) | 排名下滑明显,仍保持 70+ 水平 |
| EPAM AI/Run + GPT4o | 156 → 162 (↓6) | 27.0 → 24.0 (↓11.1%) | 分数下降超 5%,排名小幅后移 |
Terminal-Bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness / Multiple | 10 → 4 (+6) | 79.9 → 84.5 (+5.8%) | 冲入 Top 5,终端能力显著提升 |
| Warp / Multiple | 42 → 48/66 | 61.2 → 50.1–59.1 (↓3.4–18.1%) | 两项提交均下滑,最低跌至 50.1 |
快速预览
- Anthropic 收购 Stainless(SDK/MCP 平台),强化 API 基础设施;同时与盖茨基金会达成 $2 亿合作
- OpenAI × Dell 将 Codex 推入混合/本地企业环境(5/18);Codex CLI 发布 0.131.0
- xAI 发布 Grok Build(agentic CLI)beta,Grok 4.3 登顶 ArtificialAnlys 工具调用/指令遵循榜单
- LM Arena 榜首易主:claude-opus-4-6-thinking(1501.5)超越 claude-opus-4-7-thinking(1500.4)夺冠
- SWE-bench Verified 有显著波动:devlo 从 #44 跌至 #94,Warp 从 #11 跌至 #36;EntroPO + Qwen3-Coder 从 #103 升至 #76
一、行业新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-18 | OpenAI × Dell:Codex 进军混合/本地企业 | 企业可跨数据和工作流安全部署 AI 编程代理 |
| 05-16 | OpenAI × Malta:ChatGPT Plus 面向全民 | 全民获取 ChatGPT Plus 及 AI 技能培训 |
| 05-15 | Databricks 引入 GPT-5.5 用于企业 Agent 工作流 | GPT-5.5 在 OfficeQA Pro benchmark 刷新 SOTA |
| 05-15 | ChatGPT 个人理财体验(美国 Pro 用户预览) | 安全连接金融账户,提供 AI 理财建议 |
| 05-14 | Sea Limited 全面部署 Codex | CPO 阐述亚洲 AI 原生软件开发战略 |
| 05-14 | Codex 移动端上线 | ChatGPT 移动 App 可连接 Mac 运行 Codex |
| 05-14 | ChatGPT 敏感对话上下文识别能力升级 | 新安全更新增强长期风险检测 |
| 05-13 | Codex Windows 安全沙箱 | 受控文件访问和网络限制 |
| 05-13 | TanStack npm 供应链攻击应对 | macOS 用户需在 6/12 前更新 OpenAI 应用 |
| 05-11 | OpenAI 成立 DeployCo | 专门帮助企业将前沿 AI 投产并转化为商业价值 |
| 05-07 | ChatGPT 广告测试 | 支持免费访问,明确标注、强隐私保护 |
| 05-07 | GPT-5.5 及 GPT-5.5-Cyber Trusted Access 扩展 | 面向安全防御者的漏洞研究加速 |
| 05-05 | GPT-5.5 Instant 发布 | ChatGPT 默认模型升级:更智能、减少幻觉、个性化增强 |
| 05-05 | MRC 超算网络协议 | 通过 OCP 发布,提升大规模 AI 训练集群韧性 |
OpenAI Codex 更新日志
| 日期 | 版本/标题 | 要点 |
|---|---|---|
| 05-18 | Codex CLI 0.131.0 | TUI 会话控制增强:数据驱动服务层命令、混合 token 用量、权限/审批模式 |
| 05-14 | Codex 移动端 | ChatGPT 移动 App 连接 Mac 运行 Codex |
| 05-11 | Auto-review 文档扩展 | 审阅者生命周期、触发条件、失败行为 |
| 05-08 | Codex CLI 0.130.0 | 插件详情显示 bundled hooks,插件分享增强 |
| 05-07 | Codex for Chrome | 浏览器扩展:跨标签后台运行,用户控制网站访问权限 |
Anthropic
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-18 | 收购 Stainless | SDK 和 MCP 服务器平台,已支撑所有 Anthropic SDK |
| 05-14 | 美中 AI 竞争论文 | 阐述保持前沿 AI 领先所需条件 |
| 05-14 | × 盖茨基金会 $2 亿合作 | 资助、Claude 额度及技术支持,覆盖全球健康/生命科学/教育/农业/经济流动 |
| 05-11 | Claude Constitution 有声书发布 | Amanda Askell 和 Joe Carlsmith 朗读,含创作 Q&A |
| 05-07 | Petri 对齐工具捐赠给 Meridian Labs | 大版本更新:提升测试适应性、真实性和深度 |
| 05-07 | Bug Bounty 公开上线 HackerOne | 任何人可报告漏洞并获得奖励 |
Claude Code 发版
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-15 | v2.1.143 | 插件依赖强制:disable 拒绝被依赖项,enable 自动启用传递依赖 |
| 05-14 | v2.1.142 | claude agents 新增 --add-dir、--model、--effort 等标志 |
| 05-13 | v2.1.141 | hook JSON 输出新增 terminalSequence 字段,支持桌面通知 |
| 05-12 | v2.1.140 | Agent subagent_type 匹配忽略大小写和分隔符 |
| 05-11 | v2.1.139 | Agent View(Research Preview):统一查看所有会话状态 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-18 | NVIDIA Vera CPU × SpaceX 试用转推 | 强调 agentic AI 专用 CPU |
| 05-15 | Grok × NousResearch Hermes Agent 集成 | Grok 订阅可用于 Hermes Agent |
| 05-14 | Grok Build CLI beta 上线 | agentic CLI,SuperGrok Heavy 用户可用 |
| 05-08 | Grok 连接器扩展 | 支持邮件、Slides、日历、Notion,全平台可用 |
| 05-07 | 图片生成 Quality Mode API 上线 | 已生成超 3 亿张图片,更高真实感/文字渲染 |
| 05-05 | Grok 4.3 发布 | 登顶 ArtificialAnlys 工具调用/指令遵循榜单;ValsAI 企业领域 #1;100 万 token 上下文;$1.25/$2.50 定价 |
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-11 | AI 驱动 Google Finance 扩展至欧洲 | 金融信息 AI 体验 |
| 05-08 | The Small Brief:AI 为小企业做广告 | 创意大师用 AI 制作广告 |
| 05-05 | × XPRIZE $350 万 Future Vision 电影竞赛 | AI 电影创作竞赛 |
二、Benchmark 快照与变化
1. LM Arena(Overall)
来源:lmarena-ai/leaderboard-dataset | 快照日期:2026-05-14
本期无变动(与上期对比未检测到变化数据)。
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.5 |
| 2 | claude-opus-4-7-thinking | 1500.4 |
| 3 | claude-opus-4-6 | 1497.7 |
| 4 | claude-opus-4-7 | 1492.1 |
| 5 | muse-spark | 1490.1 |
注:claude-opus-4-6-thinking 以 1.1 分微弱优势超越 4-7-thinking 登顶。Top 4 全为 Claude 系列。
2. SWE-bench Verified
来源:live-swe-agent、sonarsource 等 | 快照日期不一(见表)
Top 3(无变动):
| 排名 | Agent + 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
显著变化:
| 模型 | 变化 | 排名 | 分数 |
|---|---|---|---|
| devlo | ⬇️ 下降 | #44 → #94 | 70.2 → 54.2 |
| Warp | ⬇️ 下降 | #11 → #36 | 75.6 → 71.0 |
| Nemotron-CORTEXA | ⬇️ 下降 | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | ⬆️ 上升 | #103 → #76 | 52.2 → 60.4 |
| EPAM AI/Run + GPT4o | ⬇️ 下降 | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | ⬇️ 下降 | #120 → #126 | 45.4 → 43.6 |
3. SWE-bench Pro Public
来源:Scale AI Leaderboard | 快照日期:2026-05-19
本期无变动(仅提供当前快照)。
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
注:GPT-5.4 以 4.1 分领先第二名 Muse Spark;Anthropic 和 Google 紧随其后。
4. Terminal Bench 2.0
来源:tbench.ai | 快照日期:2026-05-14/15
Top 3(无变动):
| 排名 | Agent + 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 | 2026-05-15 |
| 2 | JJAgent / Multiple | 87.1 | 2026-05-15 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 | 2026-05-14 |
显著变化:
| 模型 | 变化 | 排名 | 分数 |
|---|---|---|---|
| LemonHarness / Multiple | ⬆️ 大幅上升 | #10 → #4 | 79.9 → 84.5 |
| little-coder / Qwen3.6-35B-A3B | ⬆️ 小幅上升 | #122 → #117 | 23.0 → 24.6 |
| Warp / Multiple | ⬇️ 下降 | #42 → #48/66 | 61.2 → 59.1/50.1 |
三、关注要点
- Codex 生态扩张明显:OpenAI 一周内密集发布 Codex 移动端、Chrome 扩展、Windows 沙箱、Dell 合作,CLI 更新至 0.131.0,企业场景覆盖(金融、销售、数据科学、业务运营)
- Anthropic 基础设施投资:收购 Stainless(SDK 平台)+ Claude Code Agent View(Research Preview)+ $2 亿盖茨基金会公益合作
- xAI Grok 4.3 进入第一梯队:LM Arena #10(1478.7),登顶 ArtificialAnlys 工具调用榜单,Grok Build CLI beta 瞄准开发者
- SWE-bench Verified 变化剧烈:多款 Agent 分数大幅下降(devlo -16 分,Warp -4.6 分),可能与评估方法或数据集更新有关
- 无采集失败来源:所有数据源均正常