AI 日报 2026-06-17 08:47

核心速览

【OpenAI】收购 Ona，扩展 Codex 云端能力

OpenAI 计划收购 Ona，为 Codex 添加安全、持久的云环境支持，使 AI agent 能够跨企业工作流执行长时运行任务。这标志着 OpenAI 从代码辅助工具向企业级持续运行 agent 平台转型。
🔗 https://openai.com/index/openai-to-acquire-ona

【OpenAI】部署模拟技术：发布前预测模型行为

OpenAI 推出 Deployment Simulation 方法，通过真实对话数据在模型发布前预测其行为，提升安全性和评估准确度。该技术能在大规模部署前识别潜在风险，降低模型上线后的意外问题。
🔗 https://openai.com/index/deployment-simulation

【OpenAI】提交 S-1 文件，启动 IPO 流程

OpenAI 已向 SEC 秘密提交 S-1 招股书草案，但尚未确定具体上市时间表。此举意味着 OpenAI 正式启动上市准备，估值和商业化进展将受到更严格审查。
🔗 https://openai.com/index/openai-submits-confidential-s-1

【Anthropic】美国政府紧急限制 Fable 5 和 Mythos 5 访问

美国政府以国家安全为由，禁止所有外国公民（包括 Anthropic 外籍员工）访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫全面停用这两个模型，正在与政府协商恢复访问。其他 Claude 模型不受影响。
🔗 https://x.com/AnthropicAI/status/2065597531644743999

【xAI】Grok Build 插件市场上线，集成 MongoDB、Vercel 等服务

xAI 发布 Grok Build 插件市场 beta 版，支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件。开发者可通过命令行直接调用这些服务，实现数据库操作、部署管理、错误追踪等功能，大幅简化开发流程。
🔗 https://x.ai/news/grok-plugin-marketplace

重大 Benchmark 变化

SWE-bench Verified

LemonHarness / Multiple 在 [email protected] 排名从第 8 跃升至第 2，分数从 79.9 提升至 84.5（+5.8%）
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 排名从 103 跃升至 76（+27 名），分数从 52.2 提升至 60.4（+15.7%）
devlo 排名从 44 下降至 94（-50 名），分数从 70.2 下降至 54.2（-22.8%）
Warp 排名从 11 下降至 36（-25 名），分数从 75.6 下降至 71.0（-6.1%）

[email protected]

Warp / Multiple 排名从 41 大幅下降至 65（-24 名），分数从 61.2 暴跌至 50.1（-18.1%）

快速预览

Anthropic 重大事件：美国政府以国家安全为由发出出口管制令，强制下线 Claude Fable 5 和 Mythos 5，所有外籍用户及员工均受影响，其他 Claude 模型不受波及。
OpenAI 双线推进：秘密提交 IPO S-1 文件；同日宣布收购云环境初创公司 Ona，以扩展 Codex 企业级 agent 能力。
SWE-bench Pro 榜首：gpt-5.4 (xHigh) 以 59.1 分领跑，Muse Spark 55.0 分居次；SWE-bench Verified 榜首不变，仍为 live-SWE-agent + Claude 4.5 Opus（79.2）。
Benchmark 波动：Warp 在 SWE-bench Verified 大跌（75.6→71.0，第 11→36），devlo 同样下滑（70.2→54.2）；Terminal Bench 中 LemonHarness 强势上升（79.9→84.5，第 8→2）。
数据缺失提示：lmarena-leaderboard 本期采集失败，相关排名数据不可用。

一、行业动态

Anthropic

2026-06-13 — 美国政府援引国家安全权力，对 Claude Fable 5 和 Mythos 5 发出出口管制令，要求暂停所有外籍人士访问权限（含 Anthropic 外籍员工）。Anthropic 被迫全面关闭两款模型的访问入口，并表示认为系误解、正积极恢复中。其他所有 Claude 模型访问不受影响。原文

2026-06-16 — Anthropic 发布研究报告，分析 Claude Code 用户的专业背景与使用效果关系：领域专家成功率更高，但中等熟练度与专家级差距较小，说明具备领域知识即可有效使用 AI 编程工具。研究报告

2026-06-11 — 启动 Claude Corps 奖学金计划，招募 1,000 名应届生进驻美国非营利机构，由 Anthropic 支付薪酬，推广 AI 在公益领域的应用。详情

2026-06-09 — 正式发布 Claude Fable 5，定位为 Mythos 级能力、经安全处理后对外开放，能力超越此前所有公开模型。公告

2026-06-08 — 科学博客探讨 AI 在生物领域滞后于编程的原因，提出生物数据库基础设施不适配 agent 操作这一核心问题。博客

2026-06-05 — 研究发现 Opus 4.7 在 NMR 波谱解析任务上可媲美甚至超越专业软件。详情

Claude Code 更新

版本	日期	主要变化
v2.1.179	2026-06-16	修复流式连接中断导致的部分响应丢失及 spinner 卡死问题
v2.1.178	2026-06-15	新增 `Tool(param:value)` 权限规则语法，支持 `*` 通配符匹配工具参数
v2.1.176	2026-06-12	会话标题现以对话语言自动生成
v2.1.175	2026-06-12	新增 `enforceAvailableModels` 托管设置，强制约束默认模型选择范围

OpenAI

2026-06-16 — 发布 Deployment Simulation，利用真实对话数据在部署前预测模型行为，提升安全评估准确性。原文

2026-06-16 — Codex 出现大规模"模型容量不足"错误，官方在约 6 小时后修复，并宣布 24 小时内重置所有套餐的速率限制。状态页

2026-06-14 — 宣布 OpenAI Partner Network，投入 1.5 亿美元扶持全球合作伙伴加速企业 AI 部署。原文

2026-06-11 — 宣布收购 Ona，为 Codex 提供安全、持久的云端运行环境，支持企业长时 agent 工作流。原文

2026-06-10 — 发布报告揭示 PRC 关联影响行动，借助 AI 渗透美国 AI 政策讨论、数据中心叙事及关税议题。原文

2026-06-08 — 向 SEC 秘密提交 S-1 文件，IPO 时间表尚未确定。原文

2026-06-03 — GPT-Rosalind 新增生物推理、药物化学、基因组分析和实验流程能力。原文

Codex 产品更新

版本/日期	主要变化
2026-06-16	Codex app 功能向欧洲经济区、英国、瑞士开放
2026-06-15	iOS 新增工作区文件浏览器；CLI 0.140.0 新增 `/usage` token 用量视图
2026-06-11	Plus/Pro 用户新增速率限制重置银行功能及推荐奖励机制
2026-06-09	新增从 Claude Code 迁移到 Codex 的一键导入流程

xAI (Grok)

2026-06-16 — Grok in PowerPoint 插件正式上线，支持实时数据、MCP 连接及图表/图像生成。详情

2026-06-15 — Grok Build 接入 Warp 终端，SuperGrok/X Premium 订阅可直接使用。详情

2026-06-15 — Grok Build 新增多 agent 并行管理的 Agent Dashboard，支持 /dashboard 命令调度。详情

2026-06-11 — Grok Build Plugin Marketplace 进入 Beta，首批支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools。详情

2026-06-10 — Grok Voice Think Fast 1.0 在 EVA-Bench 语音评测中登上 Pareto 前沿，价格显著低于竞品。详情

2026-06-03 — Grok Imagine 1.5 Preview 上线 API；Grok STT/TTS 接入 Vapi 语音平台；Grok 模型在 Cloudflare AI Gateway 可用。

Google

2026-06-15 — 宣布 2026-2027 年向阿拉巴马州数据中心追加投资 15 亿美元。原文

2026-06-11 — Gemini Omni Flash 在 Video Arena（文生视频、图生视频）均夺得第一，文生视频较 Veo 3.1 大幅提升 +158 分。Google DeepMind 定义 Gemini Omni 为"从任意内容创建任意内容"的首步。详情

2026-06-11 — DiffusionGemma 发布（Apache 2.0），采用并行块级文本生成，速度为 Gemma 4 同类模型的 4 倍。详情

2026-06-11 — Gemini Notebooks 向欧洲经济区、英国、瑞士开放。详情

二、Benchmark 快照

SWE-bench Verified（代码修复，开源）

来源：swebench-verified | 本期无新入榜变动，Top 3 保持不变。

排名	系统	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期榜单变化（显著）：

模型	分数变化	排名变化
EntroPO + R2E + Qwen3-Coder-30B-A3B	52.2 → 60.4 ↑	#103 → #76
Warp	75.6 → 71.0 ↓	#11 → #36
devlo	70.2 → 54.2 ↓	#44 → #94
Nemotron-CORTEXA	68.2 → 58.2 ↓	#50 → #82
EPAM AI/Run + GPT4o	27.0 → 24.0 ↓	#156 → #162
Solver (2024-09-12)	45.4 → 43.6 ↓	#120 → #126

SWE-bench Pro Public（代码修复，更难版本）

来源：Scale AI Labs | 快照时间：2026-06-17

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

*注：标 * 为 API/agent 提交，非独立系统。

Terminal Bench 2.0（终端 agent 操作）

来源：tbench.ai | 本期无新入榜变动，Top 3 如下：

排名	系统	分数
1	NexAU-AHE / GPT-5.5	84.7
2	LemonHarness / Multiple	84.5
3	Capy / GPT-5.5	83.1

本期榜单变化：

模型	分数变化	排名变化
LemonHarness / Multiple	79.9 → 84.5 ↑	#8 → #2
Gemini CLI / Gemini 3.1 Pro	59.4 → 61.4 ↑	#45 → #40
Warp / Multiple	61.2 → 50.1 ↓	#41 → #65
little-coder / Qwen3.6-35B-A3B	23.0 → 24.6 ↑	#121 → #116

LM Arena 综合榜

本期数据采集失败，无法提供排名信息。请参阅官方页面获取最新数据。

来源 · 78 条

openai.com ×24 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×7 blog.google ×4 @xai ×15 @thsottiaux ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3