AI 日报 2026-06-14 08:51

核心速览

【Anthropic】美国政府以国家安全为由，强制下线 Fable 5 和 Mythos 5

美国政府援引出口管制权限，要求 Anthropic 立即暂停所有外国公民（包括 Anthropic 外籍员工）访问 Fable 5 和 Mythos 5 的权限，导致这两款旗舰模型对全球用户全面下线。Anthropic 表示认为此举系误解，正积极沟通恢复访问。此事件对 Anthropic 的全球业务和客户信任造成重大冲击。原文

【Anthropic】Claude Fable 5 正式发布，能力超越历代所有公开模型

Anthropic 推出 Claude Fable 5，定位为 Mythos 级能力的通用安全版本，声称其能力超越此前所有公开发布的模型。发布仅数天即遭政府下线，引发行业广泛关注。该模型已有用户演示用其在 10 分钟内生成完整 V8 引擎 CAD 模型。原文

【OpenAI】宣布收购 Ona，强化 Codex 长时运行能力

OpenAI 宣布收购云端安全执行平台 Ona，收购完成后 Ona 将并入 Codex 团队。Ona 的技术将使 Codex 支持跨企业工作流的长时 Agent 任务，在笔记本关闭时仍可持续运行，重点解决企业安全部署问题。原文

【OpenAI】向 SEC 秘密提交 S-1 文件，IPO 进程正式启动

OpenAI 确认已向美国证券交易委员会秘密提交 S-1 上市申请，但表示尚未确定后续时间表。这是 OpenAI 迈向公开上市的关键一步，对 AI 行业融资格局和竞争态势具有深远影响。原文

【xAI】Grok Build 插件市场进入 Beta，Grok Voice 登顶语音 Benchmark

xAI 推出 Grok Build 插件市场 Beta 版，首批支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件，可直接从终端调用。同期，Grok Voice Think Fast 1.0 在 EVA-Bench 语音评测中达到 Pareto 前沿，在精度和体验双维度上无模型能同时超越。原文

重大 Benchmark 变化

SWE-bench Verified

devlo 分数从 70.2 骤降至 58.2（-12.0 分），排名从 44 跌至 83（-39 位），显著下滑。
Nemotron-CORTEXA 分数从 68.2 降至 58.2（-10.0 分），排名从 50 跌至 82（-32 位）。
Warp 分数从 75.6 降至 71.0（-4.6 分），排名从 11 跌至 36（-25 位）。
EntroPO + R2E + Qwen3-Coder-30B 分数从 52.2 升至 60.4（+8.2 分），排名从 103 升至 76（+27 位），表现亮眼。

Terminal Bench 2.0

LemonHarness / Multiple 分数从 79.9 升至 84.5（+4.6 分），排名从 8 跃升至 2（+6 位），进入前三。
Warp / Multiple 分数从 61.2 跌至 50.1（-11.1 分），排名从 41 跌至 65（-24 位），大幅下降。

快速预览

重大事件：美国政府以国家安全为由发出出口管制指令，Anthropic 被迫下线 Fable 5 和 Mythos 5，对所有外籍用户暂停访问，其余 Claude 模型不受影响。
OpenAI 并购：OpenAI 宣布收购 Ona，将其安全云执行技术整合进 Codex，支持长时间运行的企业级 Agent 工作流。
xAI 产品：Grok Build Plugin Marketplace 进入 Beta，支持 MongoDB、Vercel、Sentry、Cloudflare 等插件；Grok Voice 在 EVA-Bench 上进入 Pareto 前沿。
Benchmark 要点：SWE-Bench Pro Public 榜首为 gpt-5.4 xHigh（59.1），SWE-Bench Verified 本期无 Top 3 变动；Terminal-Bench 2.0 中 LemonHarness 从第 8 跃升至第 2（79.9→84.5）。
数据缺口：lmarena-leaderboard 本期采集失败，相关排名无法提供。

详细正文

Anthropic

2026-06-13 | 紧急公告：美国政府援引国家安全权限，发布出口管制指令，要求暂停所有外籍人士（包括 Anthropic 外籍员工）对 Fable 5 和 Mythos 5 的访问。Anthropic 为确保合规已全面关闭这两个模型的访问入口，其他 Claude 模型不受影响。Anthropic 表示认为此事存在误解，正积极寻求尽快恢复访问。(来源)

2026-06-11：Anthropic 宣布启动 Claude Corps——一项国家级 fellowship 项目，将为 1,000 名职业早期人士提供 AI 培训并派驻美国非营利机构，以 AI 推动公益使命。(来源)

2026-06-09：推出 Claude Fable 5，定位为"Mythos 级能力、已通过安全审查的通用版本"，能力超过此前所有公开模型。用户反馈其在 CAD 等工程设计任务上表现突出。(来源)

2026-06-08：发布科学博客，探讨为何 AI 在编程领域的进展远快于生物学，指出生物数据库的基础设施设计严重阻碍 Agent 使用。(来源)

2026-06-05：Opus 4.7 在 NMR 波谱解析任务上达到或超过专用软件水平，Anthropic 发布"让 Claude 成为化学家"科学博客。(来源)

2026-06-03：发布 AI 网络威胁研究，分析 832 个恶意账号，映射至 MITRE ATT&CK 框架，评估安全社区防御技术对 AI 辅助攻击的有效性。(来源)

2026-06-02：扩大 Project Glasswing 范围，将 Claude Mythos Preview 访问权限延伸至约 150 个机构，覆盖 15 个以上国家；同日表态支持白宫 AI 创新与安全行政令。(来源)

Claude Code 近期更新（来源：GitHub Releases）

版本	日期	主要变更
v2.1.177	06-13	（无公开摘要）
v2.1.176	06-12	Session 标题自动以对话语言生成，可通过 `language` 设置固定
v2.1.175	06-12	新增 `enforceAvailableModels` 托管设置，强制约束默认模型选择
v2.1.174	06-12	新增 `wheelScrollAccelerationEnabled` 设置，可关闭全屏滚轮加速
v2.1.173	06-11	修复 Fable 5 模型名称含 `[1m]` 后缀时未被标准化的问题

OpenAI

2026-06-12：OpenAI Academy 上线三门新课程，聚焦实用 AI 技能、可复现工作流与 Agent 应用。(来源) | Preply 借助 OpenAI 推出 AI 生成课程摘要和个性化语言练习。(来源)

2026-06-11：宣布收购 Ona，其安全云执行技术将帮助 Codex 支持关机状态下的长时 Agent 任务及企业级安全部署。(来源) | OpenAI 支持欧盟 AI 内容透明度行为准则，推进溯源标准。(来源) | BBVA 将 ChatGPT Enterprise 扩展至 10 万名员工。(来源)

2026-06-10：OpenAI 模型和 Codex 现可通过 Oracle Cloud 现有承诺额度访问。(来源) | 发布报告揭露 PRC 关联影响力行动，利用 AI 干预美国 AI 政策辩论。(来源)

2026-06-08：向 SEC 秘密提交 S-1 草案，IPO 时间表未定。(来源) | 启动经济研究交流计划（Economic Research Exchange），研究 AI 对就业和生产力的影响。(来源)

2026-06-01：OpenAI 模型和 Codex 正式登陆 AWS，可通过企业现有 AWS 环境采购使用。(来源) | 在密歇根州破土动工 1GW 数据中心（Stargate 项目）。(来源)

Codex 近期更新

版本/平台	日期	主要变更
App 26.609	06-11	Plus/Pro 用户获得速率限制重置储蓄功能，含推荐奖励机制
App 26.608	06-09	新增从 Claude Code / Claude Cowork 迁移导入流程
iOS 1.2026.153	06-09	支持选择分支、创建 worktree、设置环境初始化脚本
CLI 0.139.0	06-09	Code 模式可直接调用独立网络搜索，含嵌套 JS 工具调用
CLI 0.138.0	06-08	`/app` 命令可将 CLI 线程移交至 macOS/Windows Codex Desktop

Google / DeepMind

2026-06-11：Gemini Omni Flash 在 Video Arena（文本转视频、图像转视频）登顶第一，较 Veo 3.1 提升 158 分。(来源) | DiffusionGemma 发布（Apache 2.0），基于文本扩散并行生成技术，速度为其他 Gemma 4 模型的 4 倍。(来源) | Gemini Notebooks 扩展至欧洲经济区、英国和瑞士。(来源) | Google 宣布弗吉尼亚州社区投资计划，支持劳动力培训与能源项目。(来源)

2026-06-01：Google 发文回顾如何用 Gemini 构建 Google I/O 2026 活动。(来源)

xAI

2026-06-11：Grok Build Plugin Marketplace 进入 Beta，首批支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 五个插件，可通过终端调用。(来源)

2026-06-10：Grok Voice Think Fast 1.0 在 EVA-Bench 上进入 Pareto 前沿（精度与体验不可兼得时均不被超越），定价远低于竞品。(来源) | xAI 与 eToro 合作，其 AI Agent Tori 利用 Grok 模型和实时数据分析市场情绪。(来源)

2026-06-09：与 Gopuff 合作推出 Go 购物助手，整合文本、语音和图像模型实现分钟级配送。(来源)

2026-06-03：Grok Imagine 1.5 Preview 上线 API。(来源) | Grok 模型接入 Cloudflare AI Gateway，无需额外鉴权。(来源) | Grok STT 和 TTS 接入 Vapi 企业语音 AI 平台。(来源)

Benchmark 快照

SWE-Bench Verified（来源）

本期无 Top 3 变动。当前 Top 3：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变化（中尾部）：

模型	分数变化	排名变化
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct	52.2 → 60.4 ↑	103 → 76 ↑
Warp	75.6 → 71.0 ↓	11 → 36 ↓
devlo	70.2 → 54.2 ↓	44 → 94 ↓
Nemotron-CORTEXA	68.2 → 58.2 ↓	50 → 82 ↓
EPAM AI/Run Developer Agent + GPT4o	27.0 → 24.0 ↓	156 → 162 ↓
Solver (2024-09-12)	45.4 → 43.6 ↓	120 → 126 ↓

SWE-Bench Pro Public（来源）

数据采集时间：2026-06-14。当前 Top 3（标 * 为非公开系统）：

排名	模型	分数
1	gpt-5.4 xHigh *	59.1
2	Muse Spark *	55.0
3	claude-opus-4-6 thinking *	51.9

Top 10 中 gemini-3.1-pro thinking（46.1）排名第 4，claude-opus-4-5（45.89）第 5。本期无专项变化数据记录。

Terminal-Bench 2.0（来源）

当前 Top 3（快照日期 2026-05-14）：

排名	模型	分数
1	NexAU-AHE / GPT-5.5	84.7
2	LemonHarness / Multiple	84.5
3	Capy / GPT-5.5	83.1

本期变化：

模型	分数变化	排名变化
LemonHarness / Multiple	79.9 → 84.5 ↑	8 → 2 ↑
Gemini CLI / Gemini 3.1 Pro	59.4 → 61.4 ↑	45 → 40 ↑
little-coder / Qwen3.6-35B-A3B	23.0 → 24.6 ↑	121 → 116 ↑
Warp / Multiple	61.2 → 50.1 ↓	41 → 65 ↓

lmarena-leaderboard

本期采集失败，无数据可用。

来源 · 80 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×8 blog.google ×4 @xai ×11 @thsottiaux ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3