AI 日报 2026-06-14 08:51

2026-06-14 08:51 CST

核心速览

【Anthropic】美国政府以国家安全为由,强制下线 Fable 5 和 Mythos 5

美国政府援引出口管制权限,要求 Anthropic 立即暂停所有外国公民(包括 Anthropic 外籍员工)访问 Fable 5 和 Mythos 5 的权限,导致这两款旗舰模型对全球用户全面下线。Anthropic 表示认为此举系误解,正积极沟通恢复访问。此事件对 Anthropic 的全球业务和客户信任造成重大冲击。 原文


【Anthropic】Claude Fable 5 正式发布,能力超越历代所有公开模型

Anthropic 推出 Claude Fable 5,定位为 Mythos 级能力的通用安全版本,声称其能力超越此前所有公开发布的模型。发布仅数天即遭政府下线,引发行业广泛关注。该模型已有用户演示用其在 10 分钟内生成完整 V8 引擎 CAD 模型。 原文


【OpenAI】宣布收购 Ona,强化 Codex 长时运行能力

OpenAI 宣布收购云端安全执行平台 Ona,收购完成后 Ona 将并入 Codex 团队。Ona 的技术将使 Codex 支持跨企业工作流的长时 Agent 任务,在笔记本关闭时仍可持续运行,重点解决企业安全部署问题。 原文


【OpenAI】向 SEC 秘密提交 S-1 文件,IPO 进程正式启动

OpenAI 确认已向美国证券交易委员会秘密提交 S-1 上市申请,但表示尚未确定后续时间表。这是 OpenAI 迈向公开上市的关键一步,对 AI 行业融资格局和竞争态势具有深远影响。 原文


【xAI】Grok Build 插件市场进入 Beta,Grok Voice 登顶语音 Benchmark

xAI 推出 Grok Build 插件市场 Beta 版,首批支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件,可直接从终端调用。同期,Grok Voice Think Fast 1.0 在 EVA-Bench 语音评测中达到 Pareto 前沿,在精度和体验双维度上无模型能同时超越。 原文


重大 Benchmark 变化

SWE-bench Verified

  • devlo 分数从 70.2 骤降至 58.2(-12.0 分),排名从 44 跌至 83(-39 位),显著下滑。
  • Nemotron-CORTEXA 分数从 68.2 降至 58.2(-10.0 分),排名从 50 跌至 82(-32 位)。
  • Warp 分数从 75.6 降至 71.0(-4.6 分),排名从 11 跌至 36(-25 位)。
  • EntroPO + R2E + Qwen3-Coder-30B 分数从 52.2 升至 60.4(+8.2 分),排名从 103 升至 76(+27 位),表现亮眼。

Terminal Bench 2.0

  • LemonHarness / Multiple 分数从 79.9 升至 84.5(+4.6 分),排名从 8 跃升至 2(+6 位),进入前三。
  • Warp / Multiple 分数从 61.2 跌至 50.1(-11.1 分),排名从 41 跌至 65(-24 位),大幅下降。

快速预览

  • 重大事件:美国政府以国家安全为由发出出口管制指令,Anthropic 被迫下线 Fable 5 和 Mythos 5,对所有外籍用户暂停访问,其余 Claude 模型不受影响。
  • OpenAI 并购:OpenAI 宣布收购 Ona,将其安全云执行技术整合进 Codex,支持长时间运行的企业级 Agent 工作流。
  • xAI 产品:Grok Build Plugin Marketplace 进入 Beta,支持 MongoDB、Vercel、Sentry、Cloudflare 等插件;Grok Voice 在 EVA-Bench 上进入 Pareto 前沿。
  • Benchmark 要点:SWE-Bench Pro Public 榜首为 gpt-5.4 xHigh(59.1),SWE-Bench Verified 本期无 Top 3 变动;Terminal-Bench 2.0 中 LemonHarness 从第 8 跃升至第 2(79.9→84.5)。
  • 数据缺口:lmarena-leaderboard 本期采集失败,相关排名无法提供。

详细正文

Anthropic

2026-06-13 | 紧急公告:美国政府援引国家安全权限,发布出口管制指令,要求暂停所有外籍人士(包括 Anthropic 外籍员工)对 Fable 5 和 Mythos 5 的访问。Anthropic 为确保合规已全面关闭这两个模型的访问入口,其他 Claude 模型不受影响。Anthropic 表示认为此事存在误解,正积极寻求尽快恢复访问。(来源)

2026-06-11:Anthropic 宣布启动 Claude Corps——一项国家级 fellowship 项目,将为 1,000 名职业早期人士提供 AI 培训并派驻美国非营利机构,以 AI 推动公益使命。(来源)

2026-06-09:推出 Claude Fable 5,定位为"Mythos 级能力、已通过安全审查的通用版本",能力超过此前所有公开模型。用户反馈其在 CAD 等工程设计任务上表现突出。(来源)

2026-06-08:发布科学博客,探讨为何 AI 在编程领域的进展远快于生物学,指出生物数据库的基础设施设计严重阻碍 Agent 使用。(来源)

2026-06-05:Opus 4.7 在 NMR 波谱解析任务上达到或超过专用软件水平,Anthropic 发布"让 Claude 成为化学家"科学博客。(来源)

2026-06-03:发布 AI 网络威胁研究,分析 832 个恶意账号,映射至 MITRE ATT&CK 框架,评估安全社区防御技术对 AI 辅助攻击的有效性。(来源)

2026-06-02:扩大 Project Glasswing 范围,将 Claude Mythos Preview 访问权限延伸至约 150 个机构,覆盖 15 个以上国家;同日表态支持白宫 AI 创新与安全行政令。(来源)

Claude Code 近期更新(来源:GitHub Releases

版本 日期 主要变更
v2.1.177 06-13 (无公开摘要)
v2.1.176 06-12 Session 标题自动以对话语言生成,可通过 language 设置固定
v2.1.175 06-12 新增 enforceAvailableModels 托管设置,强制约束默认模型选择
v2.1.174 06-12 新增 wheelScrollAccelerationEnabled 设置,可关闭全屏滚轮加速
v2.1.173 06-11 修复 Fable 5 模型名称含 [1m] 后缀时未被标准化的问题

OpenAI

2026-06-12:OpenAI Academy 上线三门新课程,聚焦实用 AI 技能、可复现工作流与 Agent 应用。(来源) | Preply 借助 OpenAI 推出 AI 生成课程摘要和个性化语言练习。(来源)

2026-06-11:宣布收购 Ona,其安全云执行技术将帮助 Codex 支持关机状态下的长时 Agent 任务及企业级安全部署。(来源) | OpenAI 支持欧盟 AI 内容透明度行为准则,推进溯源标准。(来源) | BBVA 将 ChatGPT Enterprise 扩展至 10 万名员工。(来源)

2026-06-10:OpenAI 模型和 Codex 现可通过 Oracle Cloud 现有承诺额度访问。(来源) | 发布报告揭露 PRC 关联影响力行动,利用 AI 干预美国 AI 政策辩论。(来源)

2026-06-08:向 SEC 秘密提交 S-1 草案,IPO 时间表未定。(来源) | 启动经济研究交流计划(Economic Research Exchange),研究 AI 对就业和生产力的影响。(来源)

2026-06-01:OpenAI 模型和 Codex 正式登陆 AWS,可通过企业现有 AWS 环境采购使用。(来源) | 在密歇根州破土动工 1GW 数据中心(Stargate 项目)。(来源)

Codex 近期更新

版本/平台 日期 主要变更
App 26.609 06-11 Plus/Pro 用户获得速率限制重置储蓄功能,含推荐奖励机制
App 26.608 06-09 新增从 Claude Code / Claude Cowork 迁移导入流程
iOS 1.2026.153 06-09 支持选择分支、创建 worktree、设置环境初始化脚本
CLI 0.139.0 06-09 Code 模式可直接调用独立网络搜索,含嵌套 JS 工具调用
CLI 0.138.0 06-08 /app 命令可将 CLI 线程移交至 macOS/Windows Codex Desktop

Google / DeepMind

2026-06-11:Gemini Omni Flash 在 Video Arena(文本转视频、图像转视频)登顶第一,较 Veo 3.1 提升 158 分。(来源) | DiffusionGemma 发布(Apache 2.0),基于文本扩散并行生成技术,速度为其他 Gemma 4 模型的 4 倍。(来源) | Gemini Notebooks 扩展至欧洲经济区、英国和瑞士。(来源) | Google 宣布弗吉尼亚州社区投资计划,支持劳动力培训与能源项目。(来源)

2026-06-01:Google 发文回顾如何用 Gemini 构建 Google I/O 2026 活动。(来源)


xAI

2026-06-11:Grok Build Plugin Marketplace 进入 Beta,首批支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 五个插件,可通过终端调用。(来源)

2026-06-10:Grok Voice Think Fast 1.0 在 EVA-Bench 上进入 Pareto 前沿(精度与体验不可兼得时均不被超越),定价远低于竞品。(来源) | xAI 与 eToro 合作,其 AI Agent Tori 利用 Grok 模型和实时数据分析市场情绪。(来源)

2026-06-09:与 Gopuff 合作推出 Go 购物助手,整合文本、语音和图像模型实现分钟级配送。(来源)

2026-06-03:Grok Imagine 1.5 Preview 上线 API。(来源) | Grok 模型接入 Cloudflare AI Gateway,无需额外鉴权。(来源) | Grok STT 和 TTS 接入 Vapi 企业语音 AI 平台。(来源)


Benchmark 快照

SWE-Bench Verified(来源

本期无 Top 3 变动。当前 Top 3:

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变化(中尾部)

模型 分数变化 排名变化
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 52.2 → 60.4 ↑ 103 → 76 ↑
Warp 75.6 → 71.0 ↓ 11 → 36 ↓
devlo 70.2 → 54.2 ↓ 44 → 94 ↓
Nemotron-CORTEXA 68.2 → 58.2 ↓ 50 → 82 ↓
EPAM AI/Run Developer Agent + GPT4o 27.0 → 24.0 ↓ 156 → 162 ↓
Solver (2024-09-12) 45.4 → 43.6 ↓ 120 → 126 ↓

SWE-Bench Pro Public(来源

数据采集时间:2026-06-14。当前 Top 3(标 * 为非公开系统):

排名 模型 分数
1 gpt-5.4 xHigh * 59.1
2 Muse Spark * 55.0
3 claude-opus-4-6 thinking * 51.9

Top 10 中 gemini-3.1-pro thinking(46.1)排名第 4,claude-opus-4-5(45.89)第 5。本期无专项变化数据记录。


Terminal-Bench 2.0(来源

当前 Top 3(快照日期 2026-05-14):

排名 模型 分数
1 NexAU-AHE / GPT-5.5 84.7
2 LemonHarness / Multiple 84.5
3 Capy / GPT-5.5 83.1

本期变化

模型 分数变化 排名变化
LemonHarness / Multiple 79.9 → 84.5 ↑ 8 → 2 ↑
Gemini CLI / Gemini 3.1 Pro 59.4 → 61.4 ↑ 45 → 40 ↑
little-coder / Qwen3.6-35B-A3B 23.0 → 24.6 ↑ 121 → 116 ↑
Warp / Multiple 61.2 → 50.1 ↓ 41 → 65 ↓

lmarena-leaderboard

本期采集失败,无数据可用。

Sources