AI 日报 2026-06-13 09:47

核心速览

【Anthropic】美国政府出口管制令强制下架 Fable 5 和 Mythos 5

美国政府以国家安全为由，发布出口管制指令，要求暂停所有外国国籍人士（包括 Anthropic 员工）访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫对所有用户关闭这两款模型以确保合规，其他 Claude 模型不受影响。Anthropic 表示认为此举系误解，正积极推动恢复访问。原文

【OpenAI】收购 Ona，强化 Codex 云端 Agent 能力

OpenAI 宣布收购云执行技术公司 Ona，其安全持久化云环境技术将使 Codex 能够在笔记本关闭时持续运行长周期任务，并助力企业在生产环境中安全部署 Agent。Ona 团队将并入 OpenAI Codex 团队。这是 OpenAI 在 Agent 基础设施层面的关键投资。原文

【OpenAI】机密 S-1 文件向 SEC 提交，IPO 进程启动

OpenAI 确认已向美国证券交易委员会（SEC）秘密提交 S-1 上市申请文件，但尚未确定后续时间表。这标志着 OpenAI 正式启动 IPO 前置流程，是其从非营利结构向商业化转型的重大里程碑。原文

【Google DeepMind】Gemini Omni Flash 登顶视频生成榜

Google DeepMind 发布 Gemini Omni，主打"从任意输入生成任意内容"，融合 Gemini 智能与生成媒体系统。Gemini Omni Flash 在 Video Arena 文本转视频和图像转视频双榜均排名第一，较 Veo 3.1 提升 158 分，领先第二名 61 分。原文

【xAI】Grok Build 插件市场上线 Beta，Grok Voice 进入 Pareto 前沿

xAI 推出 Grok Build 插件市场（Beta），支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 等插件，可直接从终端调用。同期，Grok Voice Think Fast 1.0 在 EVA-Bench 语音 Agent 评测中进入 Pareto 前沿，在准确率与体验的权衡上无模型同时超越它。原文

重大 Benchmark 变化

SWE-bench Verified

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升：排名从第 103 升至第 76，分数从 52.2 提升至 60.4（+15.7%），是本周最显著的正向跃升。
Nemotron-CORTEXA 显著下滑：排名从第 50 跌至第 82，分数从 68.2 降至 58.2（-14.7%）。
devlo 明显下滑：排名从第 44 跌至第 83，分数从 70.2 降至 58.2（-17.1%）。
Warp 有所下滑：排名从第 11 跌至第 36，分数从 75.6 降至 71.0（-6.1%）。

Terminal Bench 2.0

LemonHarness / Multiple 强势跃升：排名从第 8 升至第 2，分数从 79.9 提升至 84.5（+5.8%）。
Warp / Multiple 明显下滑：排名从第 41 跌至第 65，分数从 61.2 降至 50.1（-18.1%）。

快速预览

重大事故：美国政府以国家安全为由发布出口管制指令，Anthropic 被迫下线 Fable 5 和 Mythos 5，影响所有外国用户，正积极申诉恢复中。
OpenAI 收购 Ona：Ona 的安全云执行技术将整合进 Codex，支持长时任务在笔记本关闭后持续运行，并已秘密提交 S-1 上市申请。
xAI 发布 Grok Build 插件市场（Beta）：集成 MongoDB、Vercel、Sentry、Cloudflare 等，Grok Voice 在 EVA-Bench 登上 Pareto 前沿。
SWE-bench Pro Public：gpt-5.4 (xHigh) 以 59.1% 领跑，比第三名 claude-opus-4-6 (51.9%) 领先超 7 个百分点。
数据源缺失：lmarena-leaderboard 本期采集失败，相关排名无法提供。

OpenAI

本周最大动作：收购 Ona + S-1 上市申请

6 月 11 日，OpenAI 宣布收购云执行初创公司 Ona，其安全持久化环境技术将扩展 Codex 的长时任务能力，Ona 团队并入 Codex 组。(来源)。同日，Oracle Cloud 用户可直接用现有云承诺额度访问 OpenAI 模型与 Codex。(来源)

6 月 8 日，OpenAI 向 SEC 秘密提交 S-1 草案，IPO 时间表尚未确定。(来源)

Codex 更新

版本	日期	主要变化
App 26.609	06-11	Plus/Pro 用户获速率限制重置"银行储蓄"功能，支持推荐赚取更多重置次数
App 26.608	06-09	新增从 Claude Code / Claude Cowork 迁移流程
CLI 0.139.0	06-09	Code 模式可直接调用独立网络搜索
CLI 0.138.0	06-08	`/app` 命令可将 CLI 线程移交给 macOS/Windows 桌面端

生态与合作：BBVA 将 ChatGPT Enterprise 铺开至 10 万名员工；Travelers 部署 AI 理赔助手；LSEG 授权 4000 名员工使用。OpenAI 在密歇根州破土动工 1GW 数据中心（Stargate 计划），模型和 Codex 同期上线 AWS。(AWS 来源)

政策：OpenAI 支持欧盟 AI 内容透明度行为准则；发布美国前沿 AI 民主治理蓝图；启动经济研究交流项目，公开招募研究合作。

Anthropic

Fable 5 / Mythos 5 出口管制事故（6 月 13 日）

美国政府援引国家安全授权，下令暂停所有外国国籍人士访问 Fable 5 和 Mythos 5，包括 Anthropic 外籍员工。为确保合规，Anthropic 被迫对所有用户下线这两款模型。其余 Claude 模型不受影响。Anthropic 认为此举系误解，正积极寻求恢复。(完整声明)

Fable 5 发布（6 月 9 日）

Anthropic 发布 Claude Fable 5，定位为 Mythos 级能力但面向通用场景开放的模型，能力超过此前任何公开版本。社区反馈显示其在 CAD 建模等任务上表现突出。(来源)

其他动态

Project Glasswing 扩展（06-02）：Claude Mythos Preview 访问权限扩展至约 150 个额外组织，覆盖 15 个以上国家。(来源)
Claude Corps（06-11）：启动国家奖学金计划，匹配 1000 名早期职业者进入美国非营利机构，教授 Claude 使用并提供薪酬支持。
科研进展：发布 AI 加速生物研究基础设施分析；Opus 4.7 在 NMR 波谱分析任务中与专用软件持平甚至超越。
Claude Code 本周发布 v2.1.173–v2.1.177，主要更新包括：会话标题按对话语言生成（v2.1.176）、enforceAvailableModels 企业管控设置（v2.1.175）、Fable 5 模型名称后缀自动标准化（v2.1.173）。

Google / DeepMind

Gemini Omni（06-11）：发布首款"万物创万物"模型，在 Video Arena（文生视频和图生视频）双榜登顶第一，较 Veo 3.1 提升 +158 分。(来源)
DiffusionGemma（06-11）：实验性开源文本扩散模型，并行生成整块 token，速度比 Gemma 4 同类模型快 4 倍，Apache 2.0 授权。(来源)
Gemini Notebooks 扩展至欧洲经济区、英国和瑞士。
AI Studio（06-09）：新增 Native Android App 支持，集成 Gmail、Docs、Calendar 等。(来源)
弗吉尼亚社区投资（06-11）：投入数据中心周边劳动力培训和能源可及性项目。

xAI

Grok Build 插件市场 Beta 上线（06-11），支持从终端直接调用 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 插件。(来源)

Grok Voice：xAI 宣传 Grok Voice Think Fast 1.0 在 EVA-Bench 上达到 Pareto 前沿，价格为竞品的一小部分。(来源)

生态合作：与 Gopuff 合作推出 Go 购物助手（集成文字/语音/图像模型）；eToro 代理 Tori 接入 Grok 实时数据用于市场情绪分析；Grok 模型接入 Cloudflare AI Gateway；Grok STT/TTS 上线 Vapi。

Grok Imagine 1.5 Preview（06-03）：图像生成新版本，可通过 API 试用。

Benchmark 快照

SWE-bench Verified（来源）

本期无顶部变动。当前 Top 3：

排名	系统	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期榜单变化（值得注意的下滑）：

系统	分数变化	排名变化
Warp	75.6 → 71.0	#11 → #36
devlo	70.2 → 58.2 / 54.2	#44 → #83 / #94
Nemotron-CORTEXA	68.2 → 58.2	#50 → #82
EntroPO + R2E + Qwen3-Coder-30B	52.2 → 60.4	#103 → #76（上升）
EPAM AI/Run + GPT4o	27.0 → 24.0	#156 → #162

SWE-bench Pro Public（来源，截至 2026-06-13）

本期无榜单变化记录。当前 Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1%
2	Muse Spark*	55.0%
3	claude-opus-4-6 (thinking)*	51.9%

*标注 * 的条目为非标准评测配置。

Terminal Bench 2.0（来源）

当前 Top 3：

排名	系统	分数
1	NexAU-AHE / GPT-5.5	84.7
2	LemonHarness / Multiple	84.5
3	Capy / GPT-5.5	83.1

本期榜单变化：

系统	分数变化	排名变化
LemonHarness / Multiple	79.9 → 84.5	#8 → #2（大幅上升）
Gemini CLI / Gemini 3.1 Pro	59.4 → 61.4	#45 → #40（上升）
Warp / Multiple	61.2 → 59.1 / 50.1	#41 → #47 / #65（下滑）
little-coder / Qwen3.6-35B-A3B	23.0 → 24.6	#121 → #116（微升）

lmarena-leaderboard

本期采集失败，无数据可报。

来源 · 80 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×8 blog.google ×4 @xai ×11 @thsottiaux ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3