AI 日报 2026-06-13 09:47

2026-06-13 09:47 CST

核心速览

【Anthropic】美国政府出口管制令强制下架 Fable 5 和 Mythos 5

美国政府以国家安全为由,发布出口管制指令,要求暂停所有外国国籍人士(包括 Anthropic 员工)访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫对所有用户关闭这两款模型以确保合规,其他 Claude 模型不受影响。Anthropic 表示认为此举系误解,正积极推动恢复访问。 原文


【OpenAI】收购 Ona,强化 Codex 云端 Agent 能力

OpenAI 宣布收购云执行技术公司 Ona,其安全持久化云环境技术将使 Codex 能够在笔记本关闭时持续运行长周期任务,并助力企业在生产环境中安全部署 Agent。Ona 团队将并入 OpenAI Codex 团队。这是 OpenAI 在 Agent 基础设施层面的关键投资。 原文


【OpenAI】机密 S-1 文件向 SEC 提交,IPO 进程启动

OpenAI 确认已向美国证券交易委员会(SEC)秘密提交 S-1 上市申请文件,但尚未确定后续时间表。这标志着 OpenAI 正式启动 IPO 前置流程,是其从非营利结构向商业化转型的重大里程碑。 原文


【Google DeepMind】Gemini Omni Flash 登顶视频生成榜

Google DeepMind 发布 Gemini Omni,主打"从任意输入生成任意内容",融合 Gemini 智能与生成媒体系统。Gemini Omni Flash 在 Video Arena 文本转视频和图像转视频双榜均排名第一,较 Veo 3.1 提升 158 分,领先第二名 61 分。 原文


【xAI】Grok Build 插件市场上线 Beta,Grok Voice 进入 Pareto 前沿

xAI 推出 Grok Build 插件市场(Beta),支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 等插件,可直接从终端调用。同期,Grok Voice Think Fast 1.0 在 EVA-Bench 语音 Agent 评测中进入 Pareto 前沿,在准确率与体验的权衡上无模型同时超越它。 原文


重大 Benchmark 变化

SWE-bench Verified

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:排名从第 103 升至第 76,分数从 52.2 提升至 60.4(+15.7%),是本周最显著的正向跃升。
  • Nemotron-CORTEXA 显著下滑:排名从第 50 跌至第 82,分数从 68.2 降至 58.2(-14.7%)。
  • devlo 明显下滑:排名从第 44 跌至第 83,分数从 70.2 降至 58.2(-17.1%)。
  • Warp 有所下滑:排名从第 11 跌至第 36,分数从 75.6 降至 71.0(-6.1%)。

Terminal Bench 2.0

  • LemonHarness / Multiple 强势跃升:排名从第 8 升至第 2,分数从 79.9 提升至 84.5(+5.8%)。
  • Warp / Multiple 明显下滑:排名从第 41 跌至第 65,分数从 61.2 降至 50.1(-18.1%)。

快速预览

  • 重大事故:美国政府以国家安全为由发布出口管制指令,Anthropic 被迫下线 Fable 5 和 Mythos 5,影响所有外国用户,正积极申诉恢复中。
  • OpenAI 收购 Ona:Ona 的安全云执行技术将整合进 Codex,支持长时任务在笔记本关闭后持续运行,并已秘密提交 S-1 上市申请。
  • xAI 发布 Grok Build 插件市场(Beta):集成 MongoDB、Vercel、Sentry、Cloudflare 等,Grok Voice 在 EVA-Bench 登上 Pareto 前沿。
  • SWE-bench Pro Public:gpt-5.4 (xHigh) 以 59.1% 领跑,比第三名 claude-opus-4-6 (51.9%) 领先超 7 个百分点。
  • 数据源缺失:lmarena-leaderboard 本期采集失败,相关排名无法提供。

OpenAI

本周最大动作:收购 Ona + S-1 上市申请

6 月 11 日,OpenAI 宣布收购云执行初创公司 Ona,其安全持久化环境技术将扩展 Codex 的长时任务能力,Ona 团队并入 Codex 组。(来源)。同日,Oracle Cloud 用户可直接用现有云承诺额度访问 OpenAI 模型与 Codex。(来源)

6 月 8 日,OpenAI 向 SEC 秘密提交 S-1 草案,IPO 时间表尚未确定。(来源)

Codex 更新

版本 日期 主要变化
App 26.609 06-11 Plus/Pro 用户获速率限制重置"银行储蓄"功能,支持推荐赚取更多重置次数
App 26.608 06-09 新增从 Claude Code / Claude Cowork 迁移流程
CLI 0.139.0 06-09 Code 模式可直接调用独立网络搜索
CLI 0.138.0 06-08 /app 命令可将 CLI 线程移交给 macOS/Windows 桌面端

生态与合作:BBVA 将 ChatGPT Enterprise 铺开至 10 万名员工;Travelers 部署 AI 理赔助手;LSEG 授权 4000 名员工使用。OpenAI 在密歇根州破土动工 1GW 数据中心(Stargate 计划),模型和 Codex 同期上线 AWS。(AWS 来源)

政策:OpenAI 支持欧盟 AI 内容透明度行为准则;发布美国前沿 AI 民主治理蓝图;启动经济研究交流项目,公开招募研究合作。


Anthropic

Fable 5 / Mythos 5 出口管制事故(6 月 13 日)

美国政府援引国家安全授权,下令暂停所有外国国籍人士访问 Fable 5 和 Mythos 5,包括 Anthropic 外籍员工。为确保合规,Anthropic 被迫对所有用户下线这两款模型。其余 Claude 模型不受影响。Anthropic 认为此举系误解,正积极寻求恢复。(完整声明)

Fable 5 发布(6 月 9 日)

Anthropic 发布 Claude Fable 5,定位为 Mythos 级能力但面向通用场景开放的模型,能力超过此前任何公开版本。社区反馈显示其在 CAD 建模等任务上表现突出。(来源)

其他动态

  • Project Glasswing 扩展(06-02):Claude Mythos Preview 访问权限扩展至约 150 个额外组织,覆盖 15 个以上国家。(来源)
  • Claude Corps(06-11):启动国家奖学金计划,匹配 1000 名早期职业者进入美国非营利机构,教授 Claude 使用并提供薪酬支持。
  • 科研进展:发布 AI 加速生物研究基础设施分析;Opus 4.7 在 NMR 波谱分析任务中与专用软件持平甚至超越。
  • Claude Code 本周发布 v2.1.173–v2.1.177,主要更新包括:会话标题按对话语言生成(v2.1.176)、enforceAvailableModels 企业管控设置(v2.1.175)、Fable 5 模型名称后缀自动标准化(v2.1.173)。

Google / DeepMind

  • Gemini Omni(06-11):发布首款"万物创万物"模型,在 Video Arena(文生视频和图生视频)双榜登顶第一,较 Veo 3.1 提升 +158 分。(来源)
  • DiffusionGemma(06-11):实验性开源文本扩散模型,并行生成整块 token,速度比 Gemma 4 同类模型快 4 倍,Apache 2.0 授权。(来源)
  • Gemini Notebooks 扩展至欧洲经济区、英国和瑞士。
  • AI Studio(06-09):新增 Native Android App 支持,集成 Gmail、Docs、Calendar 等。(来源)
  • 弗吉尼亚社区投资(06-11):投入数据中心周边劳动力培训和能源可及性项目。

xAI

Grok Build 插件市场 Beta 上线(06-11),支持从终端直接调用 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 插件。(来源)

Grok Voice:xAI 宣传 Grok Voice Think Fast 1.0 在 EVA-Bench 上达到 Pareto 前沿,价格为竞品的一小部分。(来源)

生态合作:与 Gopuff 合作推出 Go 购物助手(集成文字/语音/图像模型);eToro 代理 Tori 接入 Grok 实时数据用于市场情绪分析;Grok 模型接入 Cloudflare AI Gateway;Grok STT/TTS 上线 Vapi。

Grok Imagine 1.5 Preview(06-03):图像生成新版本,可通过 API 试用。


Benchmark 快照

SWE-bench Verified(来源

本期无顶部变动。当前 Top 3:

排名 系统 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期榜单变化(值得注意的下滑)

系统 分数变化 排名变化
Warp 75.6 → 71.0 #11 → #36
devlo 70.2 → 58.2 / 54.2 #44 → #83 / #94
Nemotron-CORTEXA 68.2 → 58.2 #50 → #82
EntroPO + R2E + Qwen3-Coder-30B 52.2 → 60.4 #103 → #76(上升)
EPAM AI/Run + GPT4o 27.0 → 24.0 #156 → #162

SWE-bench Pro Public(来源,截至 2026-06-13)

本期无榜单变化记录。当前 Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1%
2 Muse Spark* 55.0%
3 claude-opus-4-6 (thinking)* 51.9%

*标注 * 的条目为非标准评测配置。


Terminal Bench 2.0(来源

当前 Top 3:

排名 系统 分数
1 NexAU-AHE / GPT-5.5 84.7
2 LemonHarness / Multiple 84.5
3 Capy / GPT-5.5 83.1

本期榜单变化

系统 分数变化 排名变化
LemonHarness / Multiple 79.9 → 84.5 #8 → #2(大幅上升)
Gemini CLI / Gemini 3.1 Pro 59.4 → 61.4 #45 → #40(上升)
Warp / Multiple 61.2 → 59.1 / 50.1 #41 → #47 / #65(下滑)
little-coder / Qwen3.6-35B-A3B 23.0 → 24.6 #121 → #116(微升)

lmarena-leaderboard

本期采集失败,无数据可报。

Sources