AI 日报 2026-06-16 08:41

2026-06-16 08:41 CST

核心速览

【Anthropic】美国政府出口管制令强制下架 Fable 5 和 Mythos 5

美国政府以国家安全为由,发布出口管制指令,要求暂停所有外籍人士(包括 Anthropic 外籍员工)访问 Claude Fable 5 和 Mythos 5 的权限。为确保合规,Anthropic 已对所有用户禁用上述两款模型,其余 Claude 模型不受影响。Anthropic 表示认为此举系误解,正积极推动恢复访问。 原文


【OpenAI】提交保密版 S-1 文件,IPO 进程正式启动

OpenAI 向美国证券交易委员会(SEC)秘密提交了 S-1 上市申请文件,尚未确定后续时间表。这标志着 OpenAI 正式迈出 IPO 的第一步,估值预期将达数千亿美元,是 AI 行业迄今最受关注的上市动向之一。 原文


【OpenAI】收购 Ona,扩展 Codex 云端持久执行能力

OpenAI 宣布收购 Ona,其安全云执行技术将使 Codex 支持长时间运行的 AI Agent 任务,即使在笔记本电脑关闭时也可持续工作。收购完成后,Ona 团队将并入 OpenAI Codex 团队,重点解决企业级 Agent 安全部署问题。 原文


【OpenAI】推出合作伙伴网络,投入 1.5 亿美元加速企业 AI 落地

OpenAI 正式启动 Partner Network,首批投入 1.5 亿美元,帮助全球合作伙伴加速企业 AI 采用与转型。BBVA 已将 ChatGPT Enterprise 部署至 10 万名员工,成为该网络的标杆案例,凸显大型企业规模化 AI 落地的可行性。 原文


【xAI】Grok Build 插件市场上线 Beta,Grok 接入 Warp 终端

xAI 发布 Grok Build 插件市场 Beta 版,支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 等插件,开发者可直接在终端内调用。同步宣布 SuperGrok/X Premium 订阅用户可在 Warp 开发终端中使用 Grok Build 模型,进一步扩大开发者生态覆盖。 原文


重大 Benchmark 变化

SWE-bench Verified

模型 排名变化 分数变化
EntroPO + R2E + Qwen3-Coder-30B-A3B 103 → 76 ↑ 52.2 → 60.4 (+15.7%)
Nemotron-CORTEXA 50 → 82 ↓ 68.2 → 58.2 (-14.7%)
devlo 44 → 83 ↓ 70.2 → 58.2 (-17.1%)
Warp 11 → 36 ↓ 75.6 → 71.0 (-6.1%)

本周最显著的变化是 devlo 和 Nemotron-CORTEXA 出现大幅下滑,而基于 Qwen3-Coder 的 EntroPO 方案逆势上升。

Terminal Bench 2.0

模型 排名变化 分数变化
LemonHarness / Multiple 8 → 2 ↑ 79.9 → 84.5 (+5.8%)
Warp / Multiple 41 → 65 ↓ 61.2 → 50.1 (-18.1%)

LemonHarness 跻身 Terminal Bench 榜单第 2 位,而 Warp 在两项 benchmark 中均出现明显下滑,值得关注。

快速预览

  • Anthropic 重磅警报:美国政府以国家安全为由对 Claude Fable 5 和 Mythos 5 发布出口管制令,所有外籍用户(含 Anthropic 员工)访问已被强制中断,其他模型不受影响
  • OpenAI 双线推进:秘密提交 S-1 上市申请,同时宣布收购 Ona 扩展 Codex 云端 Agent 能力,并投入 $1.5 亿启动 Partner Network
  • xAI Grok Build 加速扩张:插件市场 Beta 上线(MongoDB/Vercel/Sentry/Cloudflare),Grok Voice 在 EVA-Bench 登顶 Pareto 前沿,Warp 集成 Grok Build 模型
  • SWE-bench Pro Public 榜单快照:gpt-5.4 (xHigh) 以 59.1% 居首,Muse Spark 55.0% 第二,claude-opus-4-6 (thinking) 51.9% 第三
  • 注意:lmarena-leaderboard 数据采集失败,本期无该榜单数据

OpenAI

战略与融资

OpenAI 于 6 月 8 日向 SEC 秘密提交 S-1,正式启动 IPO 流程,时间窗口未定。同日发布"Built to benefit everyone"愿景文件,强调 AGI 惠及全人类的使命框架。6 月 14 日宣布投入 $1.5 亿成立 Partner Network,加速全球企业 AI 落地。

Codex 生态

收购 Ona(6/11),目标是为 Codex 提供安全、持久的云端执行环境,支持长时间运行的 Agent 跨企业工作流。同期,Codex 宣布面向全角色的生产力扩展,新增插件、站点和标注功能;Oracle Cloud 完成接入,企业客户可通过现有云承诺使用 OpenAI 模型。

典型案例:Wasmer 用 Codex + GPT-5.5 将边缘 Node.js runtime 开发提速 10-20x;Nextdoor 和 Notion 工程团队也相继分享了深度使用体验。

政策与安全

Codex Changelog

版本 日期 主要更新
CLI 0.140.0 6/15 新增 /usage 视图(日/周/累计 token 统计)
App 26.609 6/11 Plus/Pro 用户可储存限流重置额度,支持邀请好友获取额度
App 26.608 6/9 支持从 Claude Code 和 Claude Cowork 迁移配置
CLI 0.139.0 6/9 Code 模式可直接调用独立 Web 搜索,支持嵌套 JS 工具调用

Anthropic

出口管制事件(6/13)

美国政府援引国家安全授权,发布出口管制指令,要求暂停所有外籍人员(包括 Anthropic 员工)对 Claude Fable 5Mythos 5 的访问。Anthropic 已合规下线上述两个模型,其他 Claude 模型访问不受影响。公司声明认为这是一次误解,正积极寻求恢复访问。完整声明

模型与研究

生态与社区

  • 6/11:启动 Claude Corps,面向美国非营利组织的早期职业 AI 人才培养计划,目标招募 1000 人
  • 6/2:Project Glasswing 扩容,Claude Mythos Preview 访问扩展至 15+ 国约 150 个组织
  • 6/2:支持白宫《促进先进人工智能创新与安全》行政令

Claude Code Changelog

版本 日期 主要更新
v2.1.178 6/15 新增 Tool(param:value) 权限规则语法,支持 * 通配符,如 Agent(model:opus) 可阻断 Opus 子 Agent
v2.1.176 6/12 会话标题自动使用对话语言生成,可通过 language 设置锁定语言
v2.1.175 6/12 新增 enforceAvailableModels 管理设置,可约束默认模型并防止用户扩大白名单
v2.1.174 6/12 新增 wheelScrollAccelerationEnabled 设置,可禁用全屏模式下鼠标滚轮加速

Google / DeepMind

基础设施投资

  • 6/15:宣布 2026-2027 年向阿拉巴马州 Jackson County 数据中心追加投资 $15 亿
  • 6/11:宣布弗吉尼亚州社区投资,聚焦下一代劳动力培训和能源项目

模型与产品

  • Demis Hassabis 转发:Gemini Omni Flash 在 Video Arena 文本转视频和图像转视频两项均登顶第一,比 Veo 3.1 (1080p) 提升 +158 分
  • DiffusionGemma 发布,采用非自回归并行文本生成,速度是 Gemma 4 其他模型的 4 倍,Apache 2.0 授权
  • Gemini Notebooks 功能现已向欧洲经济区、英国、瑞士开放
  • Google AI Studio 长期目标:消除 AI 开发摩擦,并将其延伸到企业场景,"感觉还处于早期阶段"

xAI / Grok

产品扩展

xAI 本期动作集中在 Grok Build 生态建设:

  • Plugin Marketplace Beta(6/11):支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 五大插件,详情
  • Warp 集成(6/15):SuperGrok 和 X Premium 订阅者可在 Warp 终端内直接切换 Grok Build 模型,详情
  • Agent Dashboard(6/15):Grok Build 新增多 Agent 管理面板,支持并行监控和任务调度
  • 终端 LaTeX 渲染(6/14):Grok Build 支持在终端内直接渲染数学公式

语音与合作

  • Grok Voice Think Fast 1.0 在 EVA-Bench 登上 Pareto 前沿,无同类系统在精度和体验两个维度同时超越它,价格远低于竞品
  • 与 eToro 合作:AI Agent Tori 利用 xAI 实时数据分析市场情绪
  • 与 Gopuff 合作:基于 Grok 文本/语音/图像模型构建 "Go" 个性化购物助手
  • Grok STT/TTS 接入 Vapi 企业语音平台
  • Grok 模型接入 Cloudflare AI Gateway,无需额外认证

Benchmark 快照

SWE-bench Verified(来源

本期无新变动,当前 Top 3:

排名 系统 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期榜内变化(Notable):

模型 变化 旧分 → 新分 旧排名 → 新排名
EntroPO + R2E + Qwen3-Coder-30B 上升 52.2 → 60.4 103 → 76
Nemotron-CORTEXA 下降 68.2 → 58.2 50 → 82
Warp 下降 75.6 → 71.0 11 → 36
devlo 下降 70.2 → 54.2 44 → 94
EPAM AI/Run + GPT4o 下降 27.0 → 24.0 156 → 162

SWE-bench Pro Public(来源,快照时间:2026-06-16)

本期为快照数据,无历史对比,当前 Top 10(带 * 为非官方参数标注):

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1%
2 Muse Spark* 55.0%
3 claude-opus-4-6 (thinking)* 51.9%
4 gemini-3.1-pro (thinking)* 46.1%
5 claude-opus-4-5-20251101 45.9%
6 claude-4-5-Sonnet 43.6%
7 gemini-3-pro-preview 43.3%
8 claude-4-Sonnet 42.7%
9 gpt-5-2025-08-07 (High) 41.8%
10 gpt-5.2-codex 41.0%

Terminal Bench 2.0(来源

当前 Top 3:

排名 系统 分数
1 NexAU-AHE / GPT-5.5 84.7
2 LemonHarness / Multiple 84.5
3 Capy / GPT-5.5 83.1

本期变化:

模型 变化 旧分 → 新分 旧排名 → 新排名
LemonHarness / Multiple 上升 79.9 → 84.5 8 → 2
Gemini CLI / Gemini 3.1 Pro 上升 59.4 → 61.4 45 → 40
little-coder / Qwen3.6-35B 小幅上升 23.0 → 24.6 121 → 116
Warp / Multiple 下降 61.2 → 50.1 41 → 65

Lmarena Leaderboard

数据采集失败,本期无数据。 请直接访问 lmarena.ai 获取最新榜单。

Sources