AI 日报 2026-06-17 08:47

2026-06-17 08:47 CST

核心速览

【OpenAI】收购 Ona,扩展 Codex 云端能力

OpenAI 计划收购 Ona,为 Codex 添加安全、持久的云环境支持,使 AI agent 能够跨企业工作流执行长时运行任务。这标志着 OpenAI 从代码辅助工具向企业级持续运行 agent 平台转型。
🔗 https://openai.com/index/openai-to-acquire-ona

【OpenAI】部署模拟技术:发布前预测模型行为

OpenAI 推出 Deployment Simulation 方法,通过真实对话数据在模型发布前预测其行为,提升安全性和评估准确度。该技术能在大规模部署前识别潜在风险,降低模型上线后的意外问题。
🔗 https://openai.com/index/deployment-simulation

【OpenAI】提交 S-1 文件,启动 IPO 流程

OpenAI 已向 SEC 秘密提交 S-1 招股书草案,但尚未确定具体上市时间表。此举意味着 OpenAI 正式启动上市准备,估值和商业化进展将受到更严格审查。
🔗 https://openai.com/index/openai-submits-confidential-s-1

【Anthropic】美国政府紧急限制 Fable 5 和 Mythos 5 访问

美国政府以国家安全为由,禁止所有外国公民(包括 Anthropic 外籍员工)访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫全面停用这两个模型,正在与政府协商恢复访问。其他 Claude 模型不受影响。
🔗 https://x.com/AnthropicAI/status/2065597531644743999

【xAI】Grok Build 插件市场上线,集成 MongoDB、Vercel 等服务

xAI 发布 Grok Build 插件市场 beta 版,支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件。开发者可通过命令行直接调用这些服务,实现数据库操作、部署管理、错误追踪等功能,大幅简化开发流程。
🔗 https://x.ai/news/grok-plugin-marketplace

重大 Benchmark 变化

SWE-bench Verified

  • LemonHarness / Multiple[email protected] 排名从第 8 跃升至第 2,分数从 79.9 提升至 84.5(+5.8%)
  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 排名从 103 跃升至 76(+27 名),分数从 52.2 提升至 60.4(+15.7%)
  • devlo 排名从 44 下降至 94(-50 名),分数从 70.2 下降至 54.2(-22.8%)
  • Warp 排名从 11 下降至 36(-25 名),分数从 75.6 下降至 71.0(-6.1%)

[email protected]

  • Warp / Multiple 排名从 41 大幅下降至 65(-24 名),分数从 61.2 暴跌至 50.1(-18.1%)

快速预览

  • Anthropic 重大事件:美国政府以国家安全为由发出出口管制令,强制下线 Claude Fable 5 和 Mythos 5,所有外籍用户及员工均受影响,其他 Claude 模型不受波及。
  • OpenAI 双线推进:秘密提交 IPO S-1 文件;同日宣布收购云环境初创公司 Ona,以扩展 Codex 企业级 agent 能力。
  • SWE-bench Pro 榜首:gpt-5.4 (xHigh) 以 59.1 分领跑,Muse Spark 55.0 分居次;SWE-bench Verified 榜首不变,仍为 live-SWE-agent + Claude 4.5 Opus(79.2)。
  • Benchmark 波动:Warp 在 SWE-bench Verified 大跌(75.6→71.0,第 11→36),devlo 同样下滑(70.2→54.2);Terminal Bench 中 LemonHarness 强势上升(79.9→84.5,第 8→2)。
  • 数据缺失提示lmarena-leaderboard 本期采集失败,相关排名数据不可用。

一、行业动态

Anthropic

2026-06-13 — 美国政府援引国家安全权力,对 Claude Fable 5 和 Mythos 5 发出出口管制令,要求暂停所有外籍人士访问权限(含 Anthropic 外籍员工)。Anthropic 被迫全面关闭两款模型的访问入口,并表示认为系误解、正积极恢复中。其他所有 Claude 模型访问不受影响。原文

2026-06-16 — Anthropic 发布研究报告,分析 Claude Code 用户的专业背景与使用效果关系:领域专家成功率更高,但中等熟练度与专家级差距较小,说明具备领域知识即可有效使用 AI 编程工具。研究报告

2026-06-11 — 启动 Claude Corps 奖学金计划,招募 1,000 名应届生进驻美国非营利机构,由 Anthropic 支付薪酬,推广 AI 在公益领域的应用。详情

2026-06-09 — 正式发布 Claude Fable 5,定位为 Mythos 级能力、经安全处理后对外开放,能力超越此前所有公开模型。公告

2026-06-08 — 科学博客探讨 AI 在生物领域滞后于编程的原因,提出生物数据库基础设施不适配 agent 操作这一核心问题。博客

2026-06-05 — 研究发现 Opus 4.7 在 NMR 波谱解析任务上可媲美甚至超越专业软件。详情

Claude Code 更新

版本 日期 主要变化
v2.1.179 2026-06-16 修复流式连接中断导致的部分响应丢失及 spinner 卡死问题
v2.1.178 2026-06-15 新增 Tool(param:value) 权限规则语法,支持 * 通配符匹配工具参数
v2.1.176 2026-06-12 会话标题现以对话语言自动生成
v2.1.175 2026-06-12 新增 enforceAvailableModels 托管设置,强制约束默认模型选择范围

OpenAI

2026-06-16 — 发布 Deployment Simulation,利用真实对话数据在部署前预测模型行为,提升安全评估准确性。原文

2026-06-16 — Codex 出现大规模"模型容量不足"错误,官方在约 6 小时后修复,并宣布 24 小时内重置所有套餐的速率限制。状态页

2026-06-14 — 宣布 OpenAI Partner Network,投入 1.5 亿美元扶持全球合作伙伴加速企业 AI 部署。原文

2026-06-11 — 宣布收购 Ona,为 Codex 提供安全、持久的云端运行环境,支持企业长时 agent 工作流。原文

2026-06-10 — 发布报告揭示 PRC 关联影响行动,借助 AI 渗透美国 AI 政策讨论、数据中心叙事及关税议题。原文

2026-06-08 — 向 SEC 秘密提交 S-1 文件,IPO 时间表尚未确定。原文

2026-06-03GPT-Rosalind 新增生物推理、药物化学、基因组分析和实验流程能力。原文

Codex 产品更新

版本/日期 主要变化
2026-06-16 Codex app 功能向欧洲经济区、英国、瑞士开放
2026-06-15 iOS 新增工作区文件浏览器;CLI 0.140.0 新增 /usage token 用量视图
2026-06-11 Plus/Pro 用户新增速率限制重置银行功能及推荐奖励机制
2026-06-09 新增从 Claude Code 迁移到 Codex 的一键导入流程

xAI (Grok)

2026-06-16Grok in PowerPoint 插件正式上线,支持实时数据、MCP 连接及图表/图像生成。详情

2026-06-15 — Grok Build 接入 Warp 终端,SuperGrok/X Premium 订阅可直接使用。详情

2026-06-15 — Grok Build 新增多 agent 并行管理的 Agent Dashboard,支持 /dashboard 命令调度。详情

2026-06-11Grok Build Plugin Marketplace 进入 Beta,首批支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools。详情

2026-06-10Grok Voice Think Fast 1.0 在 EVA-Bench 语音评测中登上 Pareto 前沿,价格显著低于竞品。详情

2026-06-03Grok Imagine 1.5 Preview 上线 API;Grok STT/TTS 接入 Vapi 语音平台;Grok 模型在 Cloudflare AI Gateway 可用。


Google

2026-06-15 — 宣布 2026-2027 年向阿拉巴马州数据中心追加投资 15 亿美元原文

2026-06-11 — Gemini Omni Flash 在 Video Arena(文生视频、图生视频)均夺得第一,文生视频较 Veo 3.1 大幅提升 +158 分。Google DeepMind 定义 Gemini Omni 为"从任意内容创建任意内容"的首步。详情

2026-06-11DiffusionGemma 发布(Apache 2.0),采用并行块级文本生成,速度为 Gemma 4 同类模型的 4 倍。详情

2026-06-11 — Gemini Notebooks 向欧洲经济区、英国、瑞士开放。详情


二、Benchmark 快照

SWE-bench Verified(代码修复,开源)

来源:swebench-verified | 本期无新入榜变动,Top 3 保持不变。

排名 系统 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期榜单变化(显著):

模型 分数变化 排名变化
EntroPO + R2E + Qwen3-Coder-30B-A3B 52.2 → 60.4 #103 → #76
Warp 75.6 → 71.0 #11 → #36
devlo 70.2 → 54.2 #44 → #94
Nemotron-CORTEXA 68.2 → 58.2 #50 → #82
EPAM AI/Run + GPT4o 27.0 → 24.0 #156 → #162
Solver (2024-09-12) 45.4 → 43.6 #120 → #126

SWE-bench Pro Public(代码修复,更难版本)

来源:Scale AI Labs | 快照时间:2026-06-17

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

*注:标 * 为 API/agent 提交,非独立系统。


Terminal Bench 2.0(终端 agent 操作)

来源:tbench.ai | 本期无新入榜变动,Top 3 如下:

排名 系统 分数
1 NexAU-AHE / GPT-5.5 84.7
2 LemonHarness / Multiple 84.5
3 Capy / GPT-5.5 83.1

本期榜单变化:

模型 分数变化 排名变化
LemonHarness / Multiple 79.9 → 84.5 #8 → #2
Gemini CLI / Gemini 3.1 Pro 59.4 → 61.4 #45 → #40
Warp / Multiple 61.2 → 50.1 #41 → #65
little-coder / Qwen3.6-35B-A3B 23.0 → 24.6 #121 → #116

LM Arena 综合榜

本期数据采集失败,无法提供排名信息。请参阅官方页面获取最新数据。

Sources