AI 日报 2026-06-17 08:47
2026-06-17 08:47 CST
核心速览
【OpenAI】收购 Ona,扩展 Codex 云端能力
OpenAI 计划收购 Ona,为 Codex 添加安全、持久的云环境支持,使 AI agent 能够跨企业工作流执行长时运行任务。这标志着 OpenAI 从代码辅助工具向企业级持续运行 agent 平台转型。
🔗 https://openai.com/index/openai-to-acquire-ona
【OpenAI】部署模拟技术:发布前预测模型行为
OpenAI 推出 Deployment Simulation 方法,通过真实对话数据在模型发布前预测其行为,提升安全性和评估准确度。该技术能在大规模部署前识别潜在风险,降低模型上线后的意外问题。
🔗 https://openai.com/index/deployment-simulation
【OpenAI】提交 S-1 文件,启动 IPO 流程
OpenAI 已向 SEC 秘密提交 S-1 招股书草案,但尚未确定具体上市时间表。此举意味着 OpenAI 正式启动上市准备,估值和商业化进展将受到更严格审查。
🔗 https://openai.com/index/openai-submits-confidential-s-1
【Anthropic】美国政府紧急限制 Fable 5 和 Mythos 5 访问
美国政府以国家安全为由,禁止所有外国公民(包括 Anthropic 外籍员工)访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫全面停用这两个模型,正在与政府协商恢复访问。其他 Claude 模型不受影响。
🔗 https://x.com/AnthropicAI/status/2065597531644743999
【xAI】Grok Build 插件市场上线,集成 MongoDB、Vercel 等服务
xAI 发布 Grok Build 插件市场 beta 版,支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件。开发者可通过命令行直接调用这些服务,实现数据库操作、部署管理、错误追踪等功能,大幅简化开发流程。
🔗 https://x.ai/news/grok-plugin-marketplace
重大 Benchmark 变化
SWE-bench Verified
- LemonHarness / Multiple 在 [email protected] 排名从第 8 跃升至第 2,分数从 79.9 提升至 84.5(+5.8%)
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 排名从 103 跃升至 76(+27 名),分数从 52.2 提升至 60.4(+15.7%)
- devlo 排名从 44 下降至 94(-50 名),分数从 70.2 下降至 54.2(-22.8%)
- Warp 排名从 11 下降至 36(-25 名),分数从 75.6 下降至 71.0(-6.1%)
[email protected]
- Warp / Multiple 排名从 41 大幅下降至 65(-24 名),分数从 61.2 暴跌至 50.1(-18.1%)
快速预览
- Anthropic 重大事件:美国政府以国家安全为由发出出口管制令,强制下线 Claude Fable 5 和 Mythos 5,所有外籍用户及员工均受影响,其他 Claude 模型不受波及。
- OpenAI 双线推进:秘密提交 IPO S-1 文件;同日宣布收购云环境初创公司 Ona,以扩展 Codex 企业级 agent 能力。
- SWE-bench Pro 榜首:gpt-5.4 (xHigh) 以 59.1 分领跑,Muse Spark 55.0 分居次;SWE-bench Verified 榜首不变,仍为 live-SWE-agent + Claude 4.5 Opus(79.2)。
- Benchmark 波动:Warp 在 SWE-bench Verified 大跌(75.6→71.0,第 11→36),devlo 同样下滑(70.2→54.2);Terminal Bench 中 LemonHarness 强势上升(79.9→84.5,第 8→2)。
- 数据缺失提示:
lmarena-leaderboard本期采集失败,相关排名数据不可用。
一、行业动态
Anthropic
2026-06-13 — 美国政府援引国家安全权力,对 Claude Fable 5 和 Mythos 5 发出出口管制令,要求暂停所有外籍人士访问权限(含 Anthropic 外籍员工)。Anthropic 被迫全面关闭两款模型的访问入口,并表示认为系误解、正积极恢复中。其他所有 Claude 模型访问不受影响。原文
2026-06-16 — Anthropic 发布研究报告,分析 Claude Code 用户的专业背景与使用效果关系:领域专家成功率更高,但中等熟练度与专家级差距较小,说明具备领域知识即可有效使用 AI 编程工具。研究报告
2026-06-11 — 启动 Claude Corps 奖学金计划,招募 1,000 名应届生进驻美国非营利机构,由 Anthropic 支付薪酬,推广 AI 在公益领域的应用。详情
2026-06-09 — 正式发布 Claude Fable 5,定位为 Mythos 级能力、经安全处理后对外开放,能力超越此前所有公开模型。公告
2026-06-08 — 科学博客探讨 AI 在生物领域滞后于编程的原因,提出生物数据库基础设施不适配 agent 操作这一核心问题。博客
2026-06-05 — 研究发现 Opus 4.7 在 NMR 波谱解析任务上可媲美甚至超越专业软件。详情
Claude Code 更新
| 版本 | 日期 | 主要变化 |
|---|---|---|
| v2.1.179 | 2026-06-16 | 修复流式连接中断导致的部分响应丢失及 spinner 卡死问题 |
| v2.1.178 | 2026-06-15 | 新增 Tool(param:value) 权限规则语法,支持 * 通配符匹配工具参数 |
| v2.1.176 | 2026-06-12 | 会话标题现以对话语言自动生成 |
| v2.1.175 | 2026-06-12 | 新增 enforceAvailableModels 托管设置,强制约束默认模型选择范围 |
OpenAI
2026-06-16 — 发布 Deployment Simulation,利用真实对话数据在部署前预测模型行为,提升安全评估准确性。原文
2026-06-16 — Codex 出现大规模"模型容量不足"错误,官方在约 6 小时后修复,并宣布 24 小时内重置所有套餐的速率限制。状态页
2026-06-14 — 宣布 OpenAI Partner Network,投入 1.5 亿美元扶持全球合作伙伴加速企业 AI 部署。原文
2026-06-11 — 宣布收购 Ona,为 Codex 提供安全、持久的云端运行环境,支持企业长时 agent 工作流。原文
2026-06-10 — 发布报告揭示 PRC 关联影响行动,借助 AI 渗透美国 AI 政策讨论、数据中心叙事及关税议题。原文
2026-06-08 — 向 SEC 秘密提交 S-1 文件,IPO 时间表尚未确定。原文
2026-06-03 — GPT-Rosalind 新增生物推理、药物化学、基因组分析和实验流程能力。原文
Codex 产品更新
| 版本/日期 | 主要变化 |
|---|---|
| 2026-06-16 | Codex app 功能向欧洲经济区、英国、瑞士开放 |
| 2026-06-15 | iOS 新增工作区文件浏览器;CLI 0.140.0 新增 /usage token 用量视图 |
| 2026-06-11 | Plus/Pro 用户新增速率限制重置银行功能及推荐奖励机制 |
| 2026-06-09 | 新增从 Claude Code 迁移到 Codex 的一键导入流程 |
xAI (Grok)
2026-06-16 — Grok in PowerPoint 插件正式上线,支持实时数据、MCP 连接及图表/图像生成。详情
2026-06-15 — Grok Build 接入 Warp 终端,SuperGrok/X Premium 订阅可直接使用。详情
2026-06-15 — Grok Build 新增多 agent 并行管理的 Agent Dashboard,支持 /dashboard 命令调度。详情
2026-06-11 — Grok Build Plugin Marketplace 进入 Beta,首批支持 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools。详情
2026-06-10 — Grok Voice Think Fast 1.0 在 EVA-Bench 语音评测中登上 Pareto 前沿,价格显著低于竞品。详情
2026-06-03 — Grok Imagine 1.5 Preview 上线 API;Grok STT/TTS 接入 Vapi 语音平台;Grok 模型在 Cloudflare AI Gateway 可用。
2026-06-15 — 宣布 2026-2027 年向阿拉巴马州数据中心追加投资 15 亿美元。原文
2026-06-11 — Gemini Omni Flash 在 Video Arena(文生视频、图生视频)均夺得第一,文生视频较 Veo 3.1 大幅提升 +158 分。Google DeepMind 定义 Gemini Omni 为"从任意内容创建任意内容"的首步。详情
2026-06-11 — DiffusionGemma 发布(Apache 2.0),采用并行块级文本生成,速度为 Gemma 4 同类模型的 4 倍。详情
2026-06-11 — Gemini Notebooks 向欧洲经济区、英国、瑞士开放。详情
二、Benchmark 快照
SWE-bench Verified(代码修复,开源)
来源:swebench-verified | 本期无新入榜变动,Top 3 保持不变。
| 排名 | 系统 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期榜单变化(显著):
| 模型 | 分数变化 | 排名变化 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B | 52.2 → 60.4 ↑ | #103 → #76 |
| Warp | 75.6 → 71.0 ↓ | #11 → #36 |
| devlo | 70.2 → 54.2 ↓ | #44 → #94 |
| Nemotron-CORTEXA | 68.2 → 58.2 ↓ | #50 → #82 |
| EPAM AI/Run + GPT4o | 27.0 → 24.0 ↓ | #156 → #162 |
| Solver (2024-09-12) | 45.4 → 43.6 ↓ | #120 → #126 |
SWE-bench Pro Public(代码修复,更难版本)
来源:Scale AI Labs | 快照时间:2026-06-17
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
*注:标 * 为 API/agent 提交,非独立系统。
Terminal Bench 2.0(终端 agent 操作)
来源:tbench.ai | 本期无新入榜变动,Top 3 如下:
| 排名 | 系统 | 分数 |
|---|---|---|
| 1 | NexAU-AHE / GPT-5.5 | 84.7 |
| 2 | LemonHarness / Multiple | 84.5 |
| 3 | Capy / GPT-5.5 | 83.1 |
本期榜单变化:
| 模型 | 分数变化 | 排名变化 |
|---|---|---|
| LemonHarness / Multiple | 79.9 → 84.5 ↑ | #8 → #2 |
| Gemini CLI / Gemini 3.1 Pro | 59.4 → 61.4 ↑ | #45 → #40 |
| Warp / Multiple | 61.2 → 50.1 ↓ | #41 → #65 |
| little-coder / Qwen3.6-35B-A3B | 23.0 → 24.6 ↑ | #121 → #116 |
LM Arena 综合榜
本期数据采集失败,无法提供排名信息。请参阅官方页面获取最新数据。