AI 日报 2026-06-15 08:38

2026-06-15 08:38 CST

核心速览

【OpenAI】收购 Ona,扩展 Codex 云端能力

OpenAI 宣布收购 Ona,将其安全云执行技术整合到 Codex 中。这使 Codex 能够在笔记本关闭后继续执行长时间运行的任务,帮助企业安全部署 AI 代理到生产环境。此举标志着 OpenAI 从对话工具向持久化企业工作流平台的战略转型。 https://openai.com/index/openai-to-acquire-ona

【OpenAI】投资 1.5 亿美元启动合作伙伴网络

OpenAI 推出合作伙伴网络计划,投资 1.5 亿美元支持全球合作伙伴加速企业 AI 采用和部署。该计划旨在通过生态系统力量推动 AI 在企业场景的落地转化,预计将显著扩大 OpenAI 在企业市场的覆盖范围。 https://openai.com/index/introducing-openai-partner-network

【Anthropic】美国政府暂停外国用户访问 Fable 5 和 Mythos 5

美国政府以国家安全为由,紧急禁止所有外国公民(包括境内外及 Anthropic 外籍员工)访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫全面停用这两款模型以确保合规,其他 Claude 模型不受影响。公司表示这是误解并正在协调恢复访问,但此事凸显了前沿 AI 模型面临的地缘政治风险。 https://x.com/AnthropicAI/status/2065597531644743999

【xAI】推出 Grok Build 插件市场

xAI 发布 Grok Build 插件市场 Beta 版,集成 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 等插件,让开发者直接在终端通过自然语言完成数据库操作、生产部署、错误追踪等任务。这将 AI 编程助手从代码生成扩展到完整的开发工作流自动化。 https://x.ai/news/grok-plugin-marketplace

【OpenAI】提交 IPO 申请文件

OpenAI 确认已向 SEC 秘密提交 S-1 上市申请文件,但尚未确定后续行动时间表。这标志着 OpenAI 从非营利机构向公开上市公司转型的关键一步,预计将成为 AI 行业最大规模 IPO 之一。 https://openai.com/index/openai-submits-confidential-s-1

重大 Benchmark 变化

SWE-bench Verified

  • LemonHarness / Multiple:Terminal Bench 2.0 排名从第 8 跃升至第 2,分数从 79.9 提升至 84.5(+5.8%),成为终端任务性能第二强的系统
  • Nemotron-CORTEXA:排名从第 50 跌至第 82,分数从 68.2 降至 58.2(-14.7%),代码修复能力显著下降
  • devlo:排名从第 44 跌至第 94,分数从 70.2 降至 54.2(-22.8%),出现大幅性能回退

Terminal Bench 2.0

  • Warp / Multiple:排名从第 41 跌至第 65,分数从 61.2 降至 50.1(-18.1%),终端任务执行能力明显退步

快速预览

  • Anthropic Fable 5/Mythos 5 被美国政府紧急禁令暂停,理由为国家安全,所有外国用户(包括境内外)均无法访问,其他 Claude 模型不受影响
  • OpenAI 宣布收购 Ona,将为 Codex 提供安全云执行环境,支持笔记本关闭后继续运行长时任务;Codex 速率限制重置功能上线,用户可自主选择使用时机
  • xAI 推出 Grok Build 插件市场(beta),已上线 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 等插件;Grok Imagine 1.5 Preview 发布
  • SWE-bench Verified 榜单变化较大:devlo 从第 44 名跌至第 83-94 名(分数从 70.2 降至 54.2-58.2);Warp 从第 11 名降至第 36 名(分数从 75.6 降至 71.0)
  • Terminal-bench 2.0:LemonHarness 大幅跃升至第 2 名(79.9→84.5);Warp 分数波动下跌至第 47-65 名(61.2→50.1-59.1);采集失败:lmarena-leaderboard

OpenAI 新闻

产品与合作

企业案例

Codex 产品更新

  • 2026-06-11 | Codex app 26.609:为 Plus 和 Pro 用户增加速率限制重置存储功能,发布时包含一次免费重置,推荐邀请可赚取更多;Business 用户可通过单独的推荐计划邀请同事赚取共享工作区积分
  • 2026-06-09 | Codex app 26.608:新增从 Claude Code 和 Claude Cowork 导入设置的迁移流程
  • 2026-06-09 | ChatGPT for iOS 1.2026.153:新线程支持选择分支、创建工作树和运行环境设置脚本
  • 2026-06-09 | Codex CLI 0.139.0:代码模式现可直接调用独立 web 搜索(包括嵌套 JavaScript 工具调用),接收纯文本搜索结果
  • 2026-06-08 | Codex CLI 0.138.0/app 命令可将当前 CLI 线程移交到 macOS 和 Windows 原生的 Codex Desktop;Windows 工作区启动可直接打开 Desktop

Codex 应用场景

政策与治理

研究与基础设施


Anthropic 动态

重大事件

  • 2026-06-13 | 美国政府发布紧急出口管制指令:以国家安全为由,暂停所有外国公民(无论在美国境内外,包括外国籍 Anthropic 员工)访问 Fable 5 和 Mythos 5。为确保合规,必须突然禁用这两个模型。所有其他 Claude 模型不受影响。公司认为这是误解,正在努力尽快恢复访问 完整声明

产品发布

  • 2026-06-09 | 推出 Claude Fable 5:Mythos 级模型,已使其安全可用于通用场景,能力超越以往任何公开模型

Claude Code 更新

  • 2026-06-13 | v2.1.177 发布
  • 2026-06-12 | v2.1.176 发布:会话标题现以对话语言生成(可通过 language 设置固定特定语言)
  • 2026-06-12 | v2.1.175 发布:新增 enforceAvailableModels 托管设置,启用后 availableModels 白名单也会约束默认模型,用户或项目设置无法扩展托管的 availableModels 列表
  • 2026-06-12 | v2.1.174 发布:新增 wheelScrollAccelerationEnabled 设置,可在全屏模式下禁用鼠标滚轮加速
  • 2026-06-11 | v2.1.173 发布:修复 Fable 5 模型名称带 [1m] 后缀未归一化问题(Fable 5 默认包含 1M 上下文,现自动去除后缀)

项目与研究

  • 2026-06-11 | 推出 Claude Corps:国家奖学金项目,将职业早期人士与美国非营利组织匹配。将教授 1000 人使用 Claude,并支付报酬让他们使用 AI 推进东道主使命 详情
  • 2026-06-08 | 生物学中的智能体:科学博客探讨为何 AI 在编码领域进步快于生物学——对智能体而言,生物数据库就像汽车出现前建造的城市,因为是为不同的流量设计的。如何构建智能体可用的基础设施?阅读
  • 2026-06-05 | 让 Claude 成为化学家:科学博客介绍如何让 Claude 理解分子结构。主要工具是 NMR 光谱。研究发现 Opus 4.7 在某些任务上匹配甚至超越专用 NMR 软件 阅读
  • 2026-06-03 | AI 增强的网络攻击与安全社区技术:研究 832 个恶意账户,将其活动映射到长期威胁行为者战术和技术数据库 阅读

合作与扩展


Google AI 动态


xAI 动态

Grok Build 产品更新

Grok Voice 与模型

合作案例


行业人物观点

OpenAI 相关

Anthropic 相关

Google 相关


Benchmark 快照

SWE-bench Verified(Verified 类别)

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium (20251101) 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8
4 live-SWE-agent + Gemini 3 Pro Preview (2025-11-18) 77.4
5 Atlassian Rovo Dev (2025-09-02) 76.8
6 EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet 76.8
7 mini-SWE-agent + Claude 4.5 Opus (high reasoning) 76.8
8 ACoder 76.4
9 mini-SWE-agent + Gemini 3 Flash (high reasoning) 75.8
10 mini-SWE-agent + MiniMax M2.5 (high reasoning) 75.8

来源:SWE-bench Verified

SWE-bench Pro(Public 类别)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

来源:Scale AI Leaderboard

Terminal-bench 2.0

排名 模型 分数
1 NexAU-AHE / GPT-5.5 84.7
2 LemonHarness / Multiple 84.5
3 Capy / GPT-5.5 83.1
4 Codex CLI / GPT-5.5 82.2
5 Polaris / Multiple 82.2
6

Sources