AI 日报 2026-06-15 08:38

核心速览

【OpenAI】收购 Ona，扩展 Codex 云端能力

OpenAI 宣布收购 Ona，将其安全云执行技术整合到 Codex 中。这使 Codex 能够在笔记本关闭后继续执行长时间运行的任务，帮助企业安全部署 AI 代理到生产环境。此举标志着 OpenAI 从对话工具向持久化企业工作流平台的战略转型。 https://openai.com/index/openai-to-acquire-ona

【OpenAI】投资 1.5 亿美元启动合作伙伴网络

OpenAI 推出合作伙伴网络计划，投资 1.5 亿美元支持全球合作伙伴加速企业 AI 采用和部署。该计划旨在通过生态系统力量推动 AI 在企业场景的落地转化，预计将显著扩大 OpenAI 在企业市场的覆盖范围。 https://openai.com/index/introducing-openai-partner-network

【Anthropic】美国政府暂停外国用户访问 Fable 5 和 Mythos 5

美国政府以国家安全为由，紧急禁止所有外国公民（包括境内外及 Anthropic 外籍员工）访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫全面停用这两款模型以确保合规，其他 Claude 模型不受影响。公司表示这是误解并正在协调恢复访问，但此事凸显了前沿 AI 模型面临的地缘政治风险。 https://x.com/AnthropicAI/status/2065597531644743999

【xAI】推出 Grok Build 插件市场

xAI 发布 Grok Build 插件市场 Beta 版，集成 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 等插件，让开发者直接在终端通过自然语言完成数据库操作、生产部署、错误追踪等任务。这将 AI 编程助手从代码生成扩展到完整的开发工作流自动化。 https://x.ai/news/grok-plugin-marketplace

【OpenAI】提交 IPO 申请文件

OpenAI 确认已向 SEC 秘密提交 S-1 上市申请文件，但尚未确定后续行动时间表。这标志着 OpenAI 从非营利机构向公开上市公司转型的关键一步，预计将成为 AI 行业最大规模 IPO 之一。 https://openai.com/index/openai-submits-confidential-s-1

重大 Benchmark 变化

SWE-bench Verified

LemonHarness / Multiple：Terminal Bench 2.0 排名从第 8 跃升至第 2，分数从 79.9 提升至 84.5（+5.8%），成为终端任务性能第二强的系统
Nemotron-CORTEXA：排名从第 50 跌至第 82，分数从 68.2 降至 58.2（-14.7%），代码修复能力显著下降
devlo：排名从第 44 跌至第 94，分数从 70.2 降至 54.2（-22.8%），出现大幅性能回退

Terminal Bench 2.0

Warp / Multiple：排名从第 41 跌至第 65，分数从 61.2 降至 50.1（-18.1%），终端任务执行能力明显退步

快速预览

Anthropic Fable 5/Mythos 5 被美国政府紧急禁令暂停，理由为国家安全，所有外国用户（包括境内外）均无法访问，其他 Claude 模型不受影响
OpenAI 宣布收购 Ona，将为 Codex 提供安全云执行环境，支持笔记本关闭后继续运行长时任务；Codex 速率限制重置功能上线，用户可自主选择使用时机
xAI 推出 Grok Build 插件市场（beta），已上线 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 等插件；Grok Imagine 1.5 Preview 发布
SWE-bench Verified 榜单变化较大：devlo 从第 44 名跌至第 83-94 名（分数从 70.2 降至 54.2-58.2）；Warp 从第 11 名降至第 36 名（分数从 75.6 降至 71.0）
Terminal-bench 2.0：LemonHarness 大幅跃升至第 2 名（79.9→84.5）；Warp 分数波动下跌至第 47-65 名（61.2→50.1-59.1）；采集失败：lmarena-leaderboard

OpenAI 新闻

产品与合作

2026-06-14 | 推出 OpenAI 合作伙伴网络：投资 1.5 亿美元，支持全球合作伙伴加速企业 AI 应用部署与转型
2026-06-11 | 收购 Ona：扩展 Codex，提供安全、持久的云环境，支持跨企业工作流的长时运行 AI 智能体
2026-06-10 | 通过 Oracle 云承诺访问 OpenAI 模型和 Codex：客户可利用现有 Oracle 云承诺构建和部署 AI，提供企业级安全与治理
2026-06-01 | OpenAI 前沿模型和 Codex 现已在 AWS 上线：企业可通过 AWS 环境、控制和采购流程使用 OpenAI，加速从评估到生产

企业案例

2026-06-12 | Preply 结合 AI 与人工导师个性化学习：推出 AI 生成的课程总结，提供个性化反馈和语言学习练习
2026-06-11 | 天体物理学家如何使用 Codex 模拟黑洞：Chi-kwan Chan 使用 Codex 构建黑洞模拟，帮助科学家研究极端物理
2026-06-11 | BBVA 将 AI 置于银行核心：将 ChatGPT Enterprise 扩展至 10 万名员工，与 OpenAI 合作加速全球 AI 银行转型
2026-06-10 | LSEG 从数据到决策，规模化可信 AI：使用 OpenAI 扩展全球业务可信 AI，加速洞察，缩短发布周期，赋能 4000 名员工
2026-06-09 | Nextdoor 工程师如何使用 Codex 无限构建：利用 GPT-5.5 调查难以复现的问题，跨平台构建，专注于产品结果
2026-06-09 | Codex 为 Notion 解锁的能力：一键生成规范，为 web 构建 AI 语音输入，在小团队中倍增工程能力
2026-06-04 | Endava 围绕 AI 智能体重新设计软件交付：使用 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付，自动化工作流
2026-06-03 | Wasmer 如何使用 Codex 构建边缘 Node.js 运行时：利用 GPT-5.5 将开发速度提升 10-20 倍，从数月缩短到数周
2026-06-02 | Travelers 使用 OpenAI 在全国部署 AI 理赔助手：构建 AI 理赔助手引导客户提交理赔，提供 7×24 支持，高峰期扩展运营

Codex 产品更新

2026-06-11 | Codex app 26.609：为 Plus 和 Pro 用户增加速率限制重置存储功能，发布时包含一次免费重置，推荐邀请可赚取更多；Business 用户可通过单独的推荐计划邀请同事赚取共享工作区积分
2026-06-09 | Codex app 26.608：新增从 Claude Code 和 Claude Cowork 导入设置的迁移流程
2026-06-09 | ChatGPT for iOS 1.2026.153：新线程支持选择分支、创建工作树和运行环境设置脚本
2026-06-09 | Codex CLI 0.139.0：代码模式现可直接调用独立 web 搜索（包括嵌套 JavaScript 工具调用），接收纯文本搜索结果
2026-06-08 | Codex CLI 0.138.0：/app 命令可将当前 CLI 线程移交到 macOS 和 Windows 原生的 Codex Desktop；Windows 工作区启动可直接打开 Desktop

Codex 应用场景

2026-06-12 | OpenAI Academy 新课程：推出三门课程帮助人们掌握实用 AI 技能，创建可重复工作流，在日常工作中应用智能体
2026-06-02 | Codex 适用于每个角色、工具和工作流：新插件、站点和注释帮助分析师、营销人员、设计师、投资者等团队提高生产力
2026-06-02 | Codex 正成为所有人的生产力工具：《知识工作的下一个时代》报告探索 Codex 如何通过 AI 驱动的研究、数据分析、工作流自动化和内容创作转变生产力

政策与治理

2026-06-11 | 支持欧洲确保可信 AI 生态系统的工作：支持欧盟 AI 内容透明度行为准则，推进溯源标准和工具
2026-06-10 | 中国关联影响力行动针对美国 AI 辩论：报告详述中国关联影响力行动使用 AI 针对美国科技辩论、数据中心叙事、关税和 ChatGPT 虚假声明
2026-06-09 | 智能时代的产业政策：探索 AI 时代以人为本的产业政策，聚焦扩大机会、共享繁荣和构建弹性机构
2026-06-08 | 向 SEC 提交保密 S-1 草案：确认向 SEC 提交保密 S-1，尚未确定进一步行动的时间
2026-06-08 | 为所有人造福：我们的计划：AI 未来愿景，聚焦访问、安全和共享繁荣，确保 AGI 造福所有人
2026-06-03 | 前沿 AI 民主治理蓝图：概述美国前沿 AI 治理蓝图，提出联邦安全、弹性和国家安全框架
2026-06-03 | OpenAI 公共政策议程：概述 AI 公共政策议程，包括安全、青少年保护、劳动力转型和全球标准
2026-06-02 | 通过全球领导力推进青少年安全与机会：呼吁全球行动青少年 AI 安全，提议建立国际机构加强保护、标准和青少年机会
2026-06-01 | 我们对 AI 政策和政治倡议的看法：AI 政策和政治倡议方法、透明度、支持深思熟虑的监管和 AI 安全，强调没有外部政治团体代表公司发言

研究与基础设施

2026-06-08 | 推出 OpenAI 经济研究交流：推出经济研究交流以研究 AI 对就业、生产力和经济的影响，现接受精选研究项目申请
2026-06-04 | Dreaming：更好的记忆，更有帮助的 ChatGPT：ChatGPT 引入新记忆系统，更好地记住偏好，在对话中保持上下文新鲜和相关
2026-06-04 | 智能时代的生物防御：AI 驱动的生物弹性行动计划
2026-06-03 | GPT-Rosalind 新能力介绍：增强生物推理、药物化学专业知识、基因组学分析和实验工作流能力
2026-06-01 | 在密歇根建设智能时代基础设施：在密歇根启动 1GW 数据中心项目（Stargate 的一部分），建设 AI 基础设施扩大访问、创造就业和支持社区

Anthropic 动态

重大事件

2026-06-13 | 美国政府发布紧急出口管制指令：以国家安全为由，暂停所有外国公民（无论在美国境内外，包括外国籍 Anthropic 员工）访问 Fable 5 和 Mythos 5。为确保合规，必须突然禁用这两个模型。所有其他 Claude 模型不受影响。公司认为这是误解，正在努力尽快恢复访问完整声明

产品发布

2026-06-09 | 推出 Claude Fable 5：Mythos 级模型，已使其安全可用于通用场景，能力超越以往任何公开模型

Claude Code 更新

2026-06-13 | v2.1.177 发布
2026-06-12 | v2.1.176 发布：会话标题现以对话语言生成（可通过 language 设置固定特定语言）
2026-06-12 | v2.1.175 发布：新增 enforceAvailableModels 托管设置，启用后 availableModels 白名单也会约束默认模型，用户或项目设置无法扩展托管的 availableModels 列表
2026-06-12 | v2.1.174 发布：新增 wheelScrollAccelerationEnabled 设置，可在全屏模式下禁用鼠标滚轮加速
2026-06-11 | v2.1.173 发布：修复 Fable 5 模型名称带 [1m] 后缀未归一化问题（Fable 5 默认包含 1M 上下文，现自动去除后缀）

项目与研究

2026-06-11 | 推出 Claude Corps：国家奖学金项目，将职业早期人士与美国非营利组织匹配。将教授 1000 人使用 Claude，并支付报酬让他们使用 AI 推进东道主使命详情
2026-06-08 | 生物学中的智能体：科学博客探讨为何 AI 在编码领域进步快于生物学——对智能体而言，生物数据库就像汽车出现前建造的城市，因为是为不同的流量设计的。如何构建智能体可用的基础设施？阅读
2026-06-05 | 让 Claude 成为化学家：科学博客介绍如何让 Claude 理解分子结构。主要工具是 NMR 光谱。研究发现 Opus 4.7 在某些任务上匹配甚至超越专用 NMR 软件阅读
2026-06-03 | AI 增强的网络攻击与安全社区技术：研究 832 个恶意账户，将其活动映射到长期威胁行为者战术和技术数据库阅读

合作与扩展

2026-06-02 | 扩展 Project Glasswing：将 Claude Mythos Preview 访问权限扩展至约 150 个额外组织，覆盖 15 个以上国家阅读
2026-06-02 | 支持白宫行政令：该行政令是加强美国 AI 领导力的重要一步，期待与白宫合作支持其实施行政令

Google AI 动态

2026-06-11 | 弗吉尼亚社区投资：支持本地就业并扩大能源可负担性，帮助建设下一代劳动力并投资能源项目
2026-06-05 | 2026 年 5 月 AI 新闻回顾
2026-06-03 | Google Search 提升二手和复古购物的 5 种方式
2026-06-01 | 如何使用 Gemini 构建 Google I/O 2026

xAI 动态

Grok Build 产品更新

2026-06-14 | Grok Build 数学与 LaTeX 渲染：现在可在终端中直接渲染数学、公式和 LaTeX
2026-06-11 | Grok Build 插件市场 beta 上线：支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件，从终端构建详情
- Sentry 插件：查找和修复错误、分析堆栈跟踪、分类警报
- Vercel 插件：部署到生产、启动沙箱或使用 Shadcn 构建应用
- MongoDB 插件：探索数据、优化数据库性能、构建高性能向量搜索系统

Grok Voice 与模型

2026-06-10 | Grok Voice 性能表现：在 EVA-Bench 达到帕累托前沿，具有人类般的时序、语调和温暖感，价格仅为竞争对手的一小部分查看
2026-06-03 | Grok Imagine 1.5 Preview 发布：立即在 API 试用查看

合作案例

2026-06-10 | 与 eToro 合作：Tori（eToro 的智能体）利用 xAI 模型和 SpaceXAI 实时数据帮助消费者分析市场情绪详情
2026-06-09 | 与 Gopuff 合作：使用聊天、语音和图像模型构建个性化购物助手详情
2026-06-03 | Gopuff 推出 Go 购物助手：由 Grok 文本、音频和图像模型驱动的个人购物助手，分钟内送达
2026-06-03 | Grok 在 Cloudflare AI Gateway 上线：通过 Cloudflare 直接计费，无需额外认证、环境变量或 API 密钥
2026-06-03 | Grok 在 Vapi 上线：最自然的 TTS 和最具成本效益的 STT API，构建企业语音 AI

行业人物观点

OpenAI 相关

Tibo Sottiaux (OpenAI)
- 2026-06-14 | Codex 可查看和设置自己的 /goal：我们构建的一切，也作为智能体的工具构建。这是元提示的泛化，让智能体基于你的意图设置自己的任务
- 2026-06-14 | Hi，我是 Tibo，刚发现 Codex。AMA
- 2026-06-12 | Codex 使用率重置功能改进：听取反馈，下次按下按钮时可选择实际应用时间
gdb (OpenAI)
- 2026-06-12 | 开发者文档智能体：强大而酷的网站导航方式，让体验更具互动性和直观性
- 2026-06-12 | Codex 推荐奖励：未来两周推荐朋友使用 Codex，可获得速率限制重置奖励
- 2026-06-11 | 欢迎 Ona 加入团队：帮助组织在生产中安全部署智能体

Anthropic 相关

Boris Cherny (Anthropic)
- 2026-06-11 | /goooooal ⚽
- 2026-06-11 | 你好，来自东京的 Code with Claude！
- 2026-06-11 | Claude Fable 5 解决了 CAD：要求制作 V8 引擎模型，不到 10 分钟回复了完全可工作的模型

Google 相关

Logan Kilpatrick (Google)
- 2026-06-13 | Google AI Studio 长期目标：消除 AI 构建的摩擦，然后对你自己的业务做同样的事，最终为所有人解锁经济机会。感觉像早期阶段但越来越兴奋
- 2026-06-13 | Ilya 是对的：预测了很多这些事情
Demis Hassabis (Google DeepMind)
- 2026-06-11 | Gemini Omni Flash 登顶 Video Arena：文本生成视频和图像生成视频均排名第一，相比 Veo 3.1 (1080p) 提升 +158 分
- 2026-06-11 | Notebooks 在 EEA、英国和瑞士上线：在 Gemini 中组织项目的专用空间
- 2026-06-11 | DiffusionGemma 文本扩散创新：速度极快，比其他 Gemma 4 模型快 4 倍，同时生成整块文本而非逐令牌生成

Benchmark 快照

SWE-bench Verified（Verified 类别）

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium (20251101)	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview (2025-11-18)	77.4
5	Atlassian Rovo Dev (2025-09-02)	76.8
6	EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet	76.8
7	mini-SWE-agent + Claude 4.5 Opus (high reasoning)	76.8
8	ACoder	76.4
9	mini-SWE-agent + Gemini 3 Flash (high reasoning)	75.8
10	mini-SWE-agent + MiniMax M2.5 (high reasoning)	75.8

来源：SWE-bench Verified

SWE-bench Pro（Public 类别）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

来源：Scale AI Leaderboard

Terminal-bench 2.0

排名	模型	分数
1	NexAU-AHE / GPT-5.5	84.7
2	LemonHarness / Multiple	84.5
3	Capy / GPT-5.5	83.1
4	Codex CLI / GPT-5.5	82.2
5	Polaris / Multiple	82.2
6

来源 · 82 条

openai.com ×30 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×8 blog.google ×4 @xai ×12 @thsottiaux ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3