AI 日报 2026-06-15 08:38
2026-06-15 08:38 CST
核心速览
【OpenAI】收购 Ona,扩展 Codex 云端能力
OpenAI 宣布收购 Ona,将其安全云执行技术整合到 Codex 中。这使 Codex 能够在笔记本关闭后继续执行长时间运行的任务,帮助企业安全部署 AI 代理到生产环境。此举标志着 OpenAI 从对话工具向持久化企业工作流平台的战略转型。 https://openai.com/index/openai-to-acquire-ona
【OpenAI】投资 1.5 亿美元启动合作伙伴网络
OpenAI 推出合作伙伴网络计划,投资 1.5 亿美元支持全球合作伙伴加速企业 AI 采用和部署。该计划旨在通过生态系统力量推动 AI 在企业场景的落地转化,预计将显著扩大 OpenAI 在企业市场的覆盖范围。 https://openai.com/index/introducing-openai-partner-network
【Anthropic】美国政府暂停外国用户访问 Fable 5 和 Mythos 5
美国政府以国家安全为由,紧急禁止所有外国公民(包括境内外及 Anthropic 外籍员工)访问 Fable 5 和 Mythos 5 模型。Anthropic 被迫全面停用这两款模型以确保合规,其他 Claude 模型不受影响。公司表示这是误解并正在协调恢复访问,但此事凸显了前沿 AI 模型面临的地缘政治风险。 https://x.com/AnthropicAI/status/2065597531644743999
【xAI】推出 Grok Build 插件市场
xAI 发布 Grok Build 插件市场 Beta 版,集成 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 等插件,让开发者直接在终端通过自然语言完成数据库操作、生产部署、错误追踪等任务。这将 AI 编程助手从代码生成扩展到完整的开发工作流自动化。 https://x.ai/news/grok-plugin-marketplace
【OpenAI】提交 IPO 申请文件
OpenAI 确认已向 SEC 秘密提交 S-1 上市申请文件,但尚未确定后续行动时间表。这标志着 OpenAI 从非营利机构向公开上市公司转型的关键一步,预计将成为 AI 行业最大规模 IPO 之一。 https://openai.com/index/openai-submits-confidential-s-1
重大 Benchmark 变化
SWE-bench Verified
- LemonHarness / Multiple:Terminal Bench 2.0 排名从第 8 跃升至第 2,分数从 79.9 提升至 84.5(+5.8%),成为终端任务性能第二强的系统
- Nemotron-CORTEXA:排名从第 50 跌至第 82,分数从 68.2 降至 58.2(-14.7%),代码修复能力显著下降
- devlo:排名从第 44 跌至第 94,分数从 70.2 降至 54.2(-22.8%),出现大幅性能回退
Terminal Bench 2.0
- Warp / Multiple:排名从第 41 跌至第 65,分数从 61.2 降至 50.1(-18.1%),终端任务执行能力明显退步
快速预览
- Anthropic Fable 5/Mythos 5 被美国政府紧急禁令暂停,理由为国家安全,所有外国用户(包括境内外)均无法访问,其他 Claude 模型不受影响
- OpenAI 宣布收购 Ona,将为 Codex 提供安全云执行环境,支持笔记本关闭后继续运行长时任务;Codex 速率限制重置功能上线,用户可自主选择使用时机
- xAI 推出 Grok Build 插件市场(beta),已上线 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 等插件;Grok Imagine 1.5 Preview 发布
- SWE-bench Verified 榜单变化较大:devlo 从第 44 名跌至第 83-94 名(分数从 70.2 降至 54.2-58.2);Warp 从第 11 名降至第 36 名(分数从 75.6 降至 71.0)
- Terminal-bench 2.0:LemonHarness 大幅跃升至第 2 名(79.9→84.5);Warp 分数波动下跌至第 47-65 名(61.2→50.1-59.1);采集失败:lmarena-leaderboard
OpenAI 新闻
产品与合作
- 2026-06-14 | 推出 OpenAI 合作伙伴网络:投资 1.5 亿美元,支持全球合作伙伴加速企业 AI 应用部署与转型
- 2026-06-11 | 收购 Ona:扩展 Codex,提供安全、持久的云环境,支持跨企业工作流的长时运行 AI 智能体
- 2026-06-10 | 通过 Oracle 云承诺访问 OpenAI 模型和 Codex:客户可利用现有 Oracle 云承诺构建和部署 AI,提供企业级安全与治理
- 2026-06-01 | OpenAI 前沿模型和 Codex 现已在 AWS 上线:企业可通过 AWS 环境、控制和采购流程使用 OpenAI,加速从评估到生产
企业案例
- 2026-06-12 | Preply 结合 AI 与人工导师个性化学习:推出 AI 生成的课程总结,提供个性化反馈和语言学习练习
- 2026-06-11 | 天体物理学家如何使用 Codex 模拟黑洞:Chi-kwan Chan 使用 Codex 构建黑洞模拟,帮助科学家研究极端物理
- 2026-06-11 | BBVA 将 AI 置于银行核心:将 ChatGPT Enterprise 扩展至 10 万名员工,与 OpenAI 合作加速全球 AI 银行转型
- 2026-06-10 | LSEG 从数据到决策,规模化可信 AI:使用 OpenAI 扩展全球业务可信 AI,加速洞察,缩短发布周期,赋能 4000 名员工
- 2026-06-09 | Nextdoor 工程师如何使用 Codex 无限构建:利用 GPT-5.5 调查难以复现的问题,跨平台构建,专注于产品结果
- 2026-06-09 | Codex 为 Notion 解锁的能力:一键生成规范,为 web 构建 AI 语音输入,在小团队中倍增工程能力
- 2026-06-04 | Endava 围绕 AI 智能体重新设计软件交付:使用 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付,自动化工作流
- 2026-06-03 | Wasmer 如何使用 Codex 构建边缘 Node.js 运行时:利用 GPT-5.5 将开发速度提升 10-20 倍,从数月缩短到数周
- 2026-06-02 | Travelers 使用 OpenAI 在全国部署 AI 理赔助手:构建 AI 理赔助手引导客户提交理赔,提供 7×24 支持,高峰期扩展运营
Codex 产品更新
- 2026-06-11 | Codex app 26.609:为 Plus 和 Pro 用户增加速率限制重置存储功能,发布时包含一次免费重置,推荐邀请可赚取更多;Business 用户可通过单独的推荐计划邀请同事赚取共享工作区积分
- 2026-06-09 | Codex app 26.608:新增从 Claude Code 和 Claude Cowork 导入设置的迁移流程
- 2026-06-09 | ChatGPT for iOS 1.2026.153:新线程支持选择分支、创建工作树和运行环境设置脚本
- 2026-06-09 | Codex CLI 0.139.0:代码模式现可直接调用独立 web 搜索(包括嵌套 JavaScript 工具调用),接收纯文本搜索结果
- 2026-06-08 | Codex CLI 0.138.0:
/app命令可将当前 CLI 线程移交到 macOS 和 Windows 原生的 Codex Desktop;Windows 工作区启动可直接打开 Desktop
Codex 应用场景
- 2026-06-12 | OpenAI Academy 新课程:推出三门课程帮助人们掌握实用 AI 技能,创建可重复工作流,在日常工作中应用智能体
- 2026-06-02 | Codex 适用于每个角色、工具和工作流:新插件、站点和注释帮助分析师、营销人员、设计师、投资者等团队提高生产力
- 2026-06-02 | Codex 正成为所有人的生产力工具:《知识工作的下一个时代》报告探索 Codex 如何通过 AI 驱动的研究、数据分析、工作流自动化和内容创作转变生产力
政策与治理
- 2026-06-11 | 支持欧洲确保可信 AI 生态系统的工作:支持欧盟 AI 内容透明度行为准则,推进溯源标准和工具
- 2026-06-10 | 中国关联影响力行动针对美国 AI 辩论:报告详述中国关联影响力行动使用 AI 针对美国科技辩论、数据中心叙事、关税和 ChatGPT 虚假声明
- 2026-06-09 | 智能时代的产业政策:探索 AI 时代以人为本的产业政策,聚焦扩大机会、共享繁荣和构建弹性机构
- 2026-06-08 | 向 SEC 提交保密 S-1 草案:确认向 SEC 提交保密 S-1,尚未确定进一步行动的时间
- 2026-06-08 | 为所有人造福:我们的计划:AI 未来愿景,聚焦访问、安全和共享繁荣,确保 AGI 造福所有人
- 2026-06-03 | 前沿 AI 民主治理蓝图:概述美国前沿 AI 治理蓝图,提出联邦安全、弹性和国家安全框架
- 2026-06-03 | OpenAI 公共政策议程:概述 AI 公共政策议程,包括安全、青少年保护、劳动力转型和全球标准
- 2026-06-02 | 通过全球领导力推进青少年安全与机会:呼吁全球行动青少年 AI 安全,提议建立国际机构加强保护、标准和青少年机会
- 2026-06-01 | 我们对 AI 政策和政治倡议的看法:AI 政策和政治倡议方法、透明度、支持深思熟虑的监管和 AI 安全,强调没有外部政治团体代表公司发言
研究与基础设施
- 2026-06-08 | 推出 OpenAI 经济研究交流:推出经济研究交流以研究 AI 对就业、生产力和经济的影响,现接受精选研究项目申请
- 2026-06-04 | Dreaming:更好的记忆,更有帮助的 ChatGPT:ChatGPT 引入新记忆系统,更好地记住偏好,在对话中保持上下文新鲜和相关
- 2026-06-04 | 智能时代的生物防御:AI 驱动的生物弹性行动计划
- 2026-06-03 | GPT-Rosalind 新能力介绍:增强生物推理、药物化学专业知识、基因组学分析和实验工作流能力
- 2026-06-01 | 在密歇根建设智能时代基础设施:在密歇根启动 1GW 数据中心项目(Stargate 的一部分),建设 AI 基础设施扩大访问、创造就业和支持社区
Anthropic 动态
重大事件
- 2026-06-13 | 美国政府发布紧急出口管制指令:以国家安全为由,暂停所有外国公民(无论在美国境内外,包括外国籍 Anthropic 员工)访问 Fable 5 和 Mythos 5。为确保合规,必须突然禁用这两个模型。所有其他 Claude 模型不受影响。公司认为这是误解,正在努力尽快恢复访问 完整声明
产品发布
- 2026-06-09 | 推出 Claude Fable 5:Mythos 级模型,已使其安全可用于通用场景,能力超越以往任何公开模型
Claude Code 更新
- 2026-06-13 | v2.1.177 发布
- 2026-06-12 | v2.1.176 发布:会话标题现以对话语言生成(可通过
language设置固定特定语言) - 2026-06-12 | v2.1.175 发布:新增
enforceAvailableModels托管设置,启用后availableModels白名单也会约束默认模型,用户或项目设置无法扩展托管的availableModels列表 - 2026-06-12 | v2.1.174 发布:新增
wheelScrollAccelerationEnabled设置,可在全屏模式下禁用鼠标滚轮加速 - 2026-06-11 | v2.1.173 发布:修复 Fable 5 模型名称带
[1m]后缀未归一化问题(Fable 5 默认包含 1M 上下文,现自动去除后缀)
项目与研究
- 2026-06-11 | 推出 Claude Corps:国家奖学金项目,将职业早期人士与美国非营利组织匹配。将教授 1000 人使用 Claude,并支付报酬让他们使用 AI 推进东道主使命 详情
- 2026-06-08 | 生物学中的智能体:科学博客探讨为何 AI 在编码领域进步快于生物学——对智能体而言,生物数据库就像汽车出现前建造的城市,因为是为不同的流量设计的。如何构建智能体可用的基础设施?阅读
- 2026-06-05 | 让 Claude 成为化学家:科学博客介绍如何让 Claude 理解分子结构。主要工具是 NMR 光谱。研究发现 Opus 4.7 在某些任务上匹配甚至超越专用 NMR 软件 阅读
- 2026-06-03 | AI 增强的网络攻击与安全社区技术:研究 832 个恶意账户,将其活动映射到长期威胁行为者战术和技术数据库 阅读
合作与扩展
- 2026-06-02 | 扩展 Project Glasswing:将 Claude Mythos Preview 访问权限扩展至约 150 个额外组织,覆盖 15 个以上国家 阅读
- 2026-06-02 | 支持白宫行政令:该行政令是加强美国 AI 领导力的重要一步,期待与白宫合作支持其实施 行政令
Google AI 动态
- 2026-06-11 | 弗吉尼亚社区投资:支持本地就业并扩大能源可负担性,帮助建设下一代劳动力并投资能源项目
- 2026-06-05 | 2026 年 5 月 AI 新闻回顾
- 2026-06-03 | Google Search 提升二手和复古购物的 5 种方式
- 2026-06-01 | 如何使用 Gemini 构建 Google I/O 2026
xAI 动态
Grok Build 产品更新
- 2026-06-14 | Grok Build 数学与 LaTeX 渲染:现在可在终端中直接渲染数学、公式和 LaTeX
- 2026-06-11 | Grok Build 插件市场 beta 上线:支持 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件,从终端构建 详情
- Sentry 插件:查找和修复错误、分析堆栈跟踪、分类警报
- Vercel 插件:部署到生产、启动沙箱或使用 Shadcn 构建应用
- MongoDB 插件:探索数据、优化数据库性能、构建高性能向量搜索系统
Grok Voice 与模型
- 2026-06-10 | Grok Voice 性能表现:在 EVA-Bench 达到帕累托前沿,具有人类般的时序、语调和温暖感,价格仅为竞争对手的一小部分 查看
- 2026-06-03 | Grok Imagine 1.5 Preview 发布:立即在 API 试用 查看
合作案例
- 2026-06-10 | 与 eToro 合作:Tori(eToro 的智能体)利用 xAI 模型和 SpaceXAI 实时数据帮助消费者分析市场情绪 详情
- 2026-06-09 | 与 Gopuff 合作:使用聊天、语音和图像模型构建个性化购物助手 详情
- 2026-06-03 | Gopuff 推出 Go 购物助手:由 Grok 文本、音频和图像模型驱动的个人购物助手,分钟内送达
- 2026-06-03 | Grok 在 Cloudflare AI Gateway 上线:通过 Cloudflare 直接计费,无需额外认证、环境变量或 API 密钥
- 2026-06-03 | Grok 在 Vapi 上线:最自然的 TTS 和最具成本效益的 STT API,构建企业语音 AI
行业人物观点
OpenAI 相关
-
Tibo Sottiaux (OpenAI)
- 2026-06-14 | Codex 可查看和设置自己的 /goal:我们构建的一切,也作为智能体的工具构建。这是元提示的泛化,让智能体基于你的意图设置自己的任务
- 2026-06-14 | Hi,我是 Tibo,刚发现 Codex。AMA
- 2026-06-12 | Codex 使用率重置功能改进:听取反馈,下次按下按钮时可选择实际应用时间
-
gdb (OpenAI)
- 2026-06-12 | 开发者文档智能体:强大而酷的网站导航方式,让体验更具互动性和直观性
- 2026-06-12 | Codex 推荐奖励:未来两周推荐朋友使用 Codex,可获得速率限制重置奖励
- 2026-06-11 | 欢迎 Ona 加入团队:帮助组织在生产中安全部署智能体
Anthropic 相关
- Boris Cherny (Anthropic)
- 2026-06-11 | /goooooal ⚽
- 2026-06-11 | 你好,来自东京的 Code with Claude!
- 2026-06-11 | Claude Fable 5 解决了 CAD:要求制作 V8 引擎模型,不到 10 分钟回复了完全可工作的模型
Google 相关
-
Logan Kilpatrick (Google)
- 2026-06-13 | Google AI Studio 长期目标:消除 AI 构建的摩擦,然后对你自己的业务做同样的事,最终为所有人解锁经济机会。感觉像早期阶段但越来越兴奋
- 2026-06-13 | Ilya 是对的:预测了很多这些事情
-
Demis Hassabis (Google DeepMind)
- 2026-06-11 | Gemini Omni Flash 登顶 Video Arena:文本生成视频和图像生成视频均排名第一,相比 Veo 3.1 (1080p) 提升 +158 分
- 2026-06-11 | Notebooks 在 EEA、英国和瑞士上线:在 Gemini 中组织项目的专用空间
- 2026-06-11 | DiffusionGemma 文本扩散创新:速度极快,比其他 Gemma 4 模型快 4 倍,同时生成整块文本而非逐令牌生成
Benchmark 快照
SWE-bench Verified(Verified 类别)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium (20251101) | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview (2025-11-18) | 77.4 |
| 5 | Atlassian Rovo Dev (2025-09-02) | 76.8 |
| 6 | EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet | 76.8 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high reasoning) | 76.8 |
| 8 | ACoder | 76.4 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high reasoning) | 75.8 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high reasoning) | 75.8 |
SWE-bench Pro(Public 类别)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
Terminal-bench 2.0
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | NexAU-AHE / GPT-5.5 | 84.7 |
| 2 | LemonHarness / Multiple | 84.5 |
| 3 | Capy / GPT-5.5 | 83.1 |
| 4 | Codex CLI / GPT-5.5 | 82.2 |
| 5 | Polaris / Multiple | 82.2 |
| 6 |