AI 日报 2026-06-09 08:38

2026-06-09 08:38 CST

核心速览

【OpenAI】向 SEC 提交机密 S-1 注册声明 OpenAI 已向美国证券交易委员会提交机密 S-1 草案,为可能的 IPO 做准备。SEC 审查完成后将决定进一步行动时间,这标志着 OpenAI 向公开上市迈出关键一步。 https://openai.com/index/openai-submits-confidential-s-1

【OpenAI】Codex 在 AWS 正式可用 OpenAI 前沿模型和 Codex 现已在 AWS 全面上线,企业客户可通过现有 AWS 环境、控制和采购流程使用 OpenAI 服务。这为企业提供新的部署路径,加快从评估到生产的进程。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws

【OpenAI】推出经济研究交流平台 OpenAI 启动经济研究交流项目,研究 AI 对就业、生产力和经济的影响。研究项目申请现已开放,旨在通过实证研究理解 AI 技术的经济效应。 https://openai.com/index/economic-research-exchange

【Anthropic】向 SEC 提交机密 S-1 注册声明 Anthropic 已向 SEC 提交机密 S-1 草案,待审查完成后可选择进行 IPO。这表明 Anthropic 正为可能的公开上市做准备,与 OpenAI 动作类似。 https://www.anthropic.com/news/confidential-draft-s1-sec

【Anthropic】扩大 Project Glasswing 访问范围 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个组织,覆盖超过 15 个国家。该计划旨在推动 Claude 在更广泛场景下的应用和测试。 https://www.anthropic.com/news/expanding-project-glasswing

重大 Benchmark 变化

SWE-bench Verified

  • devlo 排名从第 44 名跌至第 94 名,分数从 70.2 降至 54.2(-22.8%)
  • Nemotron-CORTEXA 排名从第 50 名跌至第 82 名,分数从 68.2 降至 58.2(-14.7%)
  • Warp 排名从第 11 名跌至第 36 名,分数从 75.6 降至 71.0(-6.1%)

[email protected]

  • LemonHarness / Multiple 排名从第 10 名升至第 4 名,分数从 79.9 升至 84.5(+5.8%)
  • Warp / Multiple 排名从第 43 名跌至第 67 名,分数从 61.2 降至 50.1(-18.1%)

快速预览

  • OpenAI 向 SEC 递交 S-1 草案,可能进行 IPO;Anthropic 同步提交 S-1,两家头部公司同日宣布上市准备
  • OpenAI 发布 Codex Sites 预览版,支持创建和部署网站;Codex 现已通过 AWS Bedrock 提供,企业可在 AWS 环境中使用
  • Claude Code v2.1.166 新增最多三个后备模型配置,支持主模型过载时自动切换;新增 --safe-mode 故障排查模式
  • SWE-bench Verified:live-SWE-agent + Claude 4.5 Opus medium 与 Sonar Foundation Agent + Claude 4.5 Opus 并列第一(79.2),TRAE + Doubao-Seed-Code 第三(78.8)
  • SWE-bench Pro Public 榜首为 gpt-5.4 (xHigh) 59.1%,Muse Spark 55.0%;Terminal-Bench 2.0 榜首为 vix / Claude Opus 4.7 达 90.2%

一、主要新闻

OpenAI

IPO 与战略规划(2026-06-08)

  • 向 SEC 递交保密 S-1 草案,尚未确定具体时间表 来源
  • 发布「为所有人而建」愿景规划,强调安全、访问和共同繁荣 来源
  • 启动经济研究交换项目,研究 AI 对就业、生产力和经济的影响 来源

产品与技术更新

  • Codex 新功能(2026-06-02):Sites 插件进入预览,支持创建、保存和部署网站及应用 来源
  • AWS 集成(2026-06-01):OpenAI 前沿模型和 Codex 正式在 AWS 上线,企业可通过 AWS 环境和计费流程使用 来源
  • ChatGPT 记忆改进(2026-06-04):推出新记忆系统「Dreaming」,跨对话保持偏好和上下文 来源
  • GPT-Rosalind 升级(2026-06-03):新增药物化学、基因组分析和实验工作流能力 来源
    • 启动 Rosalind Biodefense 项目,向美国政府和审查过的开发者提供访问 来源

政策与安全

  • 发布前沿 AI 民主治理蓝图和公共政策议程(2026-06-03)来源 来源
  • 加强青少年 AI 安全,呼吁成立国际机构制定标准(2026-06-02)来源
  • 阐明 AI 政策和政治倡导立场(2026-06-01)来源
  • 发布 2026 选举信息和保障措施(2026-05-27)来源
  • 分享第三方可信评估指南(2026-05-29)来源
  • 发布生物防御行动计划(2026-06-04)来源

基础设施与企业案例

  • 在密歇根州启动 1GW Stargate 数据中心项目(2026-06-01)来源
  • Travelers 部署 AI 索赔助手、Endava 使用 AI agent 重塑软件交付、Wasmer 用 Codex 构建边缘 Node.js 运行时、Cisco 和 OpenAI 用 Codex 重新定义企业工程、MUFG 使用 ChatGPT Enterprise 向 AI 原生组织转型、Boston Children's 用 OpenAI 技术诊断超 40 例罕见病例

Anthropic

IPO 与产品扩展

  • 向 SEC 递交保密 S-1 草案(2026-06-01)来源
  • 扩大 Project Glasswing 范围,向 15 个国家约 150 个组织提供 Claude Mythos Preview 访问(2026-06-02)来源

Claude Code 更新

  • v2.1.169(2026-06-08):新增 --safe-mode 标志,可禁用所有自定义项(CLAUDE.md、插件、技能、hook、MCP 服务器)以排查故障 来源
  • v2.1.166(2026-06-06):新增 fallbackModel 设置,支持配置最多三个后备模型,主模型过载时按顺序尝试 来源

研究与安全

  • 发布研究博客:AI 在生物学数据库中的挑战,指出现有数据库架构不适合 AI agent 使用(2026-06-08)来源
  • 发布 Claude 化学能力研究:Opus 4.7 在 NMR 光谱分析任务上匹敌甚至超越专用软件(2026-06-05)来源
  • 分析 832 个恶意账户,将其活动映射到 MITRE ATT&CK 框架(2026-06-03)来源
  • 工程博客:探讨如何通过沙箱技术限制 agent 权限和破坏性操作范围(2026-05-26)来源

模型与社区

  • 推出 Claude Opus 4.8:判断更敏锐、对自身进展更诚实、能独立工作更长时间,价格不变(2026-05-28)来源

Google

  • 发布 2026 年 5 月 AI 新闻汇总(2026-06-05)来源
  • 分享 Gemini Omni 和 Gemini 3.5 的 9 个实际应用演示(2026-05-29)来源
  • 发布 I/O 2026 主要时刻视频集锦(2026-05-28)来源
  • Google DeepMind 推出 Co-Scientist 多 agent 系统,基于 Gemini 生成、辩论和演化科学假设(2026-06-02)来源

xAI

  • Grok 模型现已在 Cloudflare AI Gateway 上线,支持文本、音频、图像和视频模型(2026-06-03)来源
  • Gopuff 与 xAI 合作推出 Go 个人购物助手,由 Grok 文本、音频和图像模型驱动(2026-06-03)来源
  • Grok @Imagine 1.5 Preview 发布(2026-06-03)来源
  • Grok STT 和 TTS 在 Vapi 上线(2026-06-03)来源
  • Grok Build 0.2.7 发布,新增 /usage、/login、跨子 agent 共享终端、改进图像理解(2026-05-28)来源
  • Grok 现支持在 Kilocode 中使用 SuperGrok 或 X Premium+ 订阅(2026-05-27)来源

二、Benchmark 快照

SWE-bench Verified(截至 2025-12-15)

排名 模型 分数 来源
1 live-SWE-agent + Claude 4.5 Opus medium (20251101) 79.2 OpenAutoCoder
1 Sonar Foundation Agent + Claude 4.5 Opus 79.2 Sonar
3 TRAE + Doubao-Seed-Code 78.8 ByteDance
4 live-SWE-agent + Gemini 3 Pro Preview (2025-11-18) 77.4 OpenAutoCoder
5 Atlassian Rovo Dev (2025-09-02) 76.8 Atlassian
5 EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet 76.8 EPAM
5 mini-SWE-agent + Claude 4.5 Opus (high reasoning) 76.8 mini-SWE-agent
8 ACoder 76.4 ACoder-AI
9 mini-SWE-agent + Gemini 3 Flash (high reasoning) 75.8 mini-SWE-agent
9 mini-SWE-agent + MiniMax M2.5 (high reasoning) 75.8 mini-SWE-agent

SWE-bench Pro Public(截至 2026-06-09)

排名 模型 分数 来源
1 gpt-5.4 (xHigh)* 59.1 Scale Labs
2 Muse Spark* 55.0 Scale Labs
3 claude-opus-4-6 (thinking)* 51.9 Scale Labs
4 gemini-3.1-pro (thinking)* 46.1 Scale Labs
5 claude-opus-4-5-20251101 45.89 Scale Labs
6 claude-4-5-Sonnet 43.6 Scale Labs
7 gemini-3-pro-preview 43.3 Scale Labs
8 claude-4-Sonnet 42.7 Scale Labs
9 gpt-5-2025-08-07 (High) 41.78 Scale Labs
10 gpt-5.2-codex 41.04 Scale Labs

Terminal-Bench 2.0(截至 2026-05-15)

排名 模型 分数 来源
1 vix / Claude Opus 4.7 90.2 TBench
2 JJAgent / Multiple 87.1 TBench
3 NexAU-AHE / GPT-5.5 84.7 TBench
4 LemonHarness / Multiple 84.5 TBench
5 Capy / GPT-5.5 83.1 TBench
6 Codex CLI / GPT-5.5 82.2 TBench
6 Polaris / Multiple 82.2 TBench
8 TongAgents / Gemini 3.1 Pro 80.2 TBench
8 WOZCODE / Claude Opus 4.7 80.2 TBench
10 LemonHarness / Multiple 79.9 TBench

LMArena 整体榜单(截至 2026-05-27)

排名 模型 Elo 分数 来源
1 claude-opus-4-6-thinking 1502.17 LMArena
2 claude-opus-4-7-thinking 1499.70 LMArena
3 claude-opus-4-6 1498.38 LMArena
4 claude-opus-4-7 1493.64 LMArena
5 muse-spark 1488.97 LMArena
6 gemini-3.1-pro-preview 1487.45 LMArena
7 gemini-3-pro 1485.97 LMArena
8 gpt-5.5-high 1482.33 LMArena
9 gpt-5.4-high 1480.43 LMArena
10 gemini-3.5-flash 1479.08 LMArena

三、Benchmark 变化

SWE-bench Verified

显著上升

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct:103 → 76(52.2 → 60.4)
  • devlo:44 → 83(70.2 → 58.2);另一数据点 44 → 94(70.2 → 54.2)

显著下降

  • Nemotron-CORTEXA:50 → 82(68.2 → 58.2)
  • Warp:11 → 36(75.6 → 71.0)
  • EPAM AI/Run Developer Agent + GPT4o:156 → 162(27.0 → 24.0)
  • Solver (2024-09-12):120 → 126(45.4 → 43.6)

Terminal-Bench 2.0

显著上升

  • LemonHarness / Multiple:10 → 4(79.9 → 84.5)

显著下降

  • Warp / Multiple:43 → 49(61.2 → 59.1);另一数据点 43 → 67(61.2 → 50.1)

小幅上升

  • Gemini CLI / Gemini 3.1 Pro:47 → 42(59.4 → 61.4)
  • little-coder / Qwen3.6-35B-A3B:123 → 118(23.0 → 24.6)

数据来源状态:所有数据来源均成功采集,无失败来源。

Sources