AI 日报 2026-06-09 08:38

核心速览

【OpenAI】向 SEC 提交机密 S-1 注册声明 OpenAI 已向美国证券交易委员会提交机密 S-1 草案，为可能的 IPO 做准备。SEC 审查完成后将决定进一步行动时间，这标志着 OpenAI 向公开上市迈出关键一步。 https://openai.com/index/openai-submits-confidential-s-1

【OpenAI】Codex 在 AWS 正式可用 OpenAI 前沿模型和 Codex 现已在 AWS 全面上线，企业客户可通过现有 AWS 环境、控制和采购流程使用 OpenAI 服务。这为企业提供新的部署路径，加快从评估到生产的进程。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws

【OpenAI】推出经济研究交流平台 OpenAI 启动经济研究交流项目，研究 AI 对就业、生产力和经济的影响。研究项目申请现已开放，旨在通过实证研究理解 AI 技术的经济效应。 https://openai.com/index/economic-research-exchange

【Anthropic】向 SEC 提交机密 S-1 注册声明 Anthropic 已向 SEC 提交机密 S-1 草案，待审查完成后可选择进行 IPO。这表明 Anthropic 正为可能的公开上市做准备，与 OpenAI 动作类似。 https://www.anthropic.com/news/confidential-draft-s1-sec

【Anthropic】扩大 Project Glasswing 访问范围 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个组织，覆盖超过 15 个国家。该计划旨在推动 Claude 在更广泛场景下的应用和测试。 https://www.anthropic.com/news/expanding-project-glasswing

重大 Benchmark 变化

SWE-bench Verified

devlo 排名从第 44 名跌至第 94 名，分数从 70.2 降至 54.2（-22.8%）
Nemotron-CORTEXA 排名从第 50 名跌至第 82 名，分数从 68.2 降至 58.2（-14.7%）
Warp 排名从第 11 名跌至第 36 名，分数从 75.6 降至 71.0（-6.1%）

[email protected]

LemonHarness / Multiple 排名从第 10 名升至第 4 名，分数从 79.9 升至 84.5（+5.8%）
Warp / Multiple 排名从第 43 名跌至第 67 名，分数从 61.2 降至 50.1（-18.1%）

快速预览

OpenAI 向 SEC 递交 S-1 草案，可能进行 IPO；Anthropic 同步提交 S-1，两家头部公司同日宣布上市准备
OpenAI 发布 Codex Sites 预览版，支持创建和部署网站；Codex 现已通过 AWS Bedrock 提供，企业可在 AWS 环境中使用
Claude Code v2.1.166 新增最多三个后备模型配置，支持主模型过载时自动切换；新增 --safe-mode 故障排查模式
SWE-bench Verified：live-SWE-agent + Claude 4.5 Opus medium 与 Sonar Foundation Agent + Claude 4.5 Opus 并列第一（79.2），TRAE + Doubao-Seed-Code 第三（78.8）
SWE-bench Pro Public 榜首为 gpt-5.4 (xHigh) 59.1%，Muse Spark 55.0%；Terminal-Bench 2.0 榜首为 vix / Claude Opus 4.7 达 90.2%

一、主要新闻

OpenAI

IPO 与战略规划（2026-06-08）

向 SEC 递交保密 S-1 草案，尚未确定具体时间表来源
发布「为所有人而建」愿景规划，强调安全、访问和共同繁荣来源
启动经济研究交换项目，研究 AI 对就业、生产力和经济的影响来源

产品与技术更新

Codex 新功能（2026-06-02）：Sites 插件进入预览，支持创建、保存和部署网站及应用来源
AWS 集成（2026-06-01）：OpenAI 前沿模型和 Codex 正式在 AWS 上线，企业可通过 AWS 环境和计费流程使用来源
ChatGPT 记忆改进（2026-06-04）：推出新记忆系统「Dreaming」，跨对话保持偏好和上下文来源
GPT-Rosalind 升级（2026-06-03）：新增药物化学、基因组分析和实验工作流能力来源
- 启动 Rosalind Biodefense 项目，向美国政府和审查过的开发者提供访问来源

政策与安全

发布前沿 AI 民主治理蓝图和公共政策议程（2026-06-03）来源来源
加强青少年 AI 安全，呼吁成立国际机构制定标准（2026-06-02）来源
阐明 AI 政策和政治倡导立场（2026-06-01）来源
发布 2026 选举信息和保障措施（2026-05-27）来源
分享第三方可信评估指南（2026-05-29）来源
发布生物防御行动计划（2026-06-04）来源

基础设施与企业案例

在密歇根州启动 1GW Stargate 数据中心项目（2026-06-01）来源
Travelers 部署 AI 索赔助手、Endava 使用 AI agent 重塑软件交付、Wasmer 用 Codex 构建边缘 Node.js 运行时、Cisco 和 OpenAI 用 Codex 重新定义企业工程、MUFG 使用 ChatGPT Enterprise 向 AI 原生组织转型、Boston Children's 用 OpenAI 技术诊断超 40 例罕见病例

Anthropic

IPO 与产品扩展

向 SEC 递交保密 S-1 草案（2026-06-01）来源
扩大 Project Glasswing 范围，向 15 个国家约 150 个组织提供 Claude Mythos Preview 访问（2026-06-02）来源

Claude Code 更新

v2.1.169（2026-06-08）：新增 --safe-mode 标志，可禁用所有自定义项（CLAUDE.md、插件、技能、hook、MCP 服务器）以排查故障来源
v2.1.166（2026-06-06）：新增 fallbackModel 设置，支持配置最多三个后备模型，主模型过载时按顺序尝试来源

研究与安全

发布研究博客：AI 在生物学数据库中的挑战，指出现有数据库架构不适合 AI agent 使用（2026-06-08）来源
发布 Claude 化学能力研究：Opus 4.7 在 NMR 光谱分析任务上匹敌甚至超越专用软件（2026-06-05）来源
分析 832 个恶意账户，将其活动映射到 MITRE ATT&CK 框架（2026-06-03）来源
工程博客：探讨如何通过沙箱技术限制 agent 权限和破坏性操作范围（2026-05-26）来源

模型与社区

推出 Claude Opus 4.8：判断更敏锐、对自身进展更诚实、能独立工作更长时间，价格不变（2026-05-28）来源

Google

发布 2026 年 5 月 AI 新闻汇总（2026-06-05）来源
分享 Gemini Omni 和 Gemini 3.5 的 9 个实际应用演示（2026-05-29）来源
发布 I/O 2026 主要时刻视频集锦（2026-05-28）来源
Google DeepMind 推出 Co-Scientist 多 agent 系统，基于 Gemini 生成、辩论和演化科学假设（2026-06-02）来源

xAI

Grok 模型现已在 Cloudflare AI Gateway 上线，支持文本、音频、图像和视频模型（2026-06-03）来源
Gopuff 与 xAI 合作推出 Go 个人购物助手，由 Grok 文本、音频和图像模型驱动（2026-06-03）来源
Grok @Imagine 1.5 Preview 发布（2026-06-03）来源
Grok STT 和 TTS 在 Vapi 上线（2026-06-03）来源
Grok Build 0.2.7 发布，新增 /usage、/login、跨子 agent 共享终端、改进图像理解（2026-05-28）来源
Grok 现支持在 Kilocode 中使用 SuperGrok 或 X Premium+ 订阅（2026-05-27）来源

二、Benchmark 快照

SWE-bench Verified（截至 2025-12-15）

排名	模型	分数	来源
1	live-SWE-agent + Claude 4.5 Opus medium (20251101)	79.2	OpenAutoCoder
1	Sonar Foundation Agent + Claude 4.5 Opus	79.2	Sonar
3	TRAE + Doubao-Seed-Code	78.8	ByteDance
4	live-SWE-agent + Gemini 3 Pro Preview (2025-11-18)	77.4	OpenAutoCoder
5	Atlassian Rovo Dev (2025-09-02)	76.8	Atlassian
5	EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet	76.8	EPAM
5	mini-SWE-agent + Claude 4.5 Opus (high reasoning)	76.8	mini-SWE-agent
8	ACoder	76.4	ACoder-AI
9	mini-SWE-agent + Gemini 3 Flash (high reasoning)	75.8	mini-SWE-agent
9	mini-SWE-agent + MiniMax M2.5 (high reasoning)	75.8	mini-SWE-agent

SWE-bench Pro Public（截至 2026-06-09）

排名	模型	分数	来源
1	gpt-5.4 (xHigh)*	59.1	Scale Labs
2	Muse Spark*	55.0	Scale Labs
3	claude-opus-4-6 (thinking)*	51.9	Scale Labs
4	gemini-3.1-pro (thinking)*	46.1	Scale Labs
5	claude-opus-4-5-20251101	45.89	Scale Labs
6	claude-4-5-Sonnet	43.6	Scale Labs
7	gemini-3-pro-preview	43.3	Scale Labs
8	claude-4-Sonnet	42.7	Scale Labs
9	gpt-5-2025-08-07 (High)	41.78	Scale Labs
10	gpt-5.2-codex	41.04	Scale Labs

Terminal-Bench 2.0（截至 2026-05-15）

排名	模型	分数	来源
1	vix / Claude Opus 4.7	90.2	TBench
2	JJAgent / Multiple	87.1	TBench
3	NexAU-AHE / GPT-5.5	84.7	TBench
4	LemonHarness / Multiple	84.5	TBench
5	Capy / GPT-5.5	83.1	TBench
6	Codex CLI / GPT-5.5	82.2	TBench
6	Polaris / Multiple	82.2	TBench
8	TongAgents / Gemini 3.1 Pro	80.2	TBench
8	WOZCODE / Claude Opus 4.7	80.2	TBench
10	LemonHarness / Multiple	79.9	TBench

LMArena 整体榜单（截至 2026-05-27）

排名	模型	Elo 分数	来源
1	claude-opus-4-6-thinking	1502.17	LMArena
2	claude-opus-4-7-thinking	1499.70	LMArena
3	claude-opus-4-6	1498.38	LMArena
4	claude-opus-4-7	1493.64	LMArena
5	muse-spark	1488.97	LMArena
6	gemini-3.1-pro-preview	1487.45	LMArena
7	gemini-3-pro	1485.97	LMArena
8	gpt-5.5-high	1482.33	LMArena
9	gpt-5.4-high	1480.43	LMArena
10	gemini-3.5-flash	1479.08	LMArena

三、Benchmark 变化

SWE-bench Verified

显著上升

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct：103 → 76（52.2 → 60.4）
devlo：44 → 83（70.2 → 58.2）；另一数据点 44 → 94（70.2 → 54.2）

显著下降

Nemotron-CORTEXA：50 → 82（68.2 → 58.2）
Warp：11 → 36（75.6 → 71.0）
EPAM AI/Run Developer Agent + GPT4o：156 → 162（27.0 → 24.0）
Solver (2024-09-12)：120 → 126（45.4 → 43.6）

Terminal-Bench 2.0

显著上升

LemonHarness / Multiple：10 → 4（79.9 → 84.5）

显著下降

Warp / Multiple：43 → 49（61.2 → 59.1）；另一数据点 43 → 67（61.2 → 50.1）

小幅上升

Gemini CLI / Gemini 3.1 Pro：47 → 42（59.4 → 61.4）
little-coder / Qwen3.6-35B-A3B：123 → 118（23.0 → 24.6）

数据来源状态：所有数据来源均成功采集，无失败来源。

来源 · 80 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×9 blog.google ×7 @xai ×7 @thsottiaux ×3 @nickaturley @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3