AI 日报 2026-06-09 08:38
2026-06-09 08:38 CST
核心速览
【OpenAI】向 SEC 提交机密 S-1 注册声明 OpenAI 已向美国证券交易委员会提交机密 S-1 草案,为可能的 IPO 做准备。SEC 审查完成后将决定进一步行动时间,这标志着 OpenAI 向公开上市迈出关键一步。 https://openai.com/index/openai-submits-confidential-s-1
【OpenAI】Codex 在 AWS 正式可用 OpenAI 前沿模型和 Codex 现已在 AWS 全面上线,企业客户可通过现有 AWS 环境、控制和采购流程使用 OpenAI 服务。这为企业提供新的部署路径,加快从评估到生产的进程。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws
【OpenAI】推出经济研究交流平台 OpenAI 启动经济研究交流项目,研究 AI 对就业、生产力和经济的影响。研究项目申请现已开放,旨在通过实证研究理解 AI 技术的经济效应。 https://openai.com/index/economic-research-exchange
【Anthropic】向 SEC 提交机密 S-1 注册声明 Anthropic 已向 SEC 提交机密 S-1 草案,待审查完成后可选择进行 IPO。这表明 Anthropic 正为可能的公开上市做准备,与 OpenAI 动作类似。 https://www.anthropic.com/news/confidential-draft-s1-sec
【Anthropic】扩大 Project Glasswing 访问范围 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个组织,覆盖超过 15 个国家。该计划旨在推动 Claude 在更广泛场景下的应用和测试。 https://www.anthropic.com/news/expanding-project-glasswing
重大 Benchmark 变化
SWE-bench Verified
- devlo 排名从第 44 名跌至第 94 名,分数从 70.2 降至 54.2(-22.8%)
- Nemotron-CORTEXA 排名从第 50 名跌至第 82 名,分数从 68.2 降至 58.2(-14.7%)
- Warp 排名从第 11 名跌至第 36 名,分数从 75.6 降至 71.0(-6.1%)
- LemonHarness / Multiple 排名从第 10 名升至第 4 名,分数从 79.9 升至 84.5(+5.8%)
- Warp / Multiple 排名从第 43 名跌至第 67 名,分数从 61.2 降至 50.1(-18.1%)
快速预览
- OpenAI 向 SEC 递交 S-1 草案,可能进行 IPO;Anthropic 同步提交 S-1,两家头部公司同日宣布上市准备
- OpenAI 发布 Codex Sites 预览版,支持创建和部署网站;Codex 现已通过 AWS Bedrock 提供,企业可在 AWS 环境中使用
- Claude Code v2.1.166 新增最多三个后备模型配置,支持主模型过载时自动切换;新增
--safe-mode故障排查模式 - SWE-bench Verified:live-SWE-agent + Claude 4.5 Opus medium 与 Sonar Foundation Agent + Claude 4.5 Opus 并列第一(79.2),TRAE + Doubao-Seed-Code 第三(78.8)
- SWE-bench Pro Public 榜首为 gpt-5.4 (xHigh) 59.1%,Muse Spark 55.0%;Terminal-Bench 2.0 榜首为 vix / Claude Opus 4.7 达 90.2%
一、主要新闻
OpenAI
IPO 与战略规划(2026-06-08)
产品与技术更新
- Codex 新功能(2026-06-02):Sites 插件进入预览,支持创建、保存和部署网站及应用 来源
- AWS 集成(2026-06-01):OpenAI 前沿模型和 Codex 正式在 AWS 上线,企业可通过 AWS 环境和计费流程使用 来源
- ChatGPT 记忆改进(2026-06-04):推出新记忆系统「Dreaming」,跨对话保持偏好和上下文 来源
- GPT-Rosalind 升级(2026-06-03):新增药物化学、基因组分析和实验工作流能力 来源
- 启动 Rosalind Biodefense 项目,向美国政府和审查过的开发者提供访问 来源
政策与安全
- 发布前沿 AI 民主治理蓝图和公共政策议程(2026-06-03)来源 来源
- 加强青少年 AI 安全,呼吁成立国际机构制定标准(2026-06-02)来源
- 阐明 AI 政策和政治倡导立场(2026-06-01)来源
- 发布 2026 选举信息和保障措施(2026-05-27)来源
- 分享第三方可信评估指南(2026-05-29)来源
- 发布生物防御行动计划(2026-06-04)来源
基础设施与企业案例
- 在密歇根州启动 1GW Stargate 数据中心项目(2026-06-01)来源
- Travelers 部署 AI 索赔助手、Endava 使用 AI agent 重塑软件交付、Wasmer 用 Codex 构建边缘 Node.js 运行时、Cisco 和 OpenAI 用 Codex 重新定义企业工程、MUFG 使用 ChatGPT Enterprise 向 AI 原生组织转型、Boston Children's 用 OpenAI 技术诊断超 40 例罕见病例
Anthropic
IPO 与产品扩展
- 向 SEC 递交保密 S-1 草案(2026-06-01)来源
- 扩大 Project Glasswing 范围,向 15 个国家约 150 个组织提供 Claude Mythos Preview 访问(2026-06-02)来源
Claude Code 更新
- v2.1.169(2026-06-08):新增
--safe-mode标志,可禁用所有自定义项(CLAUDE.md、插件、技能、hook、MCP 服务器)以排查故障 来源 - v2.1.166(2026-06-06):新增
fallbackModel设置,支持配置最多三个后备模型,主模型过载时按顺序尝试 来源
研究与安全
- 发布研究博客:AI 在生物学数据库中的挑战,指出现有数据库架构不适合 AI agent 使用(2026-06-08)来源
- 发布 Claude 化学能力研究:Opus 4.7 在 NMR 光谱分析任务上匹敌甚至超越专用软件(2026-06-05)来源
- 分析 832 个恶意账户,将其活动映射到 MITRE ATT&CK 框架(2026-06-03)来源
- 工程博客:探讨如何通过沙箱技术限制 agent 权限和破坏性操作范围(2026-05-26)来源
模型与社区
- 推出 Claude Opus 4.8:判断更敏锐、对自身进展更诚实、能独立工作更长时间,价格不变(2026-05-28)来源
- 发布 2026 年 5 月 AI 新闻汇总(2026-06-05)来源
- 分享 Gemini Omni 和 Gemini 3.5 的 9 个实际应用演示(2026-05-29)来源
- 发布 I/O 2026 主要时刻视频集锦(2026-05-28)来源
- Google DeepMind 推出 Co-Scientist 多 agent 系统,基于 Gemini 生成、辩论和演化科学假设(2026-06-02)来源
xAI
- Grok 模型现已在 Cloudflare AI Gateway 上线,支持文本、音频、图像和视频模型(2026-06-03)来源
- Gopuff 与 xAI 合作推出 Go 个人购物助手,由 Grok 文本、音频和图像模型驱动(2026-06-03)来源
- Grok @Imagine 1.5 Preview 发布(2026-06-03)来源
- Grok STT 和 TTS 在 Vapi 上线(2026-06-03)来源
- Grok Build 0.2.7 发布,新增 /usage、/login、跨子 agent 共享终端、改进图像理解(2026-05-28)来源
- Grok 现支持在 Kilocode 中使用 SuperGrok 或 X Premium+ 订阅(2026-05-27)来源
二、Benchmark 快照
SWE-bench Verified(截至 2025-12-15)
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium (20251101) | 79.2 | OpenAutoCoder |
| 1 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | Sonar |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | ByteDance |
| 4 | live-SWE-agent + Gemini 3 Pro Preview (2025-11-18) | 77.4 | OpenAutoCoder |
| 5 | Atlassian Rovo Dev (2025-09-02) | 76.8 | Atlassian |
| 5 | EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet | 76.8 | EPAM |
| 5 | mini-SWE-agent + Claude 4.5 Opus (high reasoning) | 76.8 | mini-SWE-agent |
| 8 | ACoder | 76.4 | ACoder-AI |
| 9 | mini-SWE-agent + Gemini 3 Flash (high reasoning) | 75.8 | mini-SWE-agent |
| 9 | mini-SWE-agent + MiniMax M2.5 (high reasoning) | 75.8 | mini-SWE-agent |
SWE-bench Pro Public(截至 2026-06-09)
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 | Scale Labs |
| 2 | Muse Spark* | 55.0 | Scale Labs |
| 3 | claude-opus-4-6 (thinking)* | 51.9 | Scale Labs |
| 4 | gemini-3.1-pro (thinking)* | 46.1 | Scale Labs |
| 5 | claude-opus-4-5-20251101 | 45.89 | Scale Labs |
| 6 | claude-4-5-Sonnet | 43.6 | Scale Labs |
| 7 | gemini-3-pro-preview | 43.3 | Scale Labs |
| 8 | claude-4-Sonnet | 42.7 | Scale Labs |
| 9 | gpt-5-2025-08-07 (High) | 41.78 | Scale Labs |
| 10 | gpt-5.2-codex | 41.04 | Scale Labs |
Terminal-Bench 2.0(截至 2026-05-15)
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 | TBench |
| 2 | JJAgent / Multiple | 87.1 | TBench |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 | TBench |
| 4 | LemonHarness / Multiple | 84.5 | TBench |
| 5 | Capy / GPT-5.5 | 83.1 | TBench |
| 6 | Codex CLI / GPT-5.5 | 82.2 | TBench |
| 6 | Polaris / Multiple | 82.2 | TBench |
| 8 | TongAgents / Gemini 3.1 Pro | 80.2 | TBench |
| 8 | WOZCODE / Claude Opus 4.7 | 80.2 | TBench |
| 10 | LemonHarness / Multiple | 79.9 | TBench |
LMArena 整体榜单(截至 2026-05-27)
| 排名 | 模型 | Elo 分数 | 来源 |
|---|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.17 | LMArena |
| 2 | claude-opus-4-7-thinking | 1499.70 | LMArena |
| 3 | claude-opus-4-6 | 1498.38 | LMArena |
| 4 | claude-opus-4-7 | 1493.64 | LMArena |
| 5 | muse-spark | 1488.97 | LMArena |
| 6 | gemini-3.1-pro-preview | 1487.45 | LMArena |
| 7 | gemini-3-pro | 1485.97 | LMArena |
| 8 | gpt-5.5-high | 1482.33 | LMArena |
| 9 | gpt-5.4-high | 1480.43 | LMArena |
| 10 | gemini-3.5-flash | 1479.08 | LMArena |
三、Benchmark 变化
SWE-bench Verified
显著上升
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct:103 → 76(52.2 → 60.4)
- devlo:44 → 83(70.2 → 58.2);另一数据点 44 → 94(70.2 → 54.2)
显著下降
- Nemotron-CORTEXA:50 → 82(68.2 → 58.2)
- Warp:11 → 36(75.6 → 71.0)
- EPAM AI/Run Developer Agent + GPT4o:156 → 162(27.0 → 24.0)
- Solver (2024-09-12):120 → 126(45.4 → 43.6)
Terminal-Bench 2.0
显著上升
- LemonHarness / Multiple:10 → 4(79.9 → 84.5)
显著下降
- Warp / Multiple:43 → 49(61.2 → 59.1);另一数据点 43 → 67(61.2 → 50.1)
小幅上升
- Gemini CLI / Gemini 3.1 Pro:47 → 42(59.4 → 61.4)
- little-coder / Qwen3.6-35B-A3B:123 → 118(23.0 → 24.6)
数据来源状态:所有数据来源均成功采集,无失败来源。