AI 日报 2026-06-07 08:50

核心速览

【Anthropic】Anthropic 秘密提交 S-1，递交 IPO 申请 Anthropic 已向 SEC 秘密提交 S-1 注册声明，获得了追求 IPO 的选项。此前公司刚完成 Series H 融资，以 9650 亿美元估值融资 650 亿美元。这标志着 Anthropic 正式迈向上市通道，是 AI 行业迄今最重大的资本市场动作之一。原文

【Anthropic】Claude 加速 AI 自身研发，工程师代码产出提升 8 倍 Anthropic 内部数据显示，工程师借助 Claude 平均每季度代码产出是 2021-2025 年基准的 8 倍。Anthropic 指出这可能是递归自我改进的早期信号——AI 正在自主加速构建更强大的后继者，其速度超出预期，值得高度关注。原文

【Anthropic】Project Glasswing 扩展，Claude Mythos Preview 开放 150 家机构 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 家机构，覆盖 15 个以上国家。Mythos 被视为 Anthropic 下一代旗舰级模型，此次扩容意味着更大规模的外部测试正在推进。原文

【OpenAI】ChatGPT 推出 "Dreaming" 记忆系统 OpenAI 为 ChatGPT 引入新一代记忆机制，可跨会话持续学习用户偏好，保持上下文的新鲜度与相关性。这一改进减少了用户重复说明背景的需要，提升了每个 token 的实际效用，是 ChatGPT 个性化能力的重要升级。原文

【OpenAI】GPT-Rosalind 重大升级，强化生命科学研究能力 GPT-Rosalind 新版本整合了 GPT-5.5 的 Agentic 编程与工具调用能力，在药物发现、分析设计和实验流程方面智能显著提升，同时新增基因组学分析和药物化学专业能力。该模型面向企业级生命科学研究，是 OpenAI 在垂直领域专用模型上的重要布局。原文

重大 Benchmark 变化

SWE-bench Verified

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升：排名从 103 → 76，分数从 52.2 → 60.4（+8.2分），升幅 +15.7%，表现亮眼。
Nemotron-CORTEXA 明显下滑：排名从 50 → 82，分数从 68.2 → 58.2（-10分），跌幅 -14.7%，值得关注。
devlo 大幅下滑：排名从 44 → 83，分数从 70.2 → 58.2（-12分），跌幅 -17.1%。
Warp 小幅下滑：排名从 11 → 36，分数从 75.6 → 71.0（-4.6分）。

Terminal Bench 2.0

LemonHarness / Multiple 显著提升：排名从 10 → 4，分数从 79.9 → 84.5（+4.6分），跻身前四。
Warp / Multiple 出现双重下滑记录：分数从 61.2 分别降至 59.1 和 50.1，排名最低降至第 67 位，波动较大。

快速预览

Anthropic 递交 IPO 申请（S-1），估值接近 $965B，同期完成 $65B Series H 融资，Claude 工程师代码产出已达 2021-2025 年的 8 倍
SWE-bench Pro Public 最新快照：gpt-5.4 (xHigh) 以 59.1% 领跑，claude-opus-4-6 thinking 51.9% 位列第三，榜单由 Scale AI Labs 采集于 2026-06-07
Anthropic Claude Mythos Preview 扩展至约 150 个组织（Project Glasswing），Claude Opus 4.8 已上线，NMR 化学分析能力达到专业软件水平
OpenAI Codex 本周密集更新：Sites 网站部署功能上线、AWS Bedrock 集成、CLI v0.137.0 发布，ChatGPT 新增邮件发送和记忆"梦境"系统
SWE-bench Verified 榜单出现明显波动：Warp 从第 11 跌至第 36，devlo 从第 44 跌至第 83~94，EntroPO+Qwen3 则大幅上升（103→76）

OpenAI

新闻（倒序）

2026-06-06 ChatGPT 新增邮件集成，用户可直接从写作块发送邮件，无需离开对话界面。

2026-06-04

ChatGPT 记忆系统升级：推出"Dreaming"机制，跨对话持久保留偏好与上下文，提升长期实用性。
Endava 案例：使用 ChatGPT Enterprise 和 Codex 将需求分析从数周压缩至数小时，构建 AI 原生工程文化。
生物防御行动计划：发布 AI 驱动的生物韧性方案白皮书。

2026-06-03

GPT-Rosalind 能力升级：强化药物发现、药物化学、基因组分析及实验工作流，专为生命科学企业设计。
Wasmer 案例：借助 Codex + GPT-5.5 将 Edge Node.js 运行时开发速度提升 10-20 倍。
前沿 AI 民主治理蓝图及公共政策议程：提出联邦框架，涵盖安全、青少年保护、劳动力转型与全球标准。

2026-06-02

Codex 多角色扩展：分析师、营销、设计、投资等非工程角色均可使用新插件与 Sites 功能。
OpenAI 模型及 Codex 正式上线 AWS，支持企业通过现有 AWS 环境直接使用。
Travelers 保险理赔 AI 助手全国部署，提供 24/7 支持。

2026-06-01

密歇根州 1GW 数据中心（Stargate 项目）正式破土动工。

gpt-5.5 instant 模型更新（2026-05-29）：修复过度使用列表格式问题，同步改善谄媚倾向、事实准确性及多语言表现。

Anthropic

新闻（倒序）

2026-06-06 Anthropic 内部数据显示工程师通过 Claude 加速 AI 开发，代码产出是 2021-2025 年均值的 8 倍，官方将其描述为"递归自我改进的可能路径"并呼吁重视潜在影响。报告链接

2026-06-05 Claude 化学能力论文：Opus 4.7 在 NMR 谱图解析任务上媲美甚至超越专业 NMR 软件。

2026-06-04 Claude Code v2.1.163~168 密集发布：v2.1.166 新增 fallbackModel 配置（最多三个后备模型），v2.1.163 新增版本范围管控设置 (requiredMinimumVersion / requiredMaximumVersion)。

2026-06-03 AI 网络威胁分析报告：基于 832 个恶意账号，将 AI 驱动攻击行为映射至 MITRE ATT&CK 框架。

2026-06-02

Project Glasswing 扩展：Claude Mythos Preview 访问权限扩至约 150 个组织，覆盖 15 个以上国家。
Anthropic 响应白宫 AI 行政令，表态支持合作推进。

2026-06-01 Anthropic 秘密递交 S-1 文件至美国 SEC，为潜在 IPO 做准备。

2026-05-28

Claude Opus 4.8 发布：在 Opus 4.7 基础上增强判断力、自我进度透明度，支持更长时间独立工作，价格不变。
Series H 融资：完成 $65B，估值达 $965B，由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。

Google / DeepMind

新闻（倒序）

2026-06-05 Google 5 月 AI 回顾正式发布。Logan K 透露正在为 Android/iOS 开发"最佳 vibe coding 应用"，并考虑推出 Google Summer of Building 活动。

2026-06-03 DeepMind 的 DataDIVER 预印本发布：从数据中自动发现简洁计算模型，辅助科学发现。

2026-06-02 Co-Scientist 发布：基于 Gemini 的多智能体系统，可为复杂科学问题生成、辩论并演化新假说。

2026-06-01 Gemini 助力 Google I/O 2026 建设案例发布。

2026-05-29 Gemini Omni 与 Gemini 3.5 9 个演示视频公开。

xAI / Grok

新闻（倒序）

2026-06-03

Grok Imagine 1.5 Preview 上线 API。
Grok 接入 Cloudflare AI Gateway：文本、音频、图像、视频模型均可通过 Cloudflare 计费，无需额外 API 密钥。
Gopuff × SpaceXAI 推出 Go 购物助手，由 Grok 多模态模型驱动，支持语音点单快速配送。
Grok TTS/STT 在 Vapi 平台上线，面向企业语音 AI 场景。

2026-05-28 Grok Build 0.2.7：新增 /usage、/login、子智能体共享终端，改善图像理解。

2026-05-25~27 Grok Build Beta 面向所有 SuperGrok/X Premium+ 用户开放；重置使用限额；支持 Kilo IDE 集成 grok-build-0.1。

Benchmark 快照

SWE-bench Verified（编码代理，来源：swebench.com）

本期有显著变化，Top 3 维持不变：

排名	系统	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期榜单变化（值得关注）：

系统	方向	分数变化	排名变化
EntroPO + R2E + Qwen3-Coder-30B-A3B	↑	52.2 → 60.4	103 → 76
Warp	↓	75.6 → 71.0	11 → 36
devlo	↓	70.2 → 58.2/54.2	44 → 83/94
Nemotron-CORTEXA	↓	68.2 → 58.2	50 → 82
EPAM AI/Run + GPT4o	↓	27.0 → 24.0	156 → 162
Solver (2024-09-12)	↓	45.4 → 43.6	120 → 126

Warp 和 devlo 本期均出现较大幅度下滑，Qwen3 方案则逆势上升。

SWE-bench Pro Public（高难度变体，来源：Scale AI Labs，采集于 2026-06-07）

本期无变动（首次纳入，记录当前 Top 3）：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

注：标 * 的条目为非官方提交。整体分数区间远低于 SWE-bench Verified，反映题目难度提升。

Terminal Bench 2.0（终端代理，来源：tbench.ai）

Top 3 维持不变：

排名	系统	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期榜单变化：

| 系统 | 方向 | 分数变化 | 排名变化 | |------|| LemonHarness / Multiple | ↑ | 79.9 → 84.5 | 10 → 4 | | Gemini CLI / Gemini 3.1 Pro | ↑ | 59.4 → 61.4 | 47 → 42 | | little-coder / Qwen3.6-35B-A3B | ↑ | 23.0 → 24.6 | 123 → 118 | | Warp / Multiple | ↓ | 61.2 → 59.1/50.1 | 43 → 49/67 |

LemonHarness 跃升至第 4，Warp 在本榜同样出现下滑（与 SWE-bench Verified 趋势一致）。

LM Arena Overall（人类偏好，来源：lmarena-ai，采集于 2026-05-27）

本期无变动，当前 Top 3：

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1502.2
2	claude-opus-4-7-thinking	1499.7
3	claude-opus-4-6	1498.4

Claude 系列包揽前四，第五位为 muse-spark（1489.0），第六位 gemini-3.1-pro-preview（1487.4）。

来源 · 79 条

openai.com ×26 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×9 blog.google ×7 @xai ×8 @thsottiaux ×3 @nickaturley @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3