AI 日报 2026-06-06 08:33

核心速览

【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向 SEC 机密提交 S-1 注册草案，保留启动 IPO 的选项，时间取决于 SEC 审查完成情况。此前公司刚完成 Series H 融资，估值达 9650 亿美元，IPO 动向将是 AI 行业今年最重要的资本事件之一。原文

【Anthropic】Project Glasswing 扩大 Claude Mythos Preview 访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个新增机构，覆盖超过 15 个国家。这是 Anthropic 在顶级模型商业化路径上的重要布局，表明其下一代旗舰模型正在加速推向企业市场。原文

【Anthropic】Claude 化学能力突破：NMR 分析媲美专业软件 Anthropic 科学博客披露，Claude Opus 4.7 在核磁共振（NMR）谱图解析任务上已达到甚至超越专用 NMR 软件的表现。这标志着大模型在精密科学仪器分析领域开始具备实际替代价值，对药物研发和材料科学影响显著。原文

【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 上线更强的跨会话记忆机制，能主动保持用户偏好和上下文的长期相关性，而非被动存储。更智能的记忆意味着更短的提示词、更高的每 token 使用效率，是 ChatGPT 产品体验的系统性升级。原文

【OpenAI】GPT-Rosalind 重大更新，聚焦药物发现 OpenAI 为生命科学专用模型 GPT-Rosalind 带来重大升级，整合 GPT-5.5 的 agentic 编程与工具调用能力，强化药物设计、基因组学分析和实验流程规划。这是 OpenAI 在垂直行业模型竞争中的关键落子，直接对标医疗 AI 赛道。原文

重大 Benchmark 变化

SWE-bench Verified

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升：分数从 52.2 → 60.4（+8.2 分），排名从第 103 升至第 76，涨幅显著。
Nemotron-CORTEXA 明显下滑：分数从 68.2 → 58.2（-10.0 分），排名从第 50 跌至第 82，回落幅度较大。
devlo 大幅下滑：分数从 70.2 → 58.2（-12.0 分），排名从第 44 跌至第 83，竞争力显著削弱。
Warp 小幅下滑：分数从 75.6 → 71.0（-4.6 分），排名从第 11 跌至第 36，仍处于榜单前列但竞争压力增大。

Terminal Bench 2.0

LemonHarness / Multiple 强势跃升：分数从 79.9 → 84.5（+4.6 分），排名从第 10 升至第 4，跻身榜单前列。
Warp / Multiple 明显下滑：分数从 61.2 → 50.1（-11.1 分），排名从第 43 跌至第 67，在 Terminal Bench 与 SWE-bench 上同步走弱。

快速预览

Anthropic 重磅：秘密提交 S-1 上市申请，同时 Claude Opus 4.8 发布，Project Glasswing 扩展至 150+ 机构；Claude Code v2.1.165 本周持续迭代。
OpenAI 全线扩张：ChatGPT 推出"Dreaming"记忆系统，GPT-Rosalind 升级药物研发能力，Codex 登陆 AWS 并上线 Sites 建站功能。
xAI 生态：Grok Imagine 1.5 Preview 发布，接入 Cloudflare AI Gateway，Grok TTS/STT 上线 Vapi 语音平台。
SWE-Bench Verified Top 1：live-SWE-agent + Claude 4.5 Opus 以 79.2 分领跑；SWE-Bench Pro Public Top 1：gpt-5.4 (xHigh) 59.1 分；LM Arena Overall Top 1：claude-opus-4-6-thinking（1502 分）。
榜单波动：SWE-Bench Verified 中 Warp 从第 11 跌至第 36，devlo 从第 44 大幅滑落；Terminal-Bench 2.0 中 LemonHarness 从第 10 升至第 4。

一、OpenAI

产品与模型（2026-06-02 ~ 06-04）

ChatGPT 记忆系统升级：OpenAI 推出"Dreaming"新记忆机制，可跨对话保留用户偏好与上下文，让记忆更持久、相关性更强。(原文)

GPT-Rosalind 能力升级：新版本强化了药物发现、药物化学、基因组学分析和实验工作流能力，专为企业级生命科学研究打造。(原文)

Codex 全面扩展：上线 Sites 插件（预览版），支持直接在 Codex 应用内创建和部署网站、仪表盘、内部工具和游戏；同时发布面向分析师、设计师、投资人等非工程角色的 Codex 使用指南。OpenAI 前端及 Codex 已正式登陆 AWS，企业可通过 Amazon Bedrock 使用。(Sites 更新) (AWS 上线)

治理与政策：发布 AI 民主治理蓝图和公共政策议程，提出联邦层面前沿 AI 安全框架；同步在密歇根州开工建设 1GW Stargate 数据中心。(治理蓝图) (密歇根数据中心)

Codex CLI 更新（v0.137.0，06-04）：TUI 新增 F13-F24 键绑定、可搜索菜单粘贴及紧凑推理状态栏。(更新日志)

gpt-5.5 instant 更新（05-29）：修复了过度使用项目符号的问题，改善了谄媚倾向、事实准确性和多语言表现。

二、Anthropic / Claude

重大事件

日期	事件
06-01	秘密提交 S-1，为 IPO 保留选项
05-28	完成 Series H 融资 650 亿美元，估值 9650 亿美元
05-28	Claude Opus 4.8 发布，判断力更强、可长时间独立工作，同价格提供
06-02	Project Glasswing 扩展至 150+ 机构（15+ 国家），更多组织获 Claude Mythos Preview 访问权
06-02	美国总统令签署推进 AI 创新，Anthropic 公开支持

科研进展

Claude 作为化学家（06-05）：Opus 4.7 在 NMR 波谱分析任务上可与专业软件比肩，部分任务超越。(博文)
AI 网络威胁研究（06-03）：分析 832 个恶意账号，将 AI 赋能的网络攻击行为映射至 MITRE ATT&CK 框架。(博文)

Claude Code 更新（本周）

版本	日期	关键变化
v2.1.165	06-05	Bug 修复与稳定性改善
v2.1.163	06-04	新增 `requiredMinimumVersion` / `requiredMaximumVersion` 管控设置，版本越界拒绝启动
v2.1.162	06-03	`claude agents --json` 新增 `waitingFor` 字段，显示 session 阻塞原因
v2.1.161	06-02	`OTEL_RESOURCE_ATTRIBUTES` 值作为标签附加到指标数据点，支持按团队/仓库切片
v2.1.160	06-02	写入 shell 启动文件前新增提示，防止意外命令执行

三、Google / DeepMind

5 月 AI 月报（06-05）：Google 发布 5 月 AI 进展回顾，涵盖 Google I/O 2026 全部公告。(月报)

Gemini Omni 与 Gemini 3.5 演示（05-29）：发布 9 个实际使用 demo 视频，展示多模态能力。(演示)

Co-Scientist（06-02）：DeepMind 发布基于 Gemini 的多智能体科研系统，可生成、辩论并演化科学假设。

Google I/O 2026 回顾（05-28）：整理 12 个 I/O 重要时刻视频。(回顾)

Google DevRel 负责人透露正在开发 Android/iOS 上"最佳 vibe coding 应用"，并探索"Google 编程之夏"活动。

四、xAI / Grok

日期	更新
06-03	Grok Imagine 1.5 Preview 发布，可通过 API 使用
06-03	Grok 模型接入 Cloudflare AI Gateway，统一计费和鉴权
06-03	Grok TTS/STT 在 Vapi 上线，支持企业级语音 AI
06-03	Go by Gopuff：由 Grok 文本/音频/图像模型驱动的个人购物助手
05-28	Grok Build 0.2.7：新增 `/usage`、`/login`、子智能体共享终端和图像理解改进
05-25	Grok Build Beta 向全体 SuperGrok 和 X Premium+ 用户开放

五、Benchmark 快照

SWE-Bench Verified（本期无变动 — Top 3 当前状态）

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

来源：SWE-Bench Verified

本期榜单变化（值得关注）：

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct：分数从 52.2 → 60.4，排名从 103 → 76，显著上升。
Warp：分数从 75.6 → 71.0，排名从 11 → 36，较大下滑。
devlo：分数从 70.2 滑落至 54.2～58.2，排名从 44 跌至 83～94 区间，出现多次重新评分记录。
Nemotron-CORTEXA：分数从 68.2 → 58.2，排名从 50 → 82，下滑明显。
EPAM AI/Run Developer Agent + GPT4o：分数 27.0 → 24.0，排名 156 → 162（小幅下滑）。
Solver (2024-09-12)：分数 45.4 → 43.6，排名 120 → 126（小幅下滑）。

SWE-Bench Pro Public（当前 Top 5）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

*表示使用特殊配置/系统提示。来源：Scale AI Leaderboard（快照时间：2026-06-06）

本期无变动记录，以上为当前榜单状态。

Terminal-Bench 2.0（本期无变动 — Top 3 当前状态）

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

来源：tbench.ai

本期榜单变化：

LemonHarness / Multiple：分数从 79.9 → 84.5，排名从 10 → 4，升幅最大。
Gemini CLI / Gemini 3.1 Pro：分数从 59.4 → 61.4，排名从 47 → 42，小幅上升。
Warp / Multiple：出现两条评分记录（59.1 和 50.1），排名分别为 49 和 67，均从第 43 下滑，整体下行趋势明显。
little-coder / Qwen3.6-35B-A3B：分数从 23.0 → 24.6，排名从 123 → 118（微升）。

LM Arena Overall（本期无变动 — Top 5 当前状态）

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1502.2
2	claude-opus-4-7-thinking	1499.7
3	claude-opus-4-6	1498.4
4	claude-opus-4-7	1493.6
5	muse-spark	1489.0

来源：LM Arena（快照时间：2026-05-27）

Claude Opus 系列包揽前四，前十中 Google Gemini 3.1 Pro Preview 排第 6，GPT-5.5-high 排第 8。

来源 · 79 条

openai.com ×26 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×9 blog.google ×7 @xai ×8 @thsottiaux ×3 @nickaturley @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3