AI 日报 2026-06-06 08:33

2026-06-06 08:33 CST

核心速览

【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向 SEC 机密提交 S-1 注册草案,保留启动 IPO 的选项,时间取决于 SEC 审查完成情况。此前公司刚完成 Series H 融资,估值达 9650 亿美元,IPO 动向将是 AI 行业今年最重要的资本事件之一。 原文


【Anthropic】Project Glasswing 扩大 Claude Mythos Preview 访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个新增机构,覆盖超过 15 个国家。这是 Anthropic 在顶级模型商业化路径上的重要布局,表明其下一代旗舰模型正在加速推向企业市场。 原文


【Anthropic】Claude 化学能力突破:NMR 分析媲美专业软件 Anthropic 科学博客披露,Claude Opus 4.7 在核磁共振(NMR)谱图解析任务上已达到甚至超越专用 NMR 软件的表现。这标志着大模型在精密科学仪器分析领域开始具备实际替代价值,对药物研发和材料科学影响显著。 原文


【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 上线更强的跨会话记忆机制,能主动保持用户偏好和上下文的长期相关性,而非被动存储。更智能的记忆意味着更短的提示词、更高的每 token 使用效率,是 ChatGPT 产品体验的系统性升级。 原文


【OpenAI】GPT-Rosalind 重大更新,聚焦药物发现 OpenAI 为生命科学专用模型 GPT-Rosalind 带来重大升级,整合 GPT-5.5 的 agentic 编程与工具调用能力,强化药物设计、基因组学分析和实验流程规划。这是 OpenAI 在垂直行业模型竞争中的关键落子,直接对标医疗 AI 赛道。 原文


重大 Benchmark 变化

SWE-bench Verified

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:分数从 52.2 → 60.4(+8.2 分),排名从第 103 升至第 76,涨幅显著。
  • Nemotron-CORTEXA 明显下滑:分数从 68.2 → 58.2(-10.0 分),排名从第 50 跌至第 82,回落幅度较大。
  • devlo 大幅下滑:分数从 70.2 → 58.2(-12.0 分),排名从第 44 跌至第 83,竞争力显著削弱。
  • Warp 小幅下滑:分数从 75.6 → 71.0(-4.6 分),排名从第 11 跌至第 36,仍处于榜单前列但竞争压力增大。

Terminal Bench 2.0

  • LemonHarness / Multiple 强势跃升:分数从 79.9 → 84.5(+4.6 分),排名从第 10 升至第 4,跻身榜单前列。
  • Warp / Multiple 明显下滑:分数从 61.2 → 50.1(-11.1 分),排名从第 43 跌至第 67,在 Terminal Bench 与 SWE-bench 上同步走弱。

快速预览

  • Anthropic 重磅:秘密提交 S-1 上市申请,同时 Claude Opus 4.8 发布,Project Glasswing 扩展至 150+ 机构;Claude Code v2.1.165 本周持续迭代。
  • OpenAI 全线扩张:ChatGPT 推出"Dreaming"记忆系统,GPT-Rosalind 升级药物研发能力,Codex 登陆 AWS 并上线 Sites 建站功能。
  • xAI 生态:Grok Imagine 1.5 Preview 发布,接入 Cloudflare AI Gateway,Grok TTS/STT 上线 Vapi 语音平台。
  • SWE-Bench Verified Top 1:live-SWE-agent + Claude 4.5 Opus 以 79.2 分领跑;SWE-Bench Pro Public Top 1:gpt-5.4 (xHigh) 59.1 分;LM Arena Overall Top 1:claude-opus-4-6-thinking(1502 分)。
  • 榜单波动:SWE-Bench Verified 中 Warp 从第 11 跌至第 36,devlo 从第 44 大幅滑落;Terminal-Bench 2.0 中 LemonHarness 从第 10 升至第 4。

一、OpenAI

产品与模型(2026-06-02 ~ 06-04)

ChatGPT 记忆系统升级:OpenAI 推出"Dreaming"新记忆机制,可跨对话保留用户偏好与上下文,让记忆更持久、相关性更强。(原文)

GPT-Rosalind 能力升级:新版本强化了药物发现、药物化学、基因组学分析和实验工作流能力,专为企业级生命科学研究打造。(原文)

Codex 全面扩展:上线 Sites 插件(预览版),支持直接在 Codex 应用内创建和部署网站、仪表盘、内部工具和游戏;同时发布面向分析师、设计师、投资人等非工程角色的 Codex 使用指南。OpenAI 前端及 Codex 已正式登陆 AWS,企业可通过 Amazon Bedrock 使用。(Sites 更新) (AWS 上线)

治理与政策:发布 AI 民主治理蓝图和公共政策议程,提出联邦层面前沿 AI 安全框架;同步在密歇根州开工建设 1GW Stargate 数据中心。(治理蓝图) (密歇根数据中心)

Codex CLI 更新(v0.137.0,06-04):TUI 新增 F13-F24 键绑定、可搜索菜单粘贴及紧凑推理状态栏。(更新日志)

gpt-5.5 instant 更新(05-29):修复了过度使用项目符号的问题,改善了谄媚倾向、事实准确性和多语言表现。


二、Anthropic / Claude

重大事件

日期 事件
06-01 秘密提交 S-1,为 IPO 保留选项
05-28 完成 Series H 融资 650 亿美元,估值 9650 亿美元
05-28 Claude Opus 4.8 发布,判断力更强、可长时间独立工作,同价格提供
06-02 Project Glasswing 扩展至 150+ 机构(15+ 国家),更多组织获 Claude Mythos Preview 访问权
06-02 美国总统令签署推进 AI 创新,Anthropic 公开支持

科研进展

  • Claude 作为化学家(06-05):Opus 4.7 在 NMR 波谱分析任务上可与专业软件比肩,部分任务超越。(博文)
  • AI 网络威胁研究(06-03):分析 832 个恶意账号,将 AI 赋能的网络攻击行为映射至 MITRE ATT&CK 框架。(博文)

Claude Code 更新(本周)

版本 日期 关键变化
v2.1.165 06-05 Bug 修复与稳定性改善
v2.1.163 06-04 新增 requiredMinimumVersion / requiredMaximumVersion 管控设置,版本越界拒绝启动
v2.1.162 06-03 claude agents --json 新增 waitingFor 字段,显示 session 阻塞原因
v2.1.161 06-02 OTEL_RESOURCE_ATTRIBUTES 值作为标签附加到指标数据点,支持按团队/仓库切片
v2.1.160 06-02 写入 shell 启动文件前新增提示,防止意外命令执行

三、Google / DeepMind

5 月 AI 月报(06-05):Google 发布 5 月 AI 进展回顾,涵盖 Google I/O 2026 全部公告。(月报)

Gemini Omni 与 Gemini 3.5 演示(05-29):发布 9 个实际使用 demo 视频,展示多模态能力。(演示)

Co-Scientist(06-02):DeepMind 发布基于 Gemini 的多智能体科研系统,可生成、辩论并演化科学假设。

Google I/O 2026 回顾(05-28):整理 12 个 I/O 重要时刻视频。(回顾)

Google DevRel 负责人透露正在开发 Android/iOS 上"最佳 vibe coding 应用",并探索"Google 编程之夏"活动。


四、xAI / Grok

日期 更新
06-03 Grok Imagine 1.5 Preview 发布,可通过 API 使用
06-03 Grok 模型接入 Cloudflare AI Gateway,统一计费和鉴权
06-03 Grok TTS/STT 在 Vapi 上线,支持企业级语音 AI
06-03 Go by Gopuff:由 Grok 文本/音频/图像模型驱动的个人购物助手
05-28 Grok Build 0.2.7:新增 /usage/login、子智能体共享终端和图像理解改进
05-25 Grok Build Beta 向全体 SuperGrok 和 X Premium+ 用户开放

五、Benchmark 快照

SWE-Bench Verified(本期无变动 — Top 3 当前状态)

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

来源:SWE-Bench Verified

本期榜单变化(值得关注):

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct:分数从 52.2 → 60.4,排名从 103 → 76,显著上升。
  • Warp:分数从 75.6 → 71.0,排名从 11 → 36,较大下滑。
  • devlo:分数从 70.2 滑落至 54.2~58.2,排名从 44 跌至 83~94 区间,出现多次重新评分记录。
  • Nemotron-CORTEXA:分数从 68.2 → 58.2,排名从 50 → 82,下滑明显。
  • EPAM AI/Run Developer Agent + GPT4o:分数 27.0 → 24.0,排名 156 → 162(小幅下滑)。
  • Solver (2024-09-12):分数 45.4 → 43.6,排名 120 → 126(小幅下滑)。

SWE-Bench Pro Public(当前 Top 5)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

*表示使用特殊配置/系统提示。来源:Scale AI Leaderboard(快照时间:2026-06-06)

本期无变动记录,以上为当前榜单状态。


Terminal-Bench 2.0(本期无变动 — Top 3 当前状态)

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

来源:tbench.ai

本期榜单变化:

  • LemonHarness / Multiple:分数从 79.9 → 84.5,排名从 10 → 4,升幅最大。
  • Gemini CLI / Gemini 3.1 Pro:分数从 59.4 → 61.4,排名从 47 → 42,小幅上升。
  • Warp / Multiple:出现两条评分记录(59.1 和 50.1),排名分别为 49 和 67,均从第 43 下滑,整体下行趋势明显。
  • little-coder / Qwen3.6-35B-A3B:分数从 23.0 → 24.6,排名从 123 → 118(微升)。

LM Arena Overall(本期无变动 — Top 5 当前状态)

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1502.2
2 claude-opus-4-7-thinking 1499.7
3 claude-opus-4-6 1498.4
4 claude-opus-4-7 1493.6
5 muse-spark 1489.0

来源:LM Arena(快照时间:2026-05-27)

Claude Opus 系列包揽前四,前十中 Google Gemini 3.1 Pro Preview 排第 6,GPT-5.5-high 排第 8。

Sources