AI 日报 2026-06-07 08:50

2026-06-07 08:50 CST

核心速览

【Anthropic】Anthropic 秘密提交 S-1,递交 IPO 申请 Anthropic 已向 SEC 秘密提交 S-1 注册声明,获得了追求 IPO 的选项。此前公司刚完成 Series H 融资,以 9650 亿美元估值融资 650 亿美元。这标志着 Anthropic 正式迈向上市通道,是 AI 行业迄今最重大的资本市场动作之一。 原文


【Anthropic】Claude 加速 AI 自身研发,工程师代码产出提升 8 倍 Anthropic 内部数据显示,工程师借助 Claude 平均每季度代码产出是 2021-2025 年基准的 8 倍。Anthropic 指出这可能是递归自我改进的早期信号——AI 正在自主加速构建更强大的后继者,其速度超出预期,值得高度关注。 原文


【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放 150 家机构 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 家机构,覆盖 15 个以上国家。Mythos 被视为 Anthropic 下一代旗舰级模型,此次扩容意味着更大规模的外部测试正在推进。 原文


【OpenAI】ChatGPT 推出 "Dreaming" 记忆系统 OpenAI 为 ChatGPT 引入新一代记忆机制,可跨会话持续学习用户偏好,保持上下文的新鲜度与相关性。这一改进减少了用户重复说明背景的需要,提升了每个 token 的实际效用,是 ChatGPT 个性化能力的重要升级。 原文


【OpenAI】GPT-Rosalind 重大升级,强化生命科学研究能力 GPT-Rosalind 新版本整合了 GPT-5.5 的 Agentic 编程与工具调用能力,在药物发现、分析设计和实验流程方面智能显著提升,同时新增基因组学分析和药物化学专业能力。该模型面向企业级生命科学研究,是 OpenAI 在垂直领域专用模型上的重要布局。 原文


重大 Benchmark 变化

SWE-bench Verified

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:排名从 103 → 76,分数从 52.2 → 60.4(+8.2分),升幅 +15.7%,表现亮眼。
  • Nemotron-CORTEXA 明显下滑:排名从 50 → 82,分数从 68.2 → 58.2(-10分),跌幅 -14.7%,值得关注。
  • devlo 大幅下滑:排名从 44 → 83,分数从 70.2 → 58.2(-12分),跌幅 -17.1%。
  • Warp 小幅下滑:排名从 11 → 36,分数从 75.6 → 71.0(-4.6分)。

Terminal Bench 2.0

  • LemonHarness / Multiple 显著提升:排名从 10 → 4,分数从 79.9 → 84.5(+4.6分),跻身前四。
  • Warp / Multiple 出现双重下滑记录:分数从 61.2 分别降至 59.1 和 50.1,排名最低降至第 67 位,波动较大。

快速预览

  • Anthropic 递交 IPO 申请(S-1),估值接近 $965B,同期完成 $65B Series H 融资,Claude 工程师代码产出已达 2021-2025 年的 8 倍
  • SWE-bench Pro Public 最新快照:gpt-5.4 (xHigh) 以 59.1% 领跑,claude-opus-4-6 thinking 51.9% 位列第三,榜单由 Scale AI Labs 采集于 2026-06-07
  • Anthropic Claude Mythos Preview 扩展至约 150 个组织(Project Glasswing),Claude Opus 4.8 已上线,NMR 化学分析能力达到专业软件水平
  • OpenAI Codex 本周密集更新:Sites 网站部署功能上线、AWS Bedrock 集成、CLI v0.137.0 发布,ChatGPT 新增邮件发送和记忆"梦境"系统
  • SWE-bench Verified 榜单出现明显波动:Warp 从第 11 跌至第 36,devlo 从第 44 跌至第 83~94,EntroPO+Qwen3 则大幅上升(103→76)

OpenAI

新闻(倒序)

2026-06-06 ChatGPT 新增邮件集成,用户可直接从写作块发送邮件,无需离开对话界面。

2026-06-04

  • ChatGPT 记忆系统升级:推出"Dreaming"机制,跨对话持久保留偏好与上下文,提升长期实用性。
  • Endava 案例:使用 ChatGPT Enterprise 和 Codex 将需求分析从数周压缩至数小时,构建 AI 原生工程文化。
  • 生物防御行动计划:发布 AI 驱动的生物韧性方案白皮书。

2026-06-03

2026-06-02

2026-06-01

gpt-5.5 instant 模型更新(2026-05-29):修复过度使用列表格式问题,同步改善谄媚倾向、事实准确性及多语言表现。


Anthropic

新闻(倒序)

2026-06-06 Anthropic 内部数据显示工程师通过 Claude 加速 AI 开发,代码产出是 2021-2025 年均值的 8 倍,官方将其描述为"递归自我改进的可能路径"并呼吁重视潜在影响。报告链接

2026-06-05 Claude 化学能力论文:Opus 4.7 在 NMR 谱图解析任务上媲美甚至超越专业 NMR 软件。

2026-06-04 Claude Code v2.1.163~168 密集发布:v2.1.166 新增 fallbackModel 配置(最多三个后备模型),v2.1.163 新增版本范围管控设置 (requiredMinimumVersion / requiredMaximumVersion)。

2026-06-03 AI 网络威胁分析报告:基于 832 个恶意账号,将 AI 驱动攻击行为映射至 MITRE ATT&CK 框架。

2026-06-02

2026-06-01 Anthropic 秘密递交 S-1 文件至美国 SEC,为潜在 IPO 做准备。

2026-05-28

  • Claude Opus 4.8 发布:在 Opus 4.7 基础上增强判断力、自我进度透明度,支持更长时间独立工作,价格不变。
  • Series H 融资:完成 $65B,估值达 $965B,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。

Google / DeepMind

新闻(倒序)

2026-06-05 Google 5 月 AI 回顾正式发布。Logan K 透露正在为 Android/iOS 开发"最佳 vibe coding 应用",并考虑推出 Google Summer of Building 活动。

2026-06-03 DeepMind 的 DataDIVER 预印本发布:从数据中自动发现简洁计算模型,辅助科学发现。

2026-06-02 Co-Scientist 发布:基于 Gemini 的多智能体系统,可为复杂科学问题生成、辩论并演化新假说。

2026-06-01 Gemini 助力 Google I/O 2026 建设案例发布。

2026-05-29 Gemini Omni 与 Gemini 3.5 9 个演示视频公开。


xAI / Grok

新闻(倒序)

2026-06-03

2026-05-28 Grok Build 0.2.7:新增 /usage/login、子智能体共享终端,改善图像理解。

2026-05-25~27 Grok Build Beta 面向所有 SuperGrok/X Premium+ 用户开放;重置使用限额;支持 Kilo IDE 集成 grok-build-0.1


Benchmark 快照

SWE-bench Verified(编码代理,来源:swebench.com

本期有显著变化,Top 3 维持不变:

排名 系统 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期榜单变化(值得关注):

系统 方向 分数变化 排名变化
EntroPO + R2E + Qwen3-Coder-30B-A3B 52.2 → 60.4 103 → 76
Warp 75.6 → 71.0 11 → 36
devlo 70.2 → 58.2/54.2 44 → 83/94
Nemotron-CORTEXA 68.2 → 58.2 50 → 82
EPAM AI/Run + GPT4o 27.0 → 24.0 156 → 162
Solver (2024-09-12) 45.4 → 43.6 120 → 126

Warp 和 devlo 本期均出现较大幅度下滑,Qwen3 方案则逆势上升。


SWE-bench Pro Public(高难度变体,来源:Scale AI Labs,采集于 2026-06-07)

本期无变动(首次纳入,记录当前 Top 3):

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

注:标 * 的条目为非官方提交。整体分数区间远低于 SWE-bench Verified,反映题目难度提升。


Terminal Bench 2.0(终端代理,来源:tbench.ai

Top 3 维持不变:

排名 系统 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期榜单变化:

| 系统 | 方向 | 分数变化 | 排名变化 | |------|| LemonHarness / Multiple | ↑ | 79.9 → 84.5 | 10 → 4 | | Gemini CLI / Gemini 3.1 Pro | ↑ | 59.4 → 61.4 | 47 → 42 | | little-coder / Qwen3.6-35B-A3B | ↑ | 23.0 → 24.6 | 123 → 118 | | Warp / Multiple | ↓ | 61.2 → 59.1/50.1 | 43 → 49/67 |

LemonHarness 跃升至第 4,Warp 在本榜同样出现下滑(与 SWE-bench Verified 趋势一致)。


LM Arena Overall(人类偏好,来源:lmarena-ai,采集于 2026-05-27)

本期无变动,当前 Top 3:

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1502.2
2 claude-opus-4-7-thinking 1499.7
3 claude-opus-4-6 1498.4

Claude 系列包揽前四,第五位为 muse-spark(1489.0),第六位 gemini-3.1-pro-preview(1487.4)。

Sources