AI 日报 2026-06-07 08:50
2026-06-07 08:50 CST
核心速览
【Anthropic】Anthropic 秘密提交 S-1,递交 IPO 申请 Anthropic 已向 SEC 秘密提交 S-1 注册声明,获得了追求 IPO 的选项。此前公司刚完成 Series H 融资,以 9650 亿美元估值融资 650 亿美元。这标志着 Anthropic 正式迈向上市通道,是 AI 行业迄今最重大的资本市场动作之一。 原文
【Anthropic】Claude 加速 AI 自身研发,工程师代码产出提升 8 倍 Anthropic 内部数据显示,工程师借助 Claude 平均每季度代码产出是 2021-2025 年基准的 8 倍。Anthropic 指出这可能是递归自我改进的早期信号——AI 正在自主加速构建更强大的后继者,其速度超出预期,值得高度关注。 原文
【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放 150 家机构 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 家机构,覆盖 15 个以上国家。Mythos 被视为 Anthropic 下一代旗舰级模型,此次扩容意味着更大规模的外部测试正在推进。 原文
【OpenAI】ChatGPT 推出 "Dreaming" 记忆系统 OpenAI 为 ChatGPT 引入新一代记忆机制,可跨会话持续学习用户偏好,保持上下文的新鲜度与相关性。这一改进减少了用户重复说明背景的需要,提升了每个 token 的实际效用,是 ChatGPT 个性化能力的重要升级。 原文
【OpenAI】GPT-Rosalind 重大升级,强化生命科学研究能力 GPT-Rosalind 新版本整合了 GPT-5.5 的 Agentic 编程与工具调用能力,在药物发现、分析设计和实验流程方面智能显著提升,同时新增基因组学分析和药物化学专业能力。该模型面向企业级生命科学研究,是 OpenAI 在垂直领域专用模型上的重要布局。 原文
重大 Benchmark 变化
SWE-bench Verified
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:排名从 103 → 76,分数从 52.2 → 60.4(+8.2分),升幅 +15.7%,表现亮眼。
- Nemotron-CORTEXA 明显下滑:排名从 50 → 82,分数从 68.2 → 58.2(-10分),跌幅 -14.7%,值得关注。
- devlo 大幅下滑:排名从 44 → 83,分数从 70.2 → 58.2(-12分),跌幅 -17.1%。
- Warp 小幅下滑:排名从 11 → 36,分数从 75.6 → 71.0(-4.6分)。
Terminal Bench 2.0
- LemonHarness / Multiple 显著提升:排名从 10 → 4,分数从 79.9 → 84.5(+4.6分),跻身前四。
- Warp / Multiple 出现双重下滑记录:分数从 61.2 分别降至 59.1 和 50.1,排名最低降至第 67 位,波动较大。
快速预览
- Anthropic 递交 IPO 申请(S-1),估值接近 $965B,同期完成 $65B Series H 融资,Claude 工程师代码产出已达 2021-2025 年的 8 倍
- SWE-bench Pro Public 最新快照:gpt-5.4 (xHigh) 以 59.1% 领跑,claude-opus-4-6 thinking 51.9% 位列第三,榜单由 Scale AI Labs 采集于 2026-06-07
- Anthropic Claude Mythos Preview 扩展至约 150 个组织(Project Glasswing),Claude Opus 4.8 已上线,NMR 化学分析能力达到专业软件水平
- OpenAI Codex 本周密集更新:Sites 网站部署功能上线、AWS Bedrock 集成、CLI v0.137.0 发布,ChatGPT 新增邮件发送和记忆"梦境"系统
- SWE-bench Verified 榜单出现明显波动:Warp 从第 11 跌至第 36,devlo 从第 44 跌至第 83~94,EntroPO+Qwen3 则大幅上升(103→76)
OpenAI
新闻(倒序)
2026-06-06 ChatGPT 新增邮件集成,用户可直接从写作块发送邮件,无需离开对话界面。
2026-06-04
- ChatGPT 记忆系统升级:推出"Dreaming"机制,跨对话持久保留偏好与上下文,提升长期实用性。
- Endava 案例:使用 ChatGPT Enterprise 和 Codex 将需求分析从数周压缩至数小时,构建 AI 原生工程文化。
- 生物防御行动计划:发布 AI 驱动的生物韧性方案白皮书。
2026-06-03
- GPT-Rosalind 能力升级:强化药物发现、药物化学、基因组分析及实验工作流,专为生命科学企业设计。
- Wasmer 案例:借助 Codex + GPT-5.5 将 Edge Node.js 运行时开发速度提升 10-20 倍。
- 前沿 AI 民主治理蓝图 及公共政策议程:提出联邦框架,涵盖安全、青少年保护、劳动力转型与全球标准。
2026-06-02
- Codex 多角色扩展:分析师、营销、设计、投资等非工程角色均可使用新插件与 Sites 功能。
- OpenAI 模型及 Codex 正式上线 AWS,支持企业通过现有 AWS 环境直接使用。
- Travelers 保险理赔 AI 助手全国部署,提供 24/7 支持。
2026-06-01
- 密歇根州 1GW 数据中心(Stargate 项目)正式破土动工。
gpt-5.5 instant 模型更新(2026-05-29):修复过度使用列表格式问题,同步改善谄媚倾向、事实准确性及多语言表现。
Anthropic
新闻(倒序)
2026-06-06 Anthropic 内部数据显示工程师通过 Claude 加速 AI 开发,代码产出是 2021-2025 年均值的 8 倍,官方将其描述为"递归自我改进的可能路径"并呼吁重视潜在影响。报告链接
2026-06-05 Claude 化学能力论文:Opus 4.7 在 NMR 谱图解析任务上媲美甚至超越专业 NMR 软件。
2026-06-04
Claude Code v2.1.163~168 密集发布:v2.1.166 新增 fallbackModel 配置(最多三个后备模型),v2.1.163 新增版本范围管控设置 (requiredMinimumVersion / requiredMaximumVersion)。
2026-06-03 AI 网络威胁分析报告:基于 832 个恶意账号,将 AI 驱动攻击行为映射至 MITRE ATT&CK 框架。
2026-06-02
- Project Glasswing 扩展:Claude Mythos Preview 访问权限扩至约 150 个组织,覆盖 15 个以上国家。
- Anthropic 响应白宫 AI 行政令,表态支持合作推进。
2026-06-01 Anthropic 秘密递交 S-1 文件至美国 SEC,为潜在 IPO 做准备。
2026-05-28
- Claude Opus 4.8 发布:在 Opus 4.7 基础上增强判断力、自我进度透明度,支持更长时间独立工作,价格不变。
- Series H 融资:完成 $65B,估值达 $965B,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。
Google / DeepMind
新闻(倒序)
2026-06-05 Google 5 月 AI 回顾正式发布。Logan K 透露正在为 Android/iOS 开发"最佳 vibe coding 应用",并考虑推出 Google Summer of Building 活动。
2026-06-03 DeepMind 的 DataDIVER 预印本发布:从数据中自动发现简洁计算模型,辅助科学发现。
2026-06-02 Co-Scientist 发布:基于 Gemini 的多智能体系统,可为复杂科学问题生成、辩论并演化新假说。
2026-06-01 Gemini 助力 Google I/O 2026 建设案例发布。
2026-05-29 Gemini Omni 与 Gemini 3.5 9 个演示视频公开。
xAI / Grok
新闻(倒序)
2026-06-03
- Grok Imagine 1.5 Preview 上线 API。
- Grok 接入 Cloudflare AI Gateway:文本、音频、图像、视频模型均可通过 Cloudflare 计费,无需额外 API 密钥。
- Gopuff × SpaceXAI 推出 Go 购物助手,由 Grok 多模态模型驱动,支持语音点单快速配送。
- Grok TTS/STT 在 Vapi 平台上线,面向企业语音 AI 场景。
2026-05-28
Grok Build 0.2.7:新增 /usage、/login、子智能体共享终端,改善图像理解。
2026-05-25~27
Grok Build Beta 面向所有 SuperGrok/X Premium+ 用户开放;重置使用限额;支持 Kilo IDE 集成 grok-build-0.1。
Benchmark 快照
SWE-bench Verified(编码代理,来源:swebench.com)
本期有显著变化,Top 3 维持不变:
| 排名 | 系统 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期榜单变化(值得关注):
| 系统 | 方向 | 分数变化 | 排名变化 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B | ↑ | 52.2 → 60.4 | 103 → 76 |
| Warp | ↓ | 75.6 → 71.0 | 11 → 36 |
| devlo | ↓ | 70.2 → 58.2/54.2 | 44 → 83/94 |
| Nemotron-CORTEXA | ↓ | 68.2 → 58.2 | 50 → 82 |
| EPAM AI/Run + GPT4o | ↓ | 27.0 → 24.0 | 156 → 162 |
| Solver (2024-09-12) | ↓ | 45.4 → 43.6 | 120 → 126 |
Warp 和 devlo 本期均出现较大幅度下滑,Qwen3 方案则逆势上升。
SWE-bench Pro Public(高难度变体,来源:Scale AI Labs,采集于 2026-06-07)
本期无变动(首次纳入,记录当前 Top 3):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
注:标 * 的条目为非官方提交。整体分数区间远低于 SWE-bench Verified,反映题目难度提升。
Terminal Bench 2.0(终端代理,来源:tbench.ai)
Top 3 维持不变:
| 排名 | 系统 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期榜单变化:
| 系统 | 方向 | 分数变化 | 排名变化 | |------|| LemonHarness / Multiple | ↑ | 79.9 → 84.5 | 10 → 4 | | Gemini CLI / Gemini 3.1 Pro | ↑ | 59.4 → 61.4 | 47 → 42 | | little-coder / Qwen3.6-35B-A3B | ↑ | 23.0 → 24.6 | 123 → 118 | | Warp / Multiple | ↓ | 61.2 → 59.1/50.1 | 43 → 49/67 |
LemonHarness 跃升至第 4,Warp 在本榜同样出现下滑(与 SWE-bench Verified 趋势一致)。
LM Arena Overall(人类偏好,来源:lmarena-ai,采集于 2026-05-27)
本期无变动,当前 Top 3:
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.2 |
| 2 | claude-opus-4-7-thinking | 1499.7 |
| 3 | claude-opus-4-6 | 1498.4 |
Claude 系列包揽前四,第五位为 muse-spark(1489.0),第六位 gemini-3.1-pro-preview(1487.4)。