AI 日报 2026-06-06 08:33
2026-06-06 08:33 CST
核心速览
【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向 SEC 机密提交 S-1 注册草案,保留启动 IPO 的选项,时间取决于 SEC 审查完成情况。此前公司刚完成 Series H 融资,估值达 9650 亿美元,IPO 动向将是 AI 行业今年最重要的资本事件之一。 原文
【Anthropic】Project Glasswing 扩大 Claude Mythos Preview 访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个新增机构,覆盖超过 15 个国家。这是 Anthropic 在顶级模型商业化路径上的重要布局,表明其下一代旗舰模型正在加速推向企业市场。 原文
【Anthropic】Claude 化学能力突破:NMR 分析媲美专业软件 Anthropic 科学博客披露,Claude Opus 4.7 在核磁共振(NMR)谱图解析任务上已达到甚至超越专用 NMR 软件的表现。这标志着大模型在精密科学仪器分析领域开始具备实际替代价值,对药物研发和材料科学影响显著。 原文
【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 上线更强的跨会话记忆机制,能主动保持用户偏好和上下文的长期相关性,而非被动存储。更智能的记忆意味着更短的提示词、更高的每 token 使用效率,是 ChatGPT 产品体验的系统性升级。 原文
【OpenAI】GPT-Rosalind 重大更新,聚焦药物发现 OpenAI 为生命科学专用模型 GPT-Rosalind 带来重大升级,整合 GPT-5.5 的 agentic 编程与工具调用能力,强化药物设计、基因组学分析和实验流程规划。这是 OpenAI 在垂直行业模型竞争中的关键落子,直接对标医疗 AI 赛道。 原文
重大 Benchmark 变化
SWE-bench Verified
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:分数从 52.2 → 60.4(+8.2 分),排名从第 103 升至第 76,涨幅显著。
- Nemotron-CORTEXA 明显下滑:分数从 68.2 → 58.2(-10.0 分),排名从第 50 跌至第 82,回落幅度较大。
- devlo 大幅下滑:分数从 70.2 → 58.2(-12.0 分),排名从第 44 跌至第 83,竞争力显著削弱。
- Warp 小幅下滑:分数从 75.6 → 71.0(-4.6 分),排名从第 11 跌至第 36,仍处于榜单前列但竞争压力增大。
Terminal Bench 2.0
- LemonHarness / Multiple 强势跃升:分数从 79.9 → 84.5(+4.6 分),排名从第 10 升至第 4,跻身榜单前列。
- Warp / Multiple 明显下滑:分数从 61.2 → 50.1(-11.1 分),排名从第 43 跌至第 67,在 Terminal Bench 与 SWE-bench 上同步走弱。
快速预览
- Anthropic 重磅:秘密提交 S-1 上市申请,同时 Claude Opus 4.8 发布,Project Glasswing 扩展至 150+ 机构;Claude Code v2.1.165 本周持续迭代。
- OpenAI 全线扩张:ChatGPT 推出"Dreaming"记忆系统,GPT-Rosalind 升级药物研发能力,Codex 登陆 AWS 并上线 Sites 建站功能。
- xAI 生态:Grok Imagine 1.5 Preview 发布,接入 Cloudflare AI Gateway,Grok TTS/STT 上线 Vapi 语音平台。
- SWE-Bench Verified Top 1:live-SWE-agent + Claude 4.5 Opus 以 79.2 分领跑;SWE-Bench Pro Public Top 1:gpt-5.4 (xHigh) 59.1 分;LM Arena Overall Top 1:claude-opus-4-6-thinking(1502 分)。
- 榜单波动:SWE-Bench Verified 中 Warp 从第 11 跌至第 36,devlo 从第 44 大幅滑落;Terminal-Bench 2.0 中 LemonHarness 从第 10 升至第 4。
一、OpenAI
产品与模型(2026-06-02 ~ 06-04)
ChatGPT 记忆系统升级:OpenAI 推出"Dreaming"新记忆机制,可跨对话保留用户偏好与上下文,让记忆更持久、相关性更强。(原文)
GPT-Rosalind 能力升级:新版本强化了药物发现、药物化学、基因组学分析和实验工作流能力,专为企业级生命科学研究打造。(原文)
Codex 全面扩展:上线 Sites 插件(预览版),支持直接在 Codex 应用内创建和部署网站、仪表盘、内部工具和游戏;同时发布面向分析师、设计师、投资人等非工程角色的 Codex 使用指南。OpenAI 前端及 Codex 已正式登陆 AWS,企业可通过 Amazon Bedrock 使用。(Sites 更新) (AWS 上线)
治理与政策:发布 AI 民主治理蓝图和公共政策议程,提出联邦层面前沿 AI 安全框架;同步在密歇根州开工建设 1GW Stargate 数据中心。(治理蓝图) (密歇根数据中心)
Codex CLI 更新(v0.137.0,06-04):TUI 新增 F13-F24 键绑定、可搜索菜单粘贴及紧凑推理状态栏。(更新日志)
gpt-5.5 instant 更新(05-29):修复了过度使用项目符号的问题,改善了谄媚倾向、事实准确性和多语言表现。
二、Anthropic / Claude
重大事件
| 日期 | 事件 |
|---|---|
| 06-01 | 秘密提交 S-1,为 IPO 保留选项 |
| 05-28 | 完成 Series H 融资 650 亿美元,估值 9650 亿美元 |
| 05-28 | Claude Opus 4.8 发布,判断力更强、可长时间独立工作,同价格提供 |
| 06-02 | Project Glasswing 扩展至 150+ 机构(15+ 国家),更多组织获 Claude Mythos Preview 访问权 |
| 06-02 | 美国总统令签署推进 AI 创新,Anthropic 公开支持 |
科研进展
- Claude 作为化学家(06-05):Opus 4.7 在 NMR 波谱分析任务上可与专业软件比肩,部分任务超越。(博文)
- AI 网络威胁研究(06-03):分析 832 个恶意账号,将 AI 赋能的网络攻击行为映射至 MITRE ATT&CK 框架。(博文)
Claude Code 更新(本周)
| 版本 | 日期 | 关键变化 |
|---|---|---|
| v2.1.165 | 06-05 | Bug 修复与稳定性改善 |
| v2.1.163 | 06-04 | 新增 requiredMinimumVersion / requiredMaximumVersion 管控设置,版本越界拒绝启动 |
| v2.1.162 | 06-03 | claude agents --json 新增 waitingFor 字段,显示 session 阻塞原因 |
| v2.1.161 | 06-02 | OTEL_RESOURCE_ATTRIBUTES 值作为标签附加到指标数据点,支持按团队/仓库切片 |
| v2.1.160 | 06-02 | 写入 shell 启动文件前新增提示,防止意外命令执行 |
三、Google / DeepMind
5 月 AI 月报(06-05):Google 发布 5 月 AI 进展回顾,涵盖 Google I/O 2026 全部公告。(月报)
Gemini Omni 与 Gemini 3.5 演示(05-29):发布 9 个实际使用 demo 视频,展示多模态能力。(演示)
Co-Scientist(06-02):DeepMind 发布基于 Gemini 的多智能体科研系统,可生成、辩论并演化科学假设。
Google I/O 2026 回顾(05-28):整理 12 个 I/O 重要时刻视频。(回顾)
Google DevRel 负责人透露正在开发 Android/iOS 上"最佳 vibe coding 应用",并探索"Google 编程之夏"活动。
四、xAI / Grok
| 日期 | 更新 |
|---|---|
| 06-03 | Grok Imagine 1.5 Preview 发布,可通过 API 使用 |
| 06-03 | Grok 模型接入 Cloudflare AI Gateway,统一计费和鉴权 |
| 06-03 | Grok TTS/STT 在 Vapi 上线,支持企业级语音 AI |
| 06-03 | Go by Gopuff:由 Grok 文本/音频/图像模型驱动的个人购物助手 |
| 05-28 | Grok Build 0.2.7:新增 /usage、/login、子智能体共享终端和图像理解改进 |
| 05-25 | Grok Build Beta 向全体 SuperGrok 和 X Premium+ 用户开放 |
五、Benchmark 快照
SWE-Bench Verified(本期无变动 — Top 3 当前状态)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期榜单变化(值得关注):
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct:分数从 52.2 → 60.4,排名从 103 → 76,显著上升。
- Warp:分数从 75.6 → 71.0,排名从 11 → 36,较大下滑。
- devlo:分数从 70.2 滑落至 54.2~58.2,排名从 44 跌至 83~94 区间,出现多次重新评分记录。
- Nemotron-CORTEXA:分数从 68.2 → 58.2,排名从 50 → 82,下滑明显。
- EPAM AI/Run Developer Agent + GPT4o:分数 27.0 → 24.0,排名 156 → 162(小幅下滑)。
- Solver (2024-09-12):分数 45.4 → 43.6,排名 120 → 126(小幅下滑)。
SWE-Bench Pro Public(当前 Top 5)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
*表示使用特殊配置/系统提示。来源:Scale AI Leaderboard(快照时间:2026-06-06)
本期无变动记录,以上为当前榜单状态。
Terminal-Bench 2.0(本期无变动 — Top 3 当前状态)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
来源:tbench.ai
本期榜单变化:
- LemonHarness / Multiple:分数从 79.9 → 84.5,排名从 10 → 4,升幅最大。
- Gemini CLI / Gemini 3.1 Pro:分数从 59.4 → 61.4,排名从 47 → 42,小幅上升。
- Warp / Multiple:出现两条评分记录(59.1 和 50.1),排名分别为 49 和 67,均从第 43 下滑,整体下行趋势明显。
- little-coder / Qwen3.6-35B-A3B:分数从 23.0 → 24.6,排名从 123 → 118(微升)。
LM Arena Overall(本期无变动 — Top 5 当前状态)
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.2 |
| 2 | claude-opus-4-7-thinking | 1499.7 |
| 3 | claude-opus-4-6 | 1498.4 |
| 4 | claude-opus-4-7 | 1493.6 |
| 5 | muse-spark | 1489.0 |
来源:LM Arena(快照时间:2026-05-27)
Claude Opus 系列包揽前四,前十中 Google Gemini 3.1 Pro Preview 排第 6,GPT-5.5-high 排第 8。