AI 日报 2026-06-05 08:51

2026-06-05 08:51 CST

核心速览

【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向美国证券交易委员会(SEC)秘密提交 S-1 草案,保留了未来进行首次公开募股的选项。此前公司刚完成 Series H 融资,估值达 9650 亿美元。这是 AI 头部公司中迄今最接近上市的一步,行业影响深远。 原文链接


【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放更多组织访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个额外组织,覆盖超过 15 个国家。Mythos 是 Anthropic 面向前沿能力的新模型系列预览,此次大规模扩展意味着其商业化进程明显提速。 原文链接


【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 引入全新记忆机制,能够跨对话持续追踪用户偏好与上下文,保持信息新鲜度和相关性。此举直接提升长期用户体验,是 ChatGPT 从工具向个人助理演进的关键一步。 原文链接


【OpenAI】GPT-Rosalind 能力重大升级,生命科学专项模型迈入新阶段 OpenAI 为 GPT-Rosalind 新增药物发现、药物化学、基因组学分析和实验工作流等能力,整合了 GPT-5.5 的代理编码与工具调用。这是 OpenAI 在垂直行业模型上的重要押注,直接对标生命科学研究场景。 原文链接


【xAI】Grok Imagine 1.5 Preview 发布,并全面扩展 API 生态 xAI 发布图像生成模型 Grok Imagine 1.5 Preview,同时推出 Grok TTS/STT 语音 API,并与 Cloudflare AI Gateway 完成集成。多模态能力的集中爆发表明 xAI 正快速补齐与 OpenAI、Google 的能力差距。 原文链接


重大 Benchmark 变化

SWE-bench Verified

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:排名从 103 → 76,得分从 52.2 → 60.4(+15.7%),是本期最大正向突破。
  • Nemotron-CORTEXA 显著下滑:排名从 50 → 82,得分从 68.2 → 58.2(-14.7%),跌幅明显。
  • devlo 大幅下滑:排名从 44 → 83,得分从 70.2 → 58.2(-17.1%)。
  • Warp 下滑:排名从 11 → 36,得分从 75.6 → 71.0(-6.1%)。

Terminal Bench 2.0

  • LemonHarness / Multiple 强势上升:排名从 10 → 4,得分从 79.9 → 84.5(+5.8%),跻身前五。
  • Warp / Multiple 下滑:排名从 43 → 67,得分从 61.2 → 50.1(-18.1%),跌幅为本期最大。

快速预览

  • Anthropic 提交 IPO 草案:向 SEC 机密提交 S-1,估值 9650 亿美元,并完成 650 亿美元 H 轮融资;Claude Opus 4.8 同期发布,Project Glasswing 扩展至 150+ 机构。
  • OpenAI Codex 可靠性告警:6 月 4 日发生三起独立故障,官方已重置全付费计划用量限额;同日修复 token 计量少算漏洞(影响 Pro/Plus 用户)。
  • SWE-bench Pro Public 新榜:gpt-5.4 (xHigh) 以 59.1 分领跑,claude-opus-4-6 (thinking) 51.9 分位列第三;此榜为本期新增来源,首次纳入快照。
  • xAI 多线扩张:发布 Grok Imagine 1.5 Preview 图像模型、grok-build-0.1 公测 API,并与 Cloudflare、Gopuff 达成合作。
  • Benchmark 变动警示:SWE-bench Verified 中 Warp 从第 11 名大幅滑落至第 36 名(75.6→71.0),devlo 下滑尤为明显(70.2→54.2)。

OpenAI

产品与工程

Codex 连续故障与 token 计量修复(6 月 4 日):过去 24 小时内发生三起影响 Codex 可靠性的独立故障,官方已重置所有付费计划的用量限额。同日还披露存在 token 少算漏洞,影响部分 Pro/Plus 账户,已完成修复。来源:thsottiaux

GPT-Rosalind 升级(6 月 3 日):新增增强生物推理、药物化学、基因组学分析及实验流程能力,重点面向生命科学企业研究场景。详情

ChatGPT 新记忆系统"Dreaming"(6 月 4 日):跨对话保持偏好上下文,提升长期个性化体验。详情

OpenAI 模型与 Codex 上线 AWS(6 月 1 日):前沿模型及 Codex 正式在 Amazon Bedrock 上 GA,企业可通过 AWS 现有流程采购和认证。详情

gpt-5.5 instant 小版本更新(5 月 29 日):修正过度使用列表格式问题,改善谄媚倾向、事实准确性及多语言表现。来源:nickaturley

Codex Changelog 要点

日期 更新内容
6 月 4 日 Profile 新增活动洞察与分享卡片(消费计划可用)
6 月 2 日 Sites 预览上线:可在 Codex 内创建/部署网站、Dashboard、小游戏
6 月 2 日 iOS 1.2026.146:支持 Face ID/密码锁定 Codex
6 月 1 日 支持 Amazon Bedrock 作为模型提供方,本地运行
6 月 1 日 新增终端面板位置控制(底部/右侧面板可配置)

企业与政策

Endava 以 AI Agent 重构软件交付流程;Wasmer 用 Codex+GPT-5.5 将开发周期从数月缩至数周,加速 10–20 倍。保险公司 Travelers 在全国部署 AI 理赔助手。OpenAI 同期发布民主治理蓝图与公共政策议程,并在密歇根州破土动工 1GW Stargate 数据中心。治理蓝图 | 数据中心


Anthropic

IPO 动态(6 月 1 日):Anthropic 已向 SEC 机密提交 S-1 草案,保留未来 IPO 选项。同期完成 650 亿美元 Series H 融资,估值 9650 亿美元,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。来源:x-person-anthropic-boris

Claude Opus 4.8 发布(5 月 28 日):在 Opus 4.7 基础上提升判断力、自我进度诚实度,支持更长时间自主运行,价格不变。公告

Project Glasswing 扩展(6 月 2 日):Claude Mythos Preview 访问权限扩展至约 150 家机构,覆盖 15 个以上国家。详情

AI 网络安全研究(6 月 3 日):分析 832 个恶意账户,将活动映射至 MITRE ATT&CK 框架,评估 AI 赋能网络攻击防御效果。报告

白宫 AI 行政令(6 月 2 日):Anthropic 表态支持该 EO,称其为加强美国 AI 领导力的重要举措。

Claude Code 近期版本

版本 发布日期 更新内容
v2.1.163 6 月 4 日 新增 requiredMinimumVersion/MaximumVersion 管控设置,版本不符则拒绝启动
v2.1.162 6 月 3 日 claude agents --json 新增 waitingFor 字段,显示会话阻塞原因
v2.1.161 6 月 2 日 OTEL_RESOURCE_ATTRIBUTES 作为指标标签,支持按团队/仓库切片
v2.1.160 6 月 2 日 写入 shell 启动文件及 git 配置前增加确认提示,防止意外命令执行

Google / DeepMind

Gemini Omni 与 Gemini 3.5 实演(5 月 29 日):发布 9 个 Demo 视频,展示两款模型实际能力。视频合集

Co-Scientist 多 Agent 系统(6 月 2 日):DeepMind 推出基于 Gemini 的科研助手,支持多 Agent 协作生成、辩论和演化科学假说。来源:demishassabis

如何用 Gemini 搭建 Google I/O 2026(6 月 1 日):Google 内部分享用 Gemini 构建 I/O 大会基础设施的实践经验。博客

Google Logan 暗示正在为 Android/iOS 打造"最佳 vibe coding 应用",尚无正式发布。


xAI / Grok

日期 动态
6 月 3 日 Grok Imagine 1.5 Preview 图像模型上线 API
6 月 3 日 Grok 模型接入 Cloudflare AI Gateway,统一计费,无需额外密钥
6 月 3 日 与 Gopuff 合作推出 Go AI 购物助手,由 Grok 文本/音频/图像模型驱动
6 月 3 日 Grok TTS/STT API 上线 Vapi 语音 AI 平台
5 月 29 日 grok-build-0.1 公测 API 开放,$1/M 输入,$2/M 输出;同时支持 OpenRouter、Vercel AI Gateway、Cursor 等
5 月 28 日 Grok Build CLI v0.2.7:新增 /usage、/login、子 Agent 共享终端、图像理解增强
5 月 25 日 Grok Build Beta 向所有 SuperGrok 和 X Premium+ 用户开放

DeepSeek

DeepSeek-V4-Pro 折扣永久化(5 月 22 日):此前临时折扣宣布永久延续。公告


Benchmark 快照

SWE-bench Verified(代码修复,来源:swebench-verified

本期有变动。

Top 3 不变,变动集中在中下游:

模型 排名 分数
live-SWE-agent + Claude 4.5 Opus medium 1 79.2
Sonar Foundation Agent + Claude 4.5 Opus 2 79.2
TRAE + Doubao-Seed-Code 3 78.8

本期变动(值得关注):

模型 排名变化 分数变化
EntroPO + R2E + Qwen3-Coder-30B-A3B 103 → 76 52.2 → 60.4
Warp 11 → 36 75.6 → 71.0
devlo 44 → 94 70.2 → 54.2
Nemotron-CORTEXA 50 → 82 68.2 → 58.2
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0
Solver (2024-09-12) 120 → 126 45.4 → 43.6

Warp 和 devlo 下滑幅度较大;EntroPO+Qwen3 是本期最显著的正向跃升。


SWE-bench Pro Public(来源:Scale AI

本期为首次纳入快照,无历史变动数据。 快照时间:2026-06-05。

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.9

*注:带 * 标注的为该榜单标注的特殊提交。


Terminal Bench 2.0(来源:tbench.ai

本期有变动。

Top 3 不变:

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期变动:

模型 排名变化 分数变化
LemonHarness / Multiple 10 → 4 79.9 → 84.5
Gemini CLI / Gemini 3.1 Pro 47 → 42 59.4 → 61.4
Warp / Multiple 43 → 49/67 61.2 → 59.1/50.1
little-coder / Qwen3.6-35B-A3B 123 → 118 23.0 → 24.6

Warp 在两个 benchmark 中同步下滑,需持续观察。LemonHarness 大幅晋升至第 4 名。


LM Arena(来源:Hugging Face Dataset

本期无变动。 快照时间:2026-05-27。

排名 模型 Elo 分数
1 claude-opus-4-6-thinking 1502.2
2 claude-opus-4-7-thinking 1499.7
3 claude-opus-4-6 1498.4

Claude 系列占据前四席,muse-spark(1489.0)和 gemini-3.1-pro-preview(1487.4)紧随其后。

Sources