AI 日报 2026-06-05 08:51

核心速览

【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向美国证券交易委员会（SEC）秘密提交 S-1 草案，保留了未来进行首次公开募股的选项。此前公司刚完成 Series H 融资，估值达 9650 亿美元。这是 AI 头部公司中迄今最接近上市的一步，行业影响深远。原文链接

【Anthropic】Project Glasswing 扩展，Claude Mythos Preview 开放更多组织访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个额外组织，覆盖超过 15 个国家。Mythos 是 Anthropic 面向前沿能力的新模型系列预览，此次大规模扩展意味着其商业化进程明显提速。原文链接

【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 引入全新记忆机制，能够跨对话持续追踪用户偏好与上下文，保持信息新鲜度和相关性。此举直接提升长期用户体验，是 ChatGPT 从工具向个人助理演进的关键一步。原文链接

【OpenAI】GPT-Rosalind 能力重大升级，生命科学专项模型迈入新阶段 OpenAI 为 GPT-Rosalind 新增药物发现、药物化学、基因组学分析和实验工作流等能力，整合了 GPT-5.5 的代理编码与工具调用。这是 OpenAI 在垂直行业模型上的重要押注，直接对标生命科学研究场景。原文链接

【xAI】Grok Imagine 1.5 Preview 发布，并全面扩展 API 生态 xAI 发布图像生成模型 Grok Imagine 1.5 Preview，同时推出 Grok TTS/STT 语音 API，并与 Cloudflare AI Gateway 完成集成。多模态能力的集中爆发表明 xAI 正快速补齐与 OpenAI、Google 的能力差距。原文链接

重大 Benchmark 变化

SWE-bench Verified

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升：排名从 103 → 76，得分从 52.2 → 60.4（+15.7%），是本期最大正向突破。
Nemotron-CORTEXA 显著下滑：排名从 50 → 82，得分从 68.2 → 58.2（-14.7%），跌幅明显。
devlo 大幅下滑：排名从 44 → 83，得分从 70.2 → 58.2（-17.1%）。
Warp 下滑：排名从 11 → 36，得分从 75.6 → 71.0（-6.1%）。

Terminal Bench 2.0

LemonHarness / Multiple 强势上升：排名从 10 → 4，得分从 79.9 → 84.5（+5.8%），跻身前五。
Warp / Multiple 下滑：排名从 43 → 67，得分从 61.2 → 50.1（-18.1%），跌幅为本期最大。

快速预览

Anthropic 提交 IPO 草案：向 SEC 机密提交 S-1，估值 9650 亿美元，并完成 650 亿美元 H 轮融资；Claude Opus 4.8 同期发布，Project Glasswing 扩展至 150+ 机构。
OpenAI Codex 可靠性告警：6 月 4 日发生三起独立故障，官方已重置全付费计划用量限额；同日修复 token 计量少算漏洞（影响 Pro/Plus 用户）。
SWE-bench Pro Public 新榜：gpt-5.4 (xHigh) 以 59.1 分领跑，claude-opus-4-6 (thinking) 51.9 分位列第三；此榜为本期新增来源，首次纳入快照。
xAI 多线扩张：发布 Grok Imagine 1.5 Preview 图像模型、grok-build-0.1 公测 API，并与 Cloudflare、Gopuff 达成合作。
Benchmark 变动警示：SWE-bench Verified 中 Warp 从第 11 名大幅滑落至第 36 名（75.6→71.0），devlo 下滑尤为明显（70.2→54.2）。

OpenAI

产品与工程

Codex 连续故障与 token 计量修复（6 月 4 日）：过去 24 小时内发生三起影响 Codex 可靠性的独立故障，官方已重置所有付费计划的用量限额。同日还披露存在 token 少算漏洞，影响部分 Pro/Plus 账户，已完成修复。来源：thsottiaux

GPT-Rosalind 升级（6 月 3 日）：新增增强生物推理、药物化学、基因组学分析及实验流程能力，重点面向生命科学企业研究场景。详情

ChatGPT 新记忆系统"Dreaming"（6 月 4 日）：跨对话保持偏好上下文，提升长期个性化体验。详情

OpenAI 模型与 Codex 上线 AWS（6 月 1 日）：前沿模型及 Codex 正式在 Amazon Bedrock 上 GA，企业可通过 AWS 现有流程采购和认证。详情

gpt-5.5 instant 小版本更新（5 月 29 日）：修正过度使用列表格式问题，改善谄媚倾向、事实准确性及多语言表现。来源：nickaturley

Codex Changelog 要点

日期	更新内容
6 月 4 日	Profile 新增活动洞察与分享卡片（消费计划可用）
6 月 2 日	Sites 预览上线：可在 Codex 内创建/部署网站、Dashboard、小游戏
6 月 2 日	iOS 1.2026.146：支持 Face ID/密码锁定 Codex
6 月 1 日	支持 Amazon Bedrock 作为模型提供方，本地运行
6 月 1 日	新增终端面板位置控制（底部/右侧面板可配置）

企业与政策

Endava 以 AI Agent 重构软件交付流程；Wasmer 用 Codex+GPT-5.5 将开发周期从数月缩至数周，加速 10–20 倍。保险公司 Travelers 在全国部署 AI 理赔助手。OpenAI 同期发布民主治理蓝图与公共政策议程，并在密歇根州破土动工 1GW Stargate 数据中心。治理蓝图 | 数据中心

Anthropic

IPO 动态（6 月 1 日）：Anthropic 已向 SEC 机密提交 S-1 草案，保留未来 IPO 选项。同期完成 650 亿美元 Series H 融资，估值 9650 亿美元，由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。来源：x-person-anthropic-boris

Claude Opus 4.8 发布（5 月 28 日）：在 Opus 4.7 基础上提升判断力、自我进度诚实度，支持更长时间自主运行，价格不变。公告

Project Glasswing 扩展（6 月 2 日）：Claude Mythos Preview 访问权限扩展至约 150 家机构，覆盖 15 个以上国家。详情

AI 网络安全研究（6 月 3 日）：分析 832 个恶意账户，将活动映射至 MITRE ATT&CK 框架，评估 AI 赋能网络攻击防御效果。报告

白宫 AI 行政令（6 月 2 日）：Anthropic 表态支持该 EO，称其为加强美国 AI 领导力的重要举措。

Claude Code 近期版本：

版本	发布日期	更新内容
v2.1.163	6 月 4 日	新增 `requiredMinimumVersion/MaximumVersion` 管控设置，版本不符则拒绝启动
v2.1.162	6 月 3 日	`claude agents --json` 新增 `waitingFor` 字段，显示会话阻塞原因
v2.1.161	6 月 2 日	`OTEL_RESOURCE_ATTRIBUTES` 作为指标标签，支持按团队/仓库切片
v2.1.160	6 月 2 日	写入 shell 启动文件及 git 配置前增加确认提示，防止意外命令执行

Google / DeepMind

Gemini Omni 与 Gemini 3.5 实演（5 月 29 日）：发布 9 个 Demo 视频，展示两款模型实际能力。视频合集

Co-Scientist 多 Agent 系统（6 月 2 日）：DeepMind 推出基于 Gemini 的科研助手，支持多 Agent 协作生成、辩论和演化科学假说。来源：demishassabis

如何用 Gemini 搭建 Google I/O 2026（6 月 1 日）：Google 内部分享用 Gemini 构建 I/O 大会基础设施的实践经验。博客

Google Logan 暗示正在为 Android/iOS 打造"最佳 vibe coding 应用"，尚无正式发布。

xAI / Grok

日期	动态
6 月 3 日	Grok Imagine 1.5 Preview 图像模型上线 API
6 月 3 日	Grok 模型接入 Cloudflare AI Gateway，统一计费，无需额外密钥
6 月 3 日	与 Gopuff 合作推出 Go AI 购物助手，由 Grok 文本/音频/图像模型驱动
6 月 3 日	Grok TTS/STT API 上线 Vapi 语音 AI 平台
5 月 29 日	grok-build-0.1 公测 API 开放，$1/M 输入，$2/M 输出；同时支持 OpenRouter、Vercel AI Gateway、Cursor 等
5 月 28 日	Grok Build CLI v0.2.7：新增 /usage、/login、子 Agent 共享终端、图像理解增强
5 月 25 日	Grok Build Beta 向所有 SuperGrok 和 X Premium+ 用户开放

DeepSeek

DeepSeek-V4-Pro 折扣永久化（5 月 22 日）：此前临时折扣宣布永久延续。公告

Benchmark 快照

SWE-bench Verified（代码修复，来源：swebench-verified）

本期有变动。

Top 3 不变，变动集中在中下游：

模型	排名	分数
live-SWE-agent + Claude 4.5 Opus medium	1	79.2
Sonar Foundation Agent + Claude 4.5 Opus	2	79.2
TRAE + Doubao-Seed-Code	3	78.8

本期变动（值得关注）：

模型	排名变化	分数变化
EntroPO + R2E + Qwen3-Coder-30B-A3B	103 → 76	52.2 → 60.4 ↑
Warp	11 → 36	75.6 → 71.0 ↓
devlo	44 → 94	70.2 → 54.2 ↓
Nemotron-CORTEXA	50 → 82	68.2 → 58.2 ↓
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0 ↓
Solver (2024-09-12)	120 → 126	45.4 → 43.6 ↓

Warp 和 devlo 下滑幅度较大；EntroPO+Qwen3 是本期最显著的正向跃升。

SWE-bench Pro Public（来源：Scale AI）

本期为首次纳入快照，无历史变动数据。 快照时间：2026-06-05。

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.9

*注：带 * 标注的为该榜单标注的特殊提交。

Terminal Bench 2.0（来源：tbench.ai）

本期有变动。

Top 3 不变：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期变动：

模型	排名变化	分数变化
LemonHarness / Multiple	10 → 4	79.9 → 84.5 ↑
Gemini CLI / Gemini 3.1 Pro	47 → 42	59.4 → 61.4 ↑
Warp / Multiple	43 → 49/67	61.2 → 59.1/50.1 ↓
little-coder / Qwen3.6-35B-A3B	123 → 118	23.0 → 24.6 ↑

Warp 在两个 benchmark 中同步下滑，需持续观察。LemonHarness 大幅晋升至第 4 名。

LM Arena（来源：Hugging Face Dataset）

本期无变动。 快照时间：2026-05-27。

排名	模型	Elo 分数
1	claude-opus-4-6-thinking	1502.2
2	claude-opus-4-7-thinking	1499.7
3	claude-opus-4-6	1498.4

Claude 系列占据前四席，muse-spark（1489.0）和 gemini-3.1-pro-preview（1487.4）紧随其后。

来源 · 82 条

openai.com ×26 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×8 blog.google ×7 @xai ×11 @deepseek_ai @thsottiaux ×3 @nickaturley @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3