AI 日报 2026-06-03 08:41

核心速览

【Anthropic】Anthropic 秘密递交 S-1，IPO 进程启动

Anthropic 已向美国证券交易委员会（SEC）秘密提交 S-1 注册声明，正式启动 IPO 选项。此前公司刚完成 Series H 融资，估值达 9650 亿美元。此举标志着 Anthropic 向公开市场迈出关键一步，是 AI 行业迄今最重要的资本事件之一。原文

【Anthropic】Project Glasswing 扩展，Claude Mythos Preview 开放 150+ 机构

Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个组织，覆盖超 15 个国家。Mythos 被认为是 Anthropic 下一代旗舰模型，此次大规模预览扩展是正式发布前的重要信号。原文

【OpenAI】OpenAI 模型与 Codex 正式登陆 AWS

OpenAI 的 GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 上正式商用，支持企业通过 AWS 现有安全、合规和采购流程直接调用。这是 OpenAI 面向企业市场渠道的重大拓展，也是 AWS 与 OpenAI 更广泛合作的起点。原文

【xAI】grok-build-0.1 公测，Agentic 编程模型开放 API

xAI 将驱动 Grok Build CLI 的 grok-build-0.1 模型开放 API 公测，定价 $1/M 输入、$2/M 输出，已接入 OpenRouter、Vercel AI Gateway、Cursor 等主流平台。该模型专为 Agentic 编程优化，低价策略直接对标 Claude Code 和 Codex。原文

【Anthropic】白宫 AI 行政令发布，Anthropic 公开表态支持

美国白宫发布《促进先进人工智能创新与安全》行政令，Anthropic 第一时间表态支持并宣布将参与落地协作。这一政策信号对 AI 监管走向和头部企业合规布局均有重要影响。原文

重大 Benchmark 变化

SWE-bench Verified

模型	排名变化	分数变化
EntroPO + R2E + Qwen3-Coder-30B	103 → 76 ↑	52.2 → 60.4（+15.7%）
Nemotron-CORTEXA	50 → 82 ↓	68.2 → 58.2（-14.7%）
devlo	44 → 83 ↓	70.2 → 58.2（-17.1%）
Warp	11 → 36 ↓	75.6 → 71.0（-6.1%）

Qwen3-Coder 系开源方案大幅跃升，而 devlo 和 Nemotron-CORTEXA 均出现双位数得分下滑，榜单竞争持续分化。

Terminal-Bench 2.0

模型	排名变化	分数变化
LemonHarness / Multiple	10 → 4 ↑	79.9 → 84.5（+5.8%）
Warp / Multiple	43 → 67 ↓	61.2 → 50.1（-18.1%）

LemonHarness 强势进入前五，Warp 在两个 Benchmark 上均现明显退步，值得持续关注。

快速预览

Anthropic 提交 S-1：Anthropic 已秘密向 SEC 提交 IPO 注册草案，同时 Claude Mythos Preview 扩展至 150+ 家机构；Series H 融资 650 亿美元，估值 9650 亿美元。
OpenAI × AWS 正式上线：GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 正式可用；Codex 同步新增 Sites 网站构建插件和 Windows Computer Use 支持。
白宫 AI 行政令：美国总统签署《促进先进人工智能创新与安全》行政令，Anthropic 公开表态支持并承诺配合落实。
SWE-Bench Pro 榜首：gpt-5.4 (xHigh) 以 59.1 分领跑，LM Arena 整体榜首为 claude-opus-4-6-thinking（1502 分）。
榜单波动：SWE-Bench Verified 中 Warp 从第 11 跌至第 36，devlo 大幅下滑；Terminal Bench 中 LemonHarness 从第 10 升至第 4。

一、行业动态

Anthropic

日期	事件
2026-06-02	支持白宫《促进先进 AI 创新与安全》行政令，承诺协助落实 (来源)
2026-06-02	Project Glasswing 扩展：Claude Mythos Preview 新增约 150 家机构访问权限，覆盖 15 个以上国家 (来源)
2026-06-01	秘密提交 SEC S-1 草案，为 IPO 保留选项 (来源)
2026-05-28	发布 Claude Opus 4.8：在 Opus 4.7 基础上提升判断力、自我进度诚实度及长时独立工作能力，同价发布 (来源)
2026-05-28	完成 Series H 融资 650 亿美元，估值 965 亿（原文为 $965B）美元，由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投 (来源)
2026-05-26	工程博客发布 Agent 沙箱权限管控机制详解 (来源)

Claude Code 近期版本

版本	日期	关键变化
v2.1.161	2026-06-02	`OTEL_RESOURCE_ATTRIBUTES` 作为指标标签，支持按团队/仓库切片 (来源)
v2.1.160	2026-06-02	写入 shell 启动文件前新增确认提示，防止意外命令执行 (来源)
v2.1.158	2026-05-30	Bedrock/Vertex/Foundry 支持 Opus 4.7/4.8 的 Auto Mode，需设置 `CLAUDE_CODE_ENABLE_AUTO_MODE=1` (来源)
v2.1.157	2026-05-29	`.claude/skills` 目录插件自动加载，无需 marketplace (来源)

OpenAI

平台与基础设施

OpenAI 与 AWS 达成合作，GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 正式上线，企业可通过 AWS 现有安全、合规和采购流程直接使用 (来源)。同日，Michigan 1GW 数据中心（Stargate 项目）破土动工 (来源)。

Codex 产品更新

Sites 插件（2026-06-02）：可在 Codex 中直接创建、部署、托管网站和 Web 应用 (来源)
Amazon Bedrock 支持（2026-06-01）：Codex 本地运行时可使用 AWS 托管的 OpenAI 模型 (来源)
Windows Computer Use（2026-05-29）：Codex 可操控 Windows 桌面应用（可见、点击、输入）(来源)
iOS 新增 Face ID / 密码锁定 Codex 功能

GPT-5.5 模型更新（2026-05-29）：发布新版 gpt-5.5 instant，修复过度列点问题，改善谄媚倾向、事实准确性和多语言表现 (来源)。

企业应用案例（近期）

Travelers 保险 AI 理赔助手全国上线、Boston Children's Hospital 用 AI 诊断 40+ 罕见病例、Rosalind Biodefense 向美国政府合作伙伴开放 GPT-Rosalind、MUFG 以 ChatGPT Enterprise 推进 AI-native 转型、Cisco 用 Codex 加速企业工程、Virgin Atlantic 零 P1 缺陷交付移动应用。

政策：OpenAI 发布 AI 政策与政治倡导立场声明，明确无外部政治组织代表其发言；发布《前沿治理框架》对齐 EU 和加州法规；发布第三方评估指南 (来源)。

Google / DeepMind

Google I/O 2026 余波持续：Demis Hassabis 转推 Gemini Omni 演示，博客发布 9 条 Gemini Omni 和 Gemini 3.5 实机演示视频 (来源)。Co-Scientist（基于 Gemini 的多智能体科研系统）对外介绍 (来源)。

Gemini API 新增按 API Key 过滤用量图表功能，更细粒度的控制即将推出 (来源)。

xAI

grok-build-0.1 进入公测，定价 $1/M 输入、$2/M 输出，已在 OpenRouter、Vercel AI Gateway、Cursor、Kilo Code 等平台上线 (来源)。Grok Build CLI 更新至 0.2.7，新增 /usage、/login、子智能体共享终端和增强图像理解 (来源)。

DeepSeek

DeepSeek-V4-Pro API 折扣价格永久化（原计划至 5 月 31 日到期）(来源)。

二、Benchmark 快照

SWE-Bench Verified（本期无榜首变动）

当前 Top 3（数据截至 2025-12-15）：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

来源：SWE-Bench Leaderboard

本期变化：

模型	变化
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct	分数 52.2 → 60.4，排名 103 → 76（上升）
Warp	分数 75.6 → 71.0，排名 11 → 36（下滑）
devlo	分数 70.2 → 54.2，排名 44 → 94（大幅下滑）
Nemotron-CORTEXA	分数 68.2 → 58.2，排名 50 → 82（下滑）
EPAM AI/Run + GPT4o	分数 27.0 → 24.0，排名 156 → 162（下滑）
Solver (2024-09-12)	分数 45.4 → 43.6，排名 120 → 126（微降）

SWE-Bench Pro Public（数据截至 2026-06-03）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.9

来源：Scale AI Leaderboard（*表示含系统提示或特殊配置）

本期无明确历史对比数据，以上为当前快照。

Terminal Bench 2.0（数据截至 2026-05-15）

当前 Top 3：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

来源：Terminal Bench 2.0

本期变化：

模型	变化
LemonHarness / Multiple	分数 79.9 → 84.5，排名 10 → 4（显著上升）
Gemini CLI / Gemini 3.1 Pro	分数 59.4 → 61.4，排名 47 → 42（小幅上升）
Warp / Multiple	分数 61.2 → 50.1，排名 43 → 67（下滑）
little-coder / Qwen3.6-35B-A3B	分数 23.0 → 24.6，排名 123 → 118（微升）

LM Arena 综合榜（数据截至 2026-05-27）

本期无变动，当前 Top 3：

排名	模型	ELO 分
1	claude-opus-4-6-thinking	1502.2
2	claude-opus-4-7-thinking	1499.7
3	claude-opus-4-6	1498.4

前 10 中 Claude 系列占据 4 席，Gemini 系列占 3 席，GPT 系列占 2 席，muse-spark 占 1 席。来源：LM Arena HuggingFace Dataset

三、数据采集状态

本期所有来源采集正常，无失败记录。

来源 · 78 条

openai.com ×22 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×7 blog.google ×9 @xai ×8 @deepseek_ai @thsottiaux ×3 @nickaturley ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3