AI 日报 2026-06-03 08:41

2026-06-03 08:41 CST

核心速览

【Anthropic】Anthropic 秘密递交 S-1,IPO 进程启动

Anthropic 已向美国证券交易委员会(SEC)秘密提交 S-1 注册声明,正式启动 IPO 选项。此前公司刚完成 Series H 融资,估值达 9650 亿美元。此举标志着 Anthropic 向公开市场迈出关键一步,是 AI 行业迄今最重要的资本事件之一。 原文


【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放 150+ 机构

Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个组织,覆盖超 15 个国家。Mythos 被认为是 Anthropic 下一代旗舰模型,此次大规模预览扩展是正式发布前的重要信号。 原文


【OpenAI】OpenAI 模型与 Codex 正式登陆 AWS

OpenAI 的 GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 上正式商用,支持企业通过 AWS 现有安全、合规和采购流程直接调用。这是 OpenAI 面向企业市场渠道的重大拓展,也是 AWS 与 OpenAI 更广泛合作的起点。 原文


【xAI】grok-build-0.1 公测,Agentic 编程模型开放 API

xAI 将驱动 Grok Build CLI 的 grok-build-0.1 模型开放 API 公测,定价 $1/M 输入、$2/M 输出,已接入 OpenRouter、Vercel AI Gateway、Cursor 等主流平台。该模型专为 Agentic 编程优化,低价策略直接对标 Claude Code 和 Codex。 原文


【Anthropic】白宫 AI 行政令发布,Anthropic 公开表态支持

美国白宫发布《促进先进人工智能创新与安全》行政令,Anthropic 第一时间表态支持并宣布将参与落地协作。这一政策信号对 AI 监管走向和头部企业合规布局均有重要影响。 原文


重大 Benchmark 变化

SWE-bench Verified

模型 排名变化 分数变化
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 ↑ 52.2 → 60.4(+15.7%)
Nemotron-CORTEXA 50 → 82 ↓ 68.2 → 58.2(-14.7%)
devlo 44 → 83 ↓ 70.2 → 58.2(-17.1%)
Warp 11 → 36 ↓ 75.6 → 71.0(-6.1%)

Qwen3-Coder 系开源方案大幅跃升,而 devlo 和 Nemotron-CORTEXA 均出现双位数得分下滑,榜单竞争持续分化。

Terminal-Bench 2.0

模型 排名变化 分数变化
LemonHarness / Multiple 10 → 4 ↑ 79.9 → 84.5(+5.8%)
Warp / Multiple 43 → 67 ↓ 61.2 → 50.1(-18.1%)

LemonHarness 强势进入前五,Warp 在两个 Benchmark 上均现明显退步,值得持续关注。

快速预览

  • Anthropic 提交 S-1:Anthropic 已秘密向 SEC 提交 IPO 注册草案,同时 Claude Mythos Preview 扩展至 150+ 家机构;Series H 融资 650 亿美元,估值 9650 亿美元。
  • OpenAI × AWS 正式上线:GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 正式可用;Codex 同步新增 Sites 网站构建插件和 Windows Computer Use 支持。
  • 白宫 AI 行政令:美国总统签署《促进先进人工智能创新与安全》行政令,Anthropic 公开表态支持并承诺配合落实。
  • SWE-Bench Pro 榜首:gpt-5.4 (xHigh) 以 59.1 分领跑,LM Arena 整体榜首为 claude-opus-4-6-thinking(1502 分)。
  • 榜单波动:SWE-Bench Verified 中 Warp 从第 11 跌至第 36,devlo 大幅下滑;Terminal Bench 中 LemonHarness 从第 10 升至第 4。

一、行业动态

Anthropic

日期 事件
2026-06-02 支持白宫《促进先进 AI 创新与安全》行政令,承诺协助落实 (来源)
2026-06-02 Project Glasswing 扩展:Claude Mythos Preview 新增约 150 家机构访问权限,覆盖 15 个以上国家 (来源)
2026-06-01 秘密提交 SEC S-1 草案,为 IPO 保留选项 (来源)
2026-05-28 发布 Claude Opus 4.8:在 Opus 4.7 基础上提升判断力、自我进度诚实度及长时独立工作能力,同价发布 (来源)
2026-05-28 完成 Series H 融资 650 亿美元,估值 965 亿(原文为 $965B)美元,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投 (来源)
2026-05-26 工程博客发布 Agent 沙箱权限管控机制详解 (来源)

Claude Code 近期版本

版本 日期 关键变化
v2.1.161 2026-06-02 OTEL_RESOURCE_ATTRIBUTES 作为指标标签,支持按团队/仓库切片 (来源)
v2.1.160 2026-06-02 写入 shell 启动文件前新增确认提示,防止意外命令执行 (来源)
v2.1.158 2026-05-30 Bedrock/Vertex/Foundry 支持 Opus 4.7/4.8 的 Auto Mode,需设置 CLAUDE_CODE_ENABLE_AUTO_MODE=1 (来源)
v2.1.157 2026-05-29 .claude/skills 目录插件自动加载,无需 marketplace (来源)

OpenAI

平台与基础设施

OpenAI 与 AWS 达成合作,GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 正式上线,企业可通过 AWS 现有安全、合规和采购流程直接使用 (来源)。同日,Michigan 1GW 数据中心(Stargate 项目)破土动工 (来源)。

Codex 产品更新

  • Sites 插件(2026-06-02):可在 Codex 中直接创建、部署、托管网站和 Web 应用 (来源)
  • Amazon Bedrock 支持(2026-06-01):Codex 本地运行时可使用 AWS 托管的 OpenAI 模型 (来源)
  • Windows Computer Use(2026-05-29):Codex 可操控 Windows 桌面应用(可见、点击、输入)(来源)
  • iOS 新增 Face ID / 密码锁定 Codex 功能

GPT-5.5 模型更新(2026-05-29):发布新版 gpt-5.5 instant,修复过度列点问题,改善谄媚倾向、事实准确性和多语言表现 (来源)。

企业应用案例(近期)

Travelers 保险 AI 理赔助手全国上线、Boston Children's Hospital 用 AI 诊断 40+ 罕见病例、Rosalind Biodefense 向美国政府合作伙伴开放 GPT-Rosalind、MUFG 以 ChatGPT Enterprise 推进 AI-native 转型、Cisco 用 Codex 加速企业工程、Virgin Atlantic 零 P1 缺陷交付移动应用。

政策:OpenAI 发布 AI 政策与政治倡导立场声明,明确无外部政治组织代表其发言;发布《前沿治理框架》对齐 EU 和加州法规;发布第三方评估指南 (来源)。


Google / DeepMind

Google I/O 2026 余波持续:Demis Hassabis 转推 Gemini Omni 演示,博客发布 9 条 Gemini Omni 和 Gemini 3.5 实机演示视频 (来源)。Co-Scientist(基于 Gemini 的多智能体科研系统)对外介绍 (来源)。

Gemini API 新增按 API Key 过滤用量图表功能,更细粒度的控制即将推出 (来源)。


xAI

grok-build-0.1 进入公测,定价 $1/M 输入、$2/M 输出,已在 OpenRouter、Vercel AI Gateway、Cursor、Kilo Code 等平台上线 (来源)。Grok Build CLI 更新至 0.2.7,新增 /usage/login、子智能体共享终端和增强图像理解 (来源)。


DeepSeek

DeepSeek-V4-Pro API 折扣价格永久化(原计划至 5 月 31 日到期)(来源)。


二、Benchmark 快照

SWE-Bench Verified(本期无榜首变动)

当前 Top 3(数据截至 2025-12-15):

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

来源:SWE-Bench Leaderboard

本期变化:

模型 变化
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 分数 52.2 → 60.4,排名 103 → 76(上升)
Warp 分数 75.6 → 71.0,排名 11 → 36(下滑)
devlo 分数 70.2 → 54.2,排名 44 → 94(大幅下滑)
Nemotron-CORTEXA 分数 68.2 → 58.2,排名 50 → 82(下滑)
EPAM AI/Run + GPT4o 分数 27.0 → 24.0,排名 156 → 162(下滑)
Solver (2024-09-12) 分数 45.4 → 43.6,排名 120 → 126(微降)

SWE-Bench Pro Public(数据截至 2026-06-03)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.9

来源:Scale AI Leaderboard(*表示含系统提示或特殊配置)

本期无明确历史对比数据,以上为当前快照。


Terminal Bench 2.0(数据截至 2026-05-15)

当前 Top 3:

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

来源:Terminal Bench 2.0

本期变化:

模型 变化
LemonHarness / Multiple 分数 79.9 → 84.5,排名 10 → 4(显著上升)
Gemini CLI / Gemini 3.1 Pro 分数 59.4 → 61.4,排名 47 → 42(小幅上升)
Warp / Multiple 分数 61.2 → 50.1,排名 43 → 67(下滑)
little-coder / Qwen3.6-35B-A3B 分数 23.0 → 24.6,排名 123 → 118(微升)

LM Arena 综合榜(数据截至 2026-05-27)

本期无变动,当前 Top 3:

排名 模型 ELO 分
1 claude-opus-4-6-thinking 1502.2
2 claude-opus-4-7-thinking 1499.7
3 claude-opus-4-6 1498.4

前 10 中 Claude 系列占据 4 席,Gemini 系列占 3 席,GPT 系列占 2 席,muse-spark 占 1 席。来源:LM Arena HuggingFace Dataset


三、数据采集状态

本期所有来源采集正常,无失败记录。

Sources