AI 日报 2026-06-03 08:41
2026-06-03 08:41 CST
核心速览
【Anthropic】Anthropic 秘密递交 S-1,IPO 进程启动
Anthropic 已向美国证券交易委员会(SEC)秘密提交 S-1 注册声明,正式启动 IPO 选项。此前公司刚完成 Series H 融资,估值达 9650 亿美元。此举标志着 Anthropic 向公开市场迈出关键一步,是 AI 行业迄今最重要的资本事件之一。 原文
【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放 150+ 机构
Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个组织,覆盖超 15 个国家。Mythos 被认为是 Anthropic 下一代旗舰模型,此次大规模预览扩展是正式发布前的重要信号。 原文
【OpenAI】OpenAI 模型与 Codex 正式登陆 AWS
OpenAI 的 GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 上正式商用,支持企业通过 AWS 现有安全、合规和采购流程直接调用。这是 OpenAI 面向企业市场渠道的重大拓展,也是 AWS 与 OpenAI 更广泛合作的起点。 原文
【xAI】grok-build-0.1 公测,Agentic 编程模型开放 API
xAI 将驱动 Grok Build CLI 的 grok-build-0.1 模型开放 API 公测,定价 $1/M 输入、$2/M 输出,已接入 OpenRouter、Vercel AI Gateway、Cursor 等主流平台。该模型专为 Agentic 编程优化,低价策略直接对标 Claude Code 和 Codex。 原文
【Anthropic】白宫 AI 行政令发布,Anthropic 公开表态支持
美国白宫发布《促进先进人工智能创新与安全》行政令,Anthropic 第一时间表态支持并宣布将参与落地协作。这一政策信号对 AI 监管走向和头部企业合规布局均有重要影响。 原文
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 ↑ | 52.2 → 60.4(+15.7%) |
| Nemotron-CORTEXA | 50 → 82 ↓ | 68.2 → 58.2(-14.7%) |
| devlo | 44 → 83 ↓ | 70.2 → 58.2(-17.1%) |
| Warp | 11 → 36 ↓ | 75.6 → 71.0(-6.1%) |
Qwen3-Coder 系开源方案大幅跃升,而 devlo 和 Nemotron-CORTEXA 均出现双位数得分下滑,榜单竞争持续分化。
Terminal-Bench 2.0
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| LemonHarness / Multiple | 10 → 4 ↑ | 79.9 → 84.5(+5.8%) |
| Warp / Multiple | 43 → 67 ↓ | 61.2 → 50.1(-18.1%) |
LemonHarness 强势进入前五,Warp 在两个 Benchmark 上均现明显退步,值得持续关注。
快速预览
- Anthropic 提交 S-1:Anthropic 已秘密向 SEC 提交 IPO 注册草案,同时 Claude Mythos Preview 扩展至 150+ 家机构;Series H 融资 650 亿美元,估值 9650 亿美元。
- OpenAI × AWS 正式上线:GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 正式可用;Codex 同步新增 Sites 网站构建插件和 Windows Computer Use 支持。
- 白宫 AI 行政令:美国总统签署《促进先进人工智能创新与安全》行政令,Anthropic 公开表态支持并承诺配合落实。
- SWE-Bench Pro 榜首:gpt-5.4 (xHigh) 以 59.1 分领跑,LM Arena 整体榜首为 claude-opus-4-6-thinking(1502 分)。
- 榜单波动:SWE-Bench Verified 中 Warp 从第 11 跌至第 36,devlo 大幅下滑;Terminal Bench 中 LemonHarness 从第 10 升至第 4。
一、行业动态
Anthropic
| 日期 | 事件 |
|---|---|
| 2026-06-02 | 支持白宫《促进先进 AI 创新与安全》行政令,承诺协助落实 (来源) |
| 2026-06-02 | Project Glasswing 扩展:Claude Mythos Preview 新增约 150 家机构访问权限,覆盖 15 个以上国家 (来源) |
| 2026-06-01 | 秘密提交 SEC S-1 草案,为 IPO 保留选项 (来源) |
| 2026-05-28 | 发布 Claude Opus 4.8:在 Opus 4.7 基础上提升判断力、自我进度诚实度及长时独立工作能力,同价发布 (来源) |
| 2026-05-28 | 完成 Series H 融资 650 亿美元,估值 965 亿(原文为 $965B)美元,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投 (来源) |
| 2026-05-26 | 工程博客发布 Agent 沙箱权限管控机制详解 (来源) |
Claude Code 近期版本
| 版本 | 日期 | 关键变化 |
|---|---|---|
| v2.1.161 | 2026-06-02 | OTEL_RESOURCE_ATTRIBUTES 作为指标标签,支持按团队/仓库切片 (来源) |
| v2.1.160 | 2026-06-02 | 写入 shell 启动文件前新增确认提示,防止意外命令执行 (来源) |
| v2.1.158 | 2026-05-30 | Bedrock/Vertex/Foundry 支持 Opus 4.7/4.8 的 Auto Mode,需设置 CLAUDE_CODE_ENABLE_AUTO_MODE=1 (来源) |
| v2.1.157 | 2026-05-29 | .claude/skills 目录插件自动加载,无需 marketplace (来源) |
OpenAI
平台与基础设施
OpenAI 与 AWS 达成合作,GPT-5.5、GPT-5.4 及 Codex 现已在 Amazon Bedrock 正式上线,企业可通过 AWS 现有安全、合规和采购流程直接使用 (来源)。同日,Michigan 1GW 数据中心(Stargate 项目)破土动工 (来源)。
Codex 产品更新
- Sites 插件(2026-06-02):可在 Codex 中直接创建、部署、托管网站和 Web 应用 (来源)
- Amazon Bedrock 支持(2026-06-01):Codex 本地运行时可使用 AWS 托管的 OpenAI 模型 (来源)
- Windows Computer Use(2026-05-29):Codex 可操控 Windows 桌面应用(可见、点击、输入)(来源)
- iOS 新增 Face ID / 密码锁定 Codex 功能
GPT-5.5 模型更新(2026-05-29):发布新版 gpt-5.5 instant,修复过度列点问题,改善谄媚倾向、事实准确性和多语言表现 (来源)。
企业应用案例(近期)
Travelers 保险 AI 理赔助手全国上线、Boston Children's Hospital 用 AI 诊断 40+ 罕见病例、Rosalind Biodefense 向美国政府合作伙伴开放 GPT-Rosalind、MUFG 以 ChatGPT Enterprise 推进 AI-native 转型、Cisco 用 Codex 加速企业工程、Virgin Atlantic 零 P1 缺陷交付移动应用。
政策:OpenAI 发布 AI 政策与政治倡导立场声明,明确无外部政治组织代表其发言;发布《前沿治理框架》对齐 EU 和加州法规;发布第三方评估指南 (来源)。
Google / DeepMind
Google I/O 2026 余波持续:Demis Hassabis 转推 Gemini Omni 演示,博客发布 9 条 Gemini Omni 和 Gemini 3.5 实机演示视频 (来源)。Co-Scientist(基于 Gemini 的多智能体科研系统)对外介绍 (来源)。
Gemini API 新增按 API Key 过滤用量图表功能,更细粒度的控制即将推出 (来源)。
xAI
grok-build-0.1 进入公测,定价 $1/M 输入、$2/M 输出,已在 OpenRouter、Vercel AI Gateway、Cursor、Kilo Code 等平台上线 (来源)。Grok Build CLI 更新至 0.2.7,新增 /usage、/login、子智能体共享终端和增强图像理解 (来源)。
DeepSeek
DeepSeek-V4-Pro API 折扣价格永久化(原计划至 5 月 31 日到期)(来源)。
二、Benchmark 快照
SWE-Bench Verified(本期无榜首变动)
当前 Top 3(数据截至 2025-12-15):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变化:
| 模型 | 变化 |
|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct | 分数 52.2 → 60.4,排名 103 → 76(上升) |
| Warp | 分数 75.6 → 71.0,排名 11 → 36(下滑) |
| devlo | 分数 70.2 → 54.2,排名 44 → 94(大幅下滑) |
| Nemotron-CORTEXA | 分数 68.2 → 58.2,排名 50 → 82(下滑) |
| EPAM AI/Run + GPT4o | 分数 27.0 → 24.0,排名 156 → 162(下滑) |
| Solver (2024-09-12) | 分数 45.4 → 43.6,排名 120 → 126(微降) |
SWE-Bench Pro Public(数据截至 2026-06-03)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
来源:Scale AI Leaderboard(*表示含系统提示或特殊配置)
本期无明确历史对比数据,以上为当前快照。
Terminal Bench 2.0(数据截至 2026-05-15)
当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变化:
| 模型 | 变化 |
|---|---|
| LemonHarness / Multiple | 分数 79.9 → 84.5,排名 10 → 4(显著上升) |
| Gemini CLI / Gemini 3.1 Pro | 分数 59.4 → 61.4,排名 47 → 42(小幅上升) |
| Warp / Multiple | 分数 61.2 → 50.1,排名 43 → 67(下滑) |
| little-coder / Qwen3.6-35B-A3B | 分数 23.0 → 24.6,排名 123 → 118(微升) |
LM Arena 综合榜(数据截至 2026-05-27)
本期无变动,当前 Top 3:
| 排名 | 模型 | ELO 分 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.2 |
| 2 | claude-opus-4-7-thinking | 1499.7 |
| 3 | claude-opus-4-6 | 1498.4 |
前 10 中 Claude 系列占据 4 席,Gemini 系列占 3 席,GPT 系列占 2 席,muse-spark 占 1 席。来源:LM Arena HuggingFace Dataset
三、数据采集状态
本期所有来源采集正常,无失败记录。