AI 日报 2026-06-04 08:36

2026-06-04 08:36 CST

核心速览

【Anthropic】Anthropic 秘密提交 IPO 注册声明 Anthropic 已向美国证券交易委员会(SEC)秘密提交 S-1 草案,为潜在首次公开募股铺路。此前公司刚完成 Series H 轮 650 亿美元融资,估值达 9650 亿美元。IPO 若成行将是 AI 行业重要里程碑,也是 Anthropic 商业化进程的关键节点。 原文


【Anthropic】Project Glasswing 扩大:Claude Mythos Preview 开放 150+ 机构 Anthropic 将 Claude Mythos Preview 访问权限扩展至约 150 个新组织,覆盖 15 个以上国家。Mythos 是 Anthropic 新一代旗舰模型预览版,此次扩展标志着其从小范围测试走向更广泛的生产级验证阶段。 原文


【OpenAI】Codex 周活跃用户突破 500 万 OpenAI 披露 Codex 已拥有超过 500 万周活跃用户,使用场景已从纯编程扩展至研究、数据分析、内容创作和运营自动化等知识工作领域。同期 Codex 遭遇 24 小时内三次可靠性故障,OpenAI 已重置所有付费用户使用限额。 原文


【OpenAI】OpenAI 模型与 Codex 登陆 AWS,发布 AI 治理蓝图 OpenAI 前沿模型及 Codex 正式在 AWS 上全面可用,企业可通过 Amazon Bedrock 接入。同日 OpenAI 发布美国前沿 AI 民主治理蓝图,提议建立联邦安全框架,推动国家安全与 AI 监管协同。两项举措均指向 OpenAI 加速企业落地与政策影响力布局。 原文链接1 | 原文链接2


【xAI】Grok Imagine 1.5 Preview 发布,生态快速扩张 xAI 发布图像生成模型 Grok Imagine 1.5 Preview,并宣布与 Cloudflare AI Gateway 合作,Grok 文本、音频、图像及视频模型全系入驻。此外 Grok TTS/STT 语音 API 也已上线 Vapi 平台,xAI 多模态生态布局加速。 原文


重大 Benchmark 变化

SWE-bench Verified

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅提升:分数从 52.2 → 60.4(+15.7%),排名从第 103 跃至第 76,是本周 SWE-bench 最显著的正向变化。

  • devlo 明显下滑:分数从 70.2 → 54.2(-22.8%),排名从第 44 跌至第 94,跌幅超过 50 位。

  • Nemotron-CORTEXA 下滑:分数从 68.2 → 58.2(-14.7%),排名从第 50 跌至第 82。

  • Warp 小幅回落:分数从 75.6 → 71.0(-6.1%),排名从第 11 跌至第 36。

Terminal Bench 2.0

  • LemonHarness / Multiple 显著上升:分数从 79.9 → 84.5(+5.8%),排名从第 10 升至第 4,进入榜单前五。

快速预览

  • Anthropic 秘密提交 S-1:正式启动 IPO 程序,同期完成 650 亿美元 H 轮融资,估值 9650 亿美元;Project Glasswing(Claude Mythos Preview)已扩展至全球 150+ 家组织。
  • OpenAI Codex 突破 500 万周活跃用户,但 6 月 4 日出现三次可靠性事故,官方已重置所有付费用户的使用配额。
  • xAI 密集扩张生态:Grok Imagine 1.5 Preview 发布,grok-build-0.1 开放公测 API,并接入 Cloudflare AI Gateway、Vapi 等平台。
  • SWE-Bench Pro Public(6 月 4 日快照):gpt-5.4 (xHigh) 以 59.1% 领跑,LMarena 综合榜 Top 3 仍被 Claude Opus 4.6/4.7 系列包揽。
  • Terminal-Bench 2.0 出现明显洗牌:LemonHarness 从第 10 升至第 4(79.9→84.5),Warp 系列下滑明显;SWE-Bench Verified 中 Nemotron-CORTEXA 和 devlo 分数大幅回落。

详细正文

OpenAI

产品与生态(6 月 1–4 日)

Codex 本周是绝对主角。周活跃用户正式突破 500 万,适用场景从写代码扩展到研究分析、内容创作与运营自动化("Knowledge Work" 报告)。配套更新包括:Sites 插件(预览版,可在 Codex 应用内直接构建和托管网页)、Amazon Bedrock 集成(企业可用 AWS 账户体系直接调用 OpenAI 前沿模型)、以及 iOS 客户端支持 Face ID/密码锁定 Codex。

不过 6 月 4 日凌晨,OpenAI 工程师 @thsottiaux 公开承认 24 小时内发生三次 Codex 可靠性事故,并已重置全体付费用户的用量上限。

GPT-Rosalind 同期迎来新一轮能力扩展,覆盖生物推理、医药化学与基因组分析;Rosalind Biodefense 也正式对美国政府合作方开放

基础设施与政策

Stargate 密歇根州 1GW 数据中心正式破土动工。政策层面,OpenAI 同一天发布了公共政策议程前沿 AI 民主治理蓝图,响应白宫促进 AI 创新与安全的行政令。

企业部署案例(本期新增)

客户 场景 工具
Wasmer 构建 Edge Node.js 运行时,交付加速 10–20x Codex + GPT-5.5
Travelers 全国铺开 AI 理赔助手,7×24 客服 OpenAI API
Cisco 企业级编码自动化 + AI Defense 加速 Codex
MUFG AI 原生组织转型 ChatGPT Enterprise
Virgin Atlantic 移动应用重构,零 P1 缺陷 Codex
AdventHealth 医疗工作流减负 ChatGPT for Healthcare

Anthropic

重大事件

Anthropic 已向 SEC 秘密提交 S-1 草稿,正式为 IPO 留好窗口期。同期披露的 H 轮融资规模为 650 亿美元,估值 965 亿美元(此处按来源数据:post-money $965 billion,即约 9650 亿美元)。

Project Glasswing 扩展:Claude Mythos Preview 的访问权限已扩至全球超过 15 个国家的约 150 家组织。

安全研究

Anthropic 分析了 832 个恶意账户,将其活动映射到 MITRE ATT&CK 框架,评估现有安全技术对抗 AI 增强网络攻击的有效性。

Claude Code 更新(近期版本)

版本 日期 关键变更
v2.1.162 6 月 3 日 claude agents --json 新增 waitingFor 字段,显示阻塞原因
v2.1.161 6 月 2 日 OTEL_RESOURCE_ATTRIBUTES 值作为 label 附加到指标数据点
v2.1.160 6 月 2 日 写入 shell 启动文件前增加用户确认提示(安全加固)
v2.1.158 5 月 30 日 Bedrock/Vertex/Foundry 上的 Opus 4.7/4.8 支持 Auto 模式

来源:Claude Code Releases

Claude Opus 4.8

5 月 28 日发布,在 Opus 4.7 基础上改善判断力与诚实度,支持更长独立工作周期,价格不变。同日 Claude Code 还推出了 Dynamic Workflows 研究预览(自动编排并行 subagents)。


Google / DeepMind

Google 本周主要以 I/O 2026 后续内容为主:博客汇总了 Gemini Omni 和 Gemini 3.5 的 9 条演示视频,以及 I/O 2026 十二大关键时刻回顾。技术层面,DeepMind 推出了 Co-Scientist——基于 Gemini 的多智能体科学研究系统,可生成、辩论并演化假设。Gemini API 使用统计页面新增按 API Key 筛选请求图表的功能。


xAI

本周 xAI 动作密集:

  • Grok Imagine 1.5 Preview 正式通过 API 开放
  • grok-build-0.1 进入公测,定价 $1/M 输入、$2/M 输出,适合 agentic coding 场景
  • Cloudflare AI Gateway 现已原生支持 Grok 全系模型(文本/音频/图像/视频),无需额外 API Key
  • Vapi 上线 Grok STT 和 TTS,面向企业语音 AI 场景
  • Gopuff × SpaceXAI 推出 "Go" 个人购物助手,由 Grok 多模态模型驱动
  • Grok Build 0.2.7:新增 /usage/login、子代理共享终端和图像理解增强

DeepSeek

DeepSeek-V4-Pro 的折扣永久化(原计划 5 月 31 日结束,现已成为常规定价)。本期无其他新公告。


Benchmark 快照

LMarena 综合榜(截至 2026-05-27)

本期无变动。

排名 模型 分数
1 claude-opus-4-6-thinking 1502.2
2 claude-opus-4-7-thinking 1499.7
3 claude-opus-4-6 1498.4

来源:LMarena Leaderboard


SWE-Bench Verified(截至 2025-12-15)

本期无顶部变动,记录以下中下段洗牌

模型 变化 分数变化
EntroPO + R2E + Qwen3-Coder-30B-A3B 第 103 → 第 76 52.2 → 60.4
Nemotron-CORTEXA 第 50 → 第 82 68.2 → 58.2
Warp 第 11 → 第 36 75.6 → 71.0
devlo 第 44 → 第 83/94 70.2 → 58.2/54.2
EPAM AI/Run + GPT4o 第 156 → 第 162 27.0 → 24.0
Solver (2024-09-12) 第 120 → 第 126 45.4 → 43.6

当前 Top 3:

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

来源:SWE-Bench Leaderboard


SWE-Bench Pro Public(截至 2026-06-04)

本期无变动(当日首次快照)。

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1%
2 Muse Spark* 55.0%
3 claude-opus-4-6 (thinking)* 51.9%

*带星号表示系统/脚手架层面有未公开细节。来源:Scale Labs Leaderboard


Terminal-Bench 2.0(截至 2026-05-15)

本期有变动:

模型 变化 分数变化
LemonHarness / Multiple 第 10 → 第 4 79.9 → 84.5
Gemini CLI / Gemini 3.1 Pro 第 47 → 第 42 59.4 → 61.4
Warp / Multiple 第 43 → 第 49/67 61.2 → 59.1/50.1
little-coder / Qwen3.6-35B-A3B 第 123 → 第 118 23.0 → 24.6

当前 Top 3:

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

来源:Terminal-Bench Leaderboard

Sources