AI 日报 2026-06-05 08:51
2026-06-05 08:51 CST
核心速览
【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向美国证券交易委员会(SEC)秘密提交 S-1 草案,保留了未来进行首次公开募股的选项。此前公司刚完成 Series H 融资,估值达 9650 亿美元。这是 AI 头部公司中迄今最接近上市的一步,行业影响深远。 原文链接
【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放更多组织访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个额外组织,覆盖超过 15 个国家。Mythos 是 Anthropic 面向前沿能力的新模型系列预览,此次大规模扩展意味着其商业化进程明显提速。 原文链接
【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 引入全新记忆机制,能够跨对话持续追踪用户偏好与上下文,保持信息新鲜度和相关性。此举直接提升长期用户体验,是 ChatGPT 从工具向个人助理演进的关键一步。 原文链接
【OpenAI】GPT-Rosalind 能力重大升级,生命科学专项模型迈入新阶段 OpenAI 为 GPT-Rosalind 新增药物发现、药物化学、基因组学分析和实验工作流等能力,整合了 GPT-5.5 的代理编码与工具调用。这是 OpenAI 在垂直行业模型上的重要押注,直接对标生命科学研究场景。 原文链接
【xAI】Grok Imagine 1.5 Preview 发布,并全面扩展 API 生态 xAI 发布图像生成模型 Grok Imagine 1.5 Preview,同时推出 Grok TTS/STT 语音 API,并与 Cloudflare AI Gateway 完成集成。多模态能力的集中爆发表明 xAI 正快速补齐与 OpenAI、Google 的能力差距。 原文链接
重大 Benchmark 变化
SWE-bench Verified
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:排名从 103 → 76,得分从 52.2 → 60.4(+15.7%),是本期最大正向突破。
- Nemotron-CORTEXA 显著下滑:排名从 50 → 82,得分从 68.2 → 58.2(-14.7%),跌幅明显。
- devlo 大幅下滑:排名从 44 → 83,得分从 70.2 → 58.2(-17.1%)。
- Warp 下滑:排名从 11 → 36,得分从 75.6 → 71.0(-6.1%)。
Terminal Bench 2.0
- LemonHarness / Multiple 强势上升:排名从 10 → 4,得分从 79.9 → 84.5(+5.8%),跻身前五。
- Warp / Multiple 下滑:排名从 43 → 67,得分从 61.2 → 50.1(-18.1%),跌幅为本期最大。
快速预览
- Anthropic 提交 IPO 草案:向 SEC 机密提交 S-1,估值 9650 亿美元,并完成 650 亿美元 H 轮融资;Claude Opus 4.8 同期发布,Project Glasswing 扩展至 150+ 机构。
- OpenAI Codex 可靠性告警:6 月 4 日发生三起独立故障,官方已重置全付费计划用量限额;同日修复 token 计量少算漏洞(影响 Pro/Plus 用户)。
- SWE-bench Pro Public 新榜:gpt-5.4 (xHigh) 以 59.1 分领跑,claude-opus-4-6 (thinking) 51.9 分位列第三;此榜为本期新增来源,首次纳入快照。
- xAI 多线扩张:发布 Grok Imagine 1.5 Preview 图像模型、grok-build-0.1 公测 API,并与 Cloudflare、Gopuff 达成合作。
- Benchmark 变动警示:SWE-bench Verified 中 Warp 从第 11 名大幅滑落至第 36 名(75.6→71.0),devlo 下滑尤为明显(70.2→54.2)。
OpenAI
产品与工程
Codex 连续故障与 token 计量修复(6 月 4 日):过去 24 小时内发生三起影响 Codex 可靠性的独立故障,官方已重置所有付费计划的用量限额。同日还披露存在 token 少算漏洞,影响部分 Pro/Plus 账户,已完成修复。来源:thsottiaux
GPT-Rosalind 升级(6 月 3 日):新增增强生物推理、药物化学、基因组学分析及实验流程能力,重点面向生命科学企业研究场景。详情
ChatGPT 新记忆系统"Dreaming"(6 月 4 日):跨对话保持偏好上下文,提升长期个性化体验。详情
OpenAI 模型与 Codex 上线 AWS(6 月 1 日):前沿模型及 Codex 正式在 Amazon Bedrock 上 GA,企业可通过 AWS 现有流程采购和认证。详情
gpt-5.5 instant 小版本更新(5 月 29 日):修正过度使用列表格式问题,改善谄媚倾向、事实准确性及多语言表现。来源:nickaturley
Codex Changelog 要点
| 日期 | 更新内容 |
|---|---|
| 6 月 4 日 | Profile 新增活动洞察与分享卡片(消费计划可用) |
| 6 月 2 日 | Sites 预览上线:可在 Codex 内创建/部署网站、Dashboard、小游戏 |
| 6 月 2 日 | iOS 1.2026.146:支持 Face ID/密码锁定 Codex |
| 6 月 1 日 | 支持 Amazon Bedrock 作为模型提供方,本地运行 |
| 6 月 1 日 | 新增终端面板位置控制(底部/右侧面板可配置) |
企业与政策
Endava 以 AI Agent 重构软件交付流程;Wasmer 用 Codex+GPT-5.5 将开发周期从数月缩至数周,加速 10–20 倍。保险公司 Travelers 在全国部署 AI 理赔助手。OpenAI 同期发布民主治理蓝图与公共政策议程,并在密歇根州破土动工 1GW Stargate 数据中心。治理蓝图 | 数据中心
Anthropic
IPO 动态(6 月 1 日):Anthropic 已向 SEC 机密提交 S-1 草案,保留未来 IPO 选项。同期完成 650 亿美元 Series H 融资,估值 9650 亿美元,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。来源:x-person-anthropic-boris
Claude Opus 4.8 发布(5 月 28 日):在 Opus 4.7 基础上提升判断力、自我进度诚实度,支持更长时间自主运行,价格不变。公告
Project Glasswing 扩展(6 月 2 日):Claude Mythos Preview 访问权限扩展至约 150 家机构,覆盖 15 个以上国家。详情
AI 网络安全研究(6 月 3 日):分析 832 个恶意账户,将活动映射至 MITRE ATT&CK 框架,评估 AI 赋能网络攻击防御效果。报告
白宫 AI 行政令(6 月 2 日):Anthropic 表态支持该 EO,称其为加强美国 AI 领导力的重要举措。
Claude Code 近期版本:
| 版本 | 发布日期 | 更新内容 |
|---|---|---|
| v2.1.163 | 6 月 4 日 | 新增 requiredMinimumVersion/MaximumVersion 管控设置,版本不符则拒绝启动 |
| v2.1.162 | 6 月 3 日 | claude agents --json 新增 waitingFor 字段,显示会话阻塞原因 |
| v2.1.161 | 6 月 2 日 | OTEL_RESOURCE_ATTRIBUTES 作为指标标签,支持按团队/仓库切片 |
| v2.1.160 | 6 月 2 日 | 写入 shell 启动文件及 git 配置前增加确认提示,防止意外命令执行 |
Google / DeepMind
Gemini Omni 与 Gemini 3.5 实演(5 月 29 日):发布 9 个 Demo 视频,展示两款模型实际能力。视频合集
Co-Scientist 多 Agent 系统(6 月 2 日):DeepMind 推出基于 Gemini 的科研助手,支持多 Agent 协作生成、辩论和演化科学假说。来源:demishassabis
如何用 Gemini 搭建 Google I/O 2026(6 月 1 日):Google 内部分享用 Gemini 构建 I/O 大会基础设施的实践经验。博客
Google Logan 暗示正在为 Android/iOS 打造"最佳 vibe coding 应用",尚无正式发布。
xAI / Grok
| 日期 | 动态 |
|---|---|
| 6 月 3 日 | Grok Imagine 1.5 Preview 图像模型上线 API |
| 6 月 3 日 | Grok 模型接入 Cloudflare AI Gateway,统一计费,无需额外密钥 |
| 6 月 3 日 | 与 Gopuff 合作推出 Go AI 购物助手,由 Grok 文本/音频/图像模型驱动 |
| 6 月 3 日 | Grok TTS/STT API 上线 Vapi 语音 AI 平台 |
| 5 月 29 日 | grok-build-0.1 公测 API 开放,$1/M 输入,$2/M 输出;同时支持 OpenRouter、Vercel AI Gateway、Cursor 等 |
| 5 月 28 日 | Grok Build CLI v0.2.7:新增 /usage、/login、子 Agent 共享终端、图像理解增强 |
| 5 月 25 日 | Grok Build Beta 向所有 SuperGrok 和 X Premium+ 用户开放 |
DeepSeek
DeepSeek-V4-Pro 折扣永久化(5 月 22 日):此前临时折扣宣布永久延续。公告
Benchmark 快照
SWE-bench Verified(代码修复,来源:swebench-verified)
本期有变动。
Top 3 不变,变动集中在中下游:
| 模型 | 排名 | 分数 |
|---|---|---|
| live-SWE-agent + Claude 4.5 Opus medium | 1 | 79.2 |
| Sonar Foundation Agent + Claude 4.5 Opus | 2 | 79.2 |
| TRAE + Doubao-Seed-Code | 3 | 78.8 |
本期变动(值得关注):
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B | 103 → 76 | 52.2 → 60.4 ↑ |
| Warp | 11 → 36 | 75.6 → 71.0 ↓ |
| devlo | 44 → 94 | 70.2 → 54.2 ↓ |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 ↓ |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 ↓ |
| Solver (2024-09-12) | 120 → 126 | 45.4 → 43.6 ↓ |
Warp 和 devlo 下滑幅度较大;EntroPO+Qwen3 是本期最显著的正向跃升。
SWE-bench Pro Public(来源:Scale AI)
本期为首次纳入快照,无历史变动数据。 快照时间:2026-06-05。
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.9 |
*注:带 * 标注的为该榜单标注的特殊提交。
Terminal Bench 2.0(来源:tbench.ai)
本期有变动。
Top 3 不变:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变动:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| LemonHarness / Multiple | 10 → 4 | 79.9 → 84.5 ↑ |
| Gemini CLI / Gemini 3.1 Pro | 47 → 42 | 59.4 → 61.4 ↑ |
| Warp / Multiple | 43 → 49/67 | 61.2 → 59.1/50.1 ↓ |
| little-coder / Qwen3.6-35B-A3B | 123 → 118 | 23.0 → 24.6 ↑ |
Warp 在两个 benchmark 中同步下滑,需持续观察。LemonHarness 大幅晋升至第 4 名。
LM Arena(来源:Hugging Face Dataset)
本期无变动。 快照时间:2026-05-27。
| 排名 | 模型 | Elo 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.2 |
| 2 | claude-opus-4-7-thinking | 1499.7 |
| 3 | claude-opus-4-6 | 1498.4 |
Claude 系列占据前四席,muse-spark(1489.0)和 gemini-3.1-pro-preview(1487.4)紧随其后。