AI 日报 2026-06-05 08:51
2026-06-05 08:51 CST
核心速览
【Anthropic】Anthropic 秘密提交 IPO 注册文件 Anthropic 已向美国证券交易委员会(SEC)秘密提交 S-1 草案,保留了未来进行首次公开募股的选项。此前公司刚完成 Series H 融资,估值达 9650 亿美元。这是 AI 头部公司中迄今最接近上市的一步,行业影响深远。 原文链接
【Anthropic】Project Glasswing 扩展,Claude Mythos Preview 开放更多组织访问 Anthropic 将 Claude Mythos Preview 的访问权限扩展至约 150 个额外组织,覆盖超过 15 个国家。Mythos 是 Anthropic 面向前沿能力的新模型系列预览,此次大规模扩展意味着其商业化进程明显提速。 原文链接
【OpenAI】ChatGPT 推出"Dreaming"新记忆系统 OpenAI 为 ChatGPT 引入全新记忆机制,能够跨对话持续追踪用户偏好与上下文,保持信息新鲜度和相关性。此举直接提升长期用户体验,是 ChatGPT 从工具向个人助理演进的关键一步。 原文链接
【OpenAI】GPT-Rosalind 能力重大升级,生命科学专项模型迈入新阶段 OpenAI 为 GPT-Rosalind 新增药物发现、药物化学、基因组学分析和实验工作流等能力,整合了 GPT-5.5 的代理编码与工具调用。这是 OpenAI 在垂直行业模型上的重要押注,直接对标生命科学研究场景。 原文链接
【xAI】Grok Imagine 1.5 Preview 发布,并全面扩展 API 生态 xAI 发布图像生成模型 Grok Imagine 1.5 Preview,同时推出 Grok TTS/STT 语音 API,并与 Cloudflare AI Gateway 完成集成。多模态能力的集中爆发表明 xAI 正快速补齐与 OpenAI、Google 的能力差距。 原文链接
重大 Benchmark 变化
SWE-bench Verified
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 大幅上升:排名从 103 → 76,得分从 52.2 → 60.4(+15.7%),是本期最大正向突破。
- Nemotron-CORTEXA 显著下滑:排名从 50 → 82,得分从 68.2 → 58.2(-14.7%),跌幅明显。
- devlo 大幅下滑:排名从 44 → 83,得分从 70.2 → 58.2(-17.1%)。
- Warp 下滑:排名从 11 → 36,得分从 75.6 → 71.0(-6.1%)。
Terminal Bench 2.0
- LemonHarness / Multiple 强势上升:排名从 10 → 4,得分从 79.9 → 84.5(+5.8%),跻身前五。
- Warp / Multiple 下滑:排名从 43 → 67,得分从 61.2 → 50.1(-18.1%),跌幅为本期最大。