AI 日报 2026-05-29 08:40
2026-05-29 08:40 CST
核心速览
1. 【Anthropic】完成 650 亿美元 H 轮融资,估值达 9650 亿美元 Anthropic 宣布完成 H 轮融资 650 亿美元,投后估值 9650 亿美元,由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。资金将用于推进前沿研究并扩大 Claude 服务容量,以满足不断增长的需求。 原文链接
2. 【Anthropic】发布 Claude Opus 4.8,推理判断力和自主能力显著提升 Anthropic 发布 Claude Opus 4.8,在 Opus 4.7 基础上强化判断力、提升自我评估诚实度,并支持更长时间的独立工作。模型以相同价格提供,Claude Code 同步更新默认使用 high effort 推理。 原文链接
3. 【Google】Gemini 3.5 发布,I/O 2026 公布百项 AI 更新 Google 在 I/O 2026 上发布 Gemini 3.5,定位为"前沿智能加行动能力"。同时公布 AI Mode 搜索、Google Workspace AI 集成、订阅方案升级等 100 项更新,全面押注 Agentic Gemini 时代。 原文链接
4. 【OpenAI】AI 模型推翻离散几何学 80 年核心猜想 OpenAI 模型解决了长达 80 年的单位距离问题(unit distance problem),推翻了离散几何学中的一个主要猜想。这是 AI 驱动数学研究的里程碑事件,引发学术界广泛关注与跟进。 原文链接
5. 【xAI】Grok Build 进入 Beta,开放编程智能体能力 xAI 将 Grok Build 开放给所有 SuperGrok 和 X Premium+ 用户测试,支持 Plan Mode、图片/视频生成及 CLI 自动化编排。同时与 KiloCode、OpenCode、OpenClaw 等第三方集成,构建开发者生态。 原文链接
重大 Benchmark 变化
SWE-Bench Verified(排名变动 ≥5 或分数变动 ≥5%)
| 模型 | 排名变动 | 分数变动 | 变动幅度 |
|---|---|---|---|
| devlo | 44 → 94 | 70.2 → 54.2 | 排名-50,分数-22.8% |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 | 排名-32,分数-14.7% |
| Warp | 11 → 36 | 75.6 → 71.0 | 排名-25,分数-6.1% |
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 | 52.2 → 60.4 | 排名+27,分数+15.7% |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 | 排名-6,分数-11.1% |
| Solver | 120 → 126 | 45.4 → 43.6 | 排名-6 |
LMArena Overall(仅列出显著变动)
| 模型 | 排名变动 | 分数变动 |
|---|---|---|
| mimo-v2.5 | 69 → 62(+7) | 1429 → 1434(+3.3%) |
| grok-4.3 | 41 → 48(-7) | 1451 → 1447 |
| deepseek-v4-pro | 32 → 38(-6) | 1459 → 1454 |
| deepseek-v4-pro-thinking | 30 → 32(-2) | 1461 → 1458 |
| glm-5.1 | 20 → 16(+4) | 1472 → 1474 |
| gpt-5.5-instant | 21 → 17(+4) | 1472 → 1474 |
| ernie-5.1 | 18 → 21(-3) | 1473 → 1470 |
| grok-4.20-multi-agent | 16 → 20(-4) | 1474 → 1472 |
重点观察:SWE-Bench 变动剧烈——devlo 分数暴跌 22.8%,Warp 排名从第 11 跌至第 36;而 EntroPO + Qwen3-Coder 组合逆势大涨 15.7%。LMArena 竞争格局整体稳定,grok-4.3 和 deepseek-v4-pro 是本周跌幅较大的头部模型。
快速预览
- Anthropic 发布 Claude Opus 4.8,默认 high effort 模式,同期完成 $650 亿 H 轮融资,估值 $9650 亿
- OpenAI 持续发力 Codex 生态:Dell 合作推进企业混合部署,Gartner 评为企业编码 Agent 领导者,GPT-5.5 发现 27 年旧 RCE 漏洞
- xAI Grok Build 0.2.7 发布,新增 /usage、/login 及子 Agent 共享终端;已集成 KiloCode、OpenCode、OpenClaw
- LM Arena 榜单变动活跃:DeepSeek-V4-Pro 排名下滑(32→38),GLM-5.1 大幅上升(20→16),mimo-v2-omni 与 MiniMax-M2.7 新上榜
- SWE-Bench Verified 重大变动:Warp 排名暴跌(11→36),Nemotron-CORTEXA 大幅下降(50→82)
详细正文
一、新闻动态
Anthropic
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-28 | Claude Opus 4.8 发布 | 默认 high effort,支持 /effort xhigh;判断力更强、更诚实、可独立工作更久 |
| 05-28 | Series H 融资 $650 亿 | 估值 $9650 亿,Altimeter、Dragoneer、Greenoaks、Sequoia 领投 |
| 05-28 | Dynamic Workflows(研究预览) | Claude Code 自动编写编排脚本,并行启动大规模子 Agent 协作完成复杂任务 |
| 05-28 | 模型发布前红队测试流程 | 分享新模型上线前的内部破坏性测试流程 |
| 05-27 | Claude Code v2.1.152 | /code-review --fix 可自动将审查结果应用到工作目录;/simplify 调用 code-review |
| 05-26 | Agent 沙箱安全工程博客 | 阐述如何随 Agent 能力演进调整权限与沙箱策略 |
| 05-26 | 安全指导插件上线 | Claude Code 安全插件,编码时实时识别和修复漏洞 |
| 05-25 | Chris Olah 出席教宗通谕发布会 | 联合创始人受邀在教宗 Leo XIV 通谕 "Magnifica humanitas" 发表演讲 |
| 05-22 | Claude Code v2.1.149 | /usage 新增按类别(Skills、子 Agent、插件、MCP Server)的用量细分 |
| 05-19 | 扩宽 AI 对话 | 与学者、哲学家、神职人员就前沿 AI 伦理问题开展系列对话 |
| 05-18 | 收购 Stainless | 收购 SDK 与 MCP Server 平台公司 Stainless,该平台自 Anthropic API 早期即提供所有 SDK |
OpenAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-28 | Endava 使用 Codex 构建 Agentic 组织 | 需求分析从数周缩短至数小时 |
| 05-28 | Frontier Governance Framework | 对齐 EU 和加州新兴 AI 法规的安全、安全与风险管理框架 |
| 05-28 | Codex CLI 0.135.0 | codex doctor 新增更丰富的环境、Git、终端等诊断信息 |
| 05-27 | Cisco + Codex 企业工程 | Cisco 利用 Codex 推进 AI 原生开发与自动化缺陷修复 |
| 05-27 | 自改进税务 Agent | 与 Thrive、Crete 合作构建,处理 7000+ 申报单并自我改进 |
| 05-27 | Warp 使用 GPT-5.5 构建开源 | 跨本地/云/开源的编码 Agent 协调工作流 |
| 05-27 | 2026 选举信息保障 | 信息访问、网络防御支持与 AI 透明度措施 |
| 05-28 | GPT-5.5 发现 27 年 RCE 漏洞 | GPT-5.5 发现 1999 年引入的远程代码执行漏洞 |
| 05-22 | Gartner 魔力象限领导者 | 获评 2026 Gartner 企业 AI 编码 Agent 魔力象限领导者 |
| 05-21 | Codex Appshots 功能 | macOS 端双击 Command 键即可将当前应用窗口截图+文本发送给 Codex |
| 05-20 | OpenAI 模型推翻离散几何猜想 | 解决 80 年前的单位距离问题,AI 数学里程碑 |
| 05-19 | OpenAI for Singapore | 多年 AI 合作伙伴关系,涵盖人才培养与公共服务 |
| 05-18 | Dell + Codex 混合部署 | 将 Codex 带入企业混合及本地环境 |
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-28 | I/O 2026 12 个重要时刻回顾 | 主题演讲精彩片段合集 |
| 05-22 | I/O 2026 Dialogues 舞台回顾 | Sundar Pichai 对话实录 |
| 05-20 | I/O 2026 全部 100 项发布 | 完整公告汇总 |
| 05-19 | Gemini 3.5:前沿智能与行动力 | Gemini 3.5 模型正式发布 |
| 05-19 | Agentic Gemini 时代 | Sundar Pichai 主题演讲:进入 Agentic Gemini 时代 |
| 05-19 | AI Search 新时代 | 搜索引擎与 AI 能力融合 |
| 05-19 | AI Mode 使用洞察 | 美国用户 AI Mode 搜索使用数据 |
| 05-23 | Gemini 3.5 Flash Vending Bench 帕累托前沿 | 成本/智能性价比最优 |
xAI
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-28 | Grok Build 0.2.7 | 新增 /usage、/login、子 Agent 共享终端、改进图像理解 |
| 05-27 | Grok Build 集成 KiloCode | SuperGrok/Premium+ 用户可在 KiloCode 使用 grok-build-0.1 |
| 05-26 | Grok Build 用量限制重置 | 改进缓存后重置所有账户用量限制 |
| 05-25 | Grok Build Beta 全面开放 | 所有 SuperGrok/Premium+ 用户可使用 Plan Mode、Imagine 及 CLI |
| 05-21 | Grok 集成 OpenCode | Grok/Premium 订阅可在 OpenCode 中使用 |
| 05-19 | Grok 集成 OpenClaw | 支持对话、图像/视频生成及 X 帖子搜索 |
DeepSeek
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣永久化 | 原定 5/31 截止的折扣改为永久优惠 |
二、Benchmark 快照
SWE-Bench Verified(Top 3)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
来源:OpenAutoCoder / live-swe-agent、Sonar、ByteDance Trae Agent
SWE-Bench Pro Public(Top 3)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh) | 59.1 |
| 2 | Muse Spark | 55.0 |
| 3 | claude-opus-4-6 (thinking) | 51.9 |
LM Arena Overall(Top 3)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.17 |
| 2 | claude-opus-4-7-thinking | 1499.70 |
| 3 | claude-opus-4-6 | 1498.38 |
三、榜单变化
LM Arena Overall — 显著变化
新上榜模型:
- mimo-v2-omni — 首次进入,排名 #94,分数 1414.38
- MiniMax-M2.7 — 首次进入,排名 #96,分数 1413.11
排名大幅上升:
| 模型 | 变化 | 当前排名/分数 |
|---|---|---|
| GLM-5.1 | 20 → 16 | 1473.85 (+1.62) |
| gpt-5.5-instant | 21 → 17 | 1473.75 (+1.67) |
| mimo-v2.5 | 69 → 62 | 1433.88 (+4.70) |
| claude-opus-4-1-thinking-16k | 46 → 43 | 1448.99 |
| qwen3.6-max-preview | 33 → 31 | 1459.04 (+1.91) |
排名大幅下降:
| 模型 | 变化 | 当前排名/分数 |
|---|---|---|
| DeepSeek-V4-Pro | 32 → 38 | 1454.16 (-4.50) |
| DeepSeek-V4-Pro-thinking | 30 → 32 | 1457.79 (-3.61) |
| grok-4.3 | 41 → 48 | 1446.77 (-4.41) |
| DeepSeek-V4-flash-thinking | 55 → 58 | 1437.13 (-2.48) |
| ernie-5.1 | 18 → 21 | 1470.45 (-2.76) |
| gemini-3.1-flash-lite-preview | 59 → 64 | 1433.49 (-2.46) |
SWE-Bench Verified — 显著变化
大幅变动:
| 模型 | 变化 | 分数变化 |
|---|---|---|
| Warp | 11 → 36 | 75.6 → 71.0 (-4.6) |
| devlo | 44 → 83/94 | 70.2 → 58.2/54.2 (大幅下降) |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 (-10.0) |
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 | 52.2 → 60.4 (+8.2, 上升) |
SWE-Bench Pro Public
本期无变动。当前 Top 3 如上文快照所示。
四、需要注意的来源状态
- 所有采集来源均正常,本期无采集失败。
- Claude Code 最新版本 v2.1.154(Opus 4.8),Codex CLI 最新版本 0.135.0,Grok Build 最新版本 0.2.7。
- DeepSeek-V4-Pro 折扣已从限时转为永久,关注后续定价策略调整。