AI 日报 2026-05-29 08:40

核心速览

1. 【Anthropic】完成 650 亿美元 H 轮融资，估值达 9650 亿美元 Anthropic 宣布完成 H 轮融资 650 亿美元，投后估值 9650 亿美元，由 Altimeter、Dragoneer、Greenoaks、Sequoia 领投。资金将用于推进前沿研究并扩大 Claude 服务容量，以满足不断增长的需求。原文链接

2. 【Anthropic】发布 Claude Opus 4.8，推理判断力和自主能力显著提升 Anthropic 发布 Claude Opus 4.8，在 Opus 4.7 基础上强化判断力、提升自我评估诚实度，并支持更长时间的独立工作。模型以相同价格提供，Claude Code 同步更新默认使用 high effort 推理。原文链接

3. 【Google】Gemini 3.5 发布，I/O 2026 公布百项 AI 更新 Google 在 I/O 2026 上发布 Gemini 3.5，定位为"前沿智能加行动能力"。同时公布 AI Mode 搜索、Google Workspace AI 集成、订阅方案升级等 100 项更新，全面押注 Agentic Gemini 时代。原文链接

4. 【OpenAI】AI 模型推翻离散几何学 80 年核心猜想 OpenAI 模型解决了长达 80 年的单位距离问题（unit distance problem），推翻了离散几何学中的一个主要猜想。这是 AI 驱动数学研究的里程碑事件，引发学术界广泛关注与跟进。原文链接

5. 【xAI】Grok Build 进入 Beta，开放编程智能体能力 xAI 将 Grok Build 开放给所有 SuperGrok 和 X Premium+ 用户测试，支持 Plan Mode、图片/视频生成及 CLI 自动化编排。同时与 KiloCode、OpenCode、OpenClaw 等第三方集成，构建开发者生态。原文链接

重大 Benchmark 变化

SWE-Bench Verified（排名变动 ≥5 或分数变动 ≥5%）

模型	排名变动	分数变动	变动幅度
devlo	44 → 94	70.2 → 54.2	排名-50，分数-22.8%
Nemotron-CORTEXA	50 → 82	68.2 → 58.2	排名-32，分数-14.7%
Warp	11 → 36	75.6 → 71.0	排名-25，分数-6.1%
EntroPO + R2E + Qwen3-Coder-30B	103 → 76	52.2 → 60.4	排名+27，分数+15.7%
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0	排名-6，分数-11.1%
Solver	120 → 126	45.4 → 43.6	排名-6

LMArena Overall（仅列出显著变动）

模型	排名变动	分数变动
mimo-v2.5	69 → 62（+7）	1429 → 1434（+3.3%）
grok-4.3	41 → 48（-7）	1451 → 1447
deepseek-v4-pro	32 → 38（-6）	1459 → 1454
deepseek-v4-pro-thinking	30 → 32（-2）	1461 → 1458
glm-5.1	20 → 16（+4）	1472 → 1474
gpt-5.5-instant	21 → 17（+4）	1472 → 1474
ernie-5.1	18 → 21（-3）	1473 → 1470
grok-4.20-multi-agent	16 → 20（-4）	1474 → 1472

重点观察：SWE-Bench 变动剧烈——devlo 分数暴跌 22.8%，Warp 排名从第 11 跌至第 36；而 EntroPO + Qwen3-Coder 组合逆势大涨 15.7%。LMArena 竞争格局整体稳定，grok-4.3 和 deepseek-v4-pro 是本周跌幅较大的头部模型。

快速预览

Anthropic 发布 Claude Opus 4.8，默认 high effort 模式，同期完成 $650 亿 H 轮融资，估值 $9650 亿
OpenAI 持续发力 Codex 生态：Dell 合作推进企业混合部署，Gartner 评为企业编码 Agent 领导者，GPT-5.5 发现 27 年旧 RCE 漏洞
xAI Grok Build 0.2.7 发布，新增 /usage、/login 及子 Agent 共享终端；已集成 KiloCode、OpenCode、OpenClaw
LM Arena 榜单变动活跃：DeepSeek-V4-Pro 排名下滑（32→38），GLM-5.1 大幅上升（20→16），mimo-v2-omni 与 MiniMax-M2.7 新上榜
SWE-Bench Verified 重大变动：Warp 排名暴跌（11→36），Nemotron-CORTEXA 大幅下降（50→82）

详细正文

一、新闻动态

Anthropic

日期	标题	摘要
05-28	Claude Opus 4.8 发布	默认 high effort，支持 `/effort xhigh`；判断力更强、更诚实、可独立工作更久
05-28	Series H 融资 $650 亿	估值 $9650 亿，Altimeter、Dragoneer、Greenoaks、Sequoia 领投
05-28	Dynamic Workflows（研究预览）	Claude Code 自动编写编排脚本，并行启动大规模子 Agent 协作完成复杂任务
05-28	模型发布前红队测试流程	分享新模型上线前的内部破坏性测试流程
05-27	Claude Code v2.1.152	`/code-review --fix` 可自动将审查结果应用到工作目录；`/simplify` 调用 code-review
05-26	Agent 沙箱安全工程博客	阐述如何随 Agent 能力演进调整权限与沙箱策略
05-26	安全指导插件上线	Claude Code 安全插件，编码时实时识别和修复漏洞
05-25	Chris Olah 出席教宗通谕发布会	联合创始人受邀在教宗 Leo XIV 通谕 "Magnifica humanitas" 发表演讲
05-22	Claude Code v2.1.149	`/usage` 新增按类别（Skills、子 Agent、插件、MCP Server）的用量细分
05-19	扩宽 AI 对话	与学者、哲学家、神职人员就前沿 AI 伦理问题开展系列对话
05-18	收购 Stainless	收购 SDK 与 MCP Server 平台公司 Stainless，该平台自 Anthropic API 早期即提供所有 SDK

OpenAI

日期	标题	摘要
05-28	Endava 使用 Codex 构建 Agentic 组织	需求分析从数周缩短至数小时
05-28	Frontier Governance Framework	对齐 EU 和加州新兴 AI 法规的安全、安全与风险管理框架
05-28	Codex CLI 0.135.0	`codex doctor` 新增更丰富的环境、Git、终端等诊断信息
05-27	Cisco + Codex 企业工程	Cisco 利用 Codex 推进 AI 原生开发与自动化缺陷修复
05-27	自改进税务 Agent	与 Thrive、Crete 合作构建，处理 7000+ 申报单并自我改进
05-27	Warp 使用 GPT-5.5 构建开源	跨本地/云/开源的编码 Agent 协调工作流
05-27	2026 选举信息保障	信息访问、网络防御支持与 AI 透明度措施
05-28	GPT-5.5 发现 27 年 RCE 漏洞	GPT-5.5 发现 1999 年引入的远程代码执行漏洞
05-22	Gartner 魔力象限领导者	获评 2026 Gartner 企业 AI 编码 Agent 魔力象限领导者
05-21	Codex Appshots 功能	macOS 端双击 Command 键即可将当前应用窗口截图+文本发送给 Codex
05-20	OpenAI 模型推翻离散几何猜想	解决 80 年前的单位距离问题，AI 数学里程碑
05-19	OpenAI for Singapore	多年 AI 合作伙伴关系，涵盖人才培养与公共服务
05-18	Dell + Codex 混合部署	将 Codex 带入企业混合及本地环境

Google

日期	标题	摘要
05-28	I/O 2026 12 个重要时刻回顾	主题演讲精彩片段合集
05-22	I/O 2026 Dialogues 舞台回顾	Sundar Pichai 对话实录
05-20	I/O 2026 全部 100 项发布	完整公告汇总
05-19	Gemini 3.5：前沿智能与行动力	Gemini 3.5 模型正式发布
05-19	Agentic Gemini 时代	Sundar Pichai 主题演讲：进入 Agentic Gemini 时代
05-19	AI Search 新时代	搜索引擎与 AI 能力融合
05-19	AI Mode 使用洞察	美国用户 AI Mode 搜索使用数据
05-23	Gemini 3.5 Flash Vending Bench 帕累托前沿	成本/智能性价比最优

xAI

日期	标题	摘要
05-28	Grok Build 0.2.7	新增 /usage、/login、子 Agent 共享终端、改进图像理解
05-27	Grok Build 集成 KiloCode	SuperGrok/Premium+ 用户可在 KiloCode 使用 grok-build-0.1
05-26	Grok Build 用量限制重置	改进缓存后重置所有账户用量限制
05-25	Grok Build Beta 全面开放	所有 SuperGrok/Premium+ 用户可使用 Plan Mode、Imagine 及 CLI
05-21	Grok 集成 OpenCode	Grok/Premium 订阅可在 OpenCode 中使用
05-19	Grok 集成 OpenClaw	支持对话、图像/视频生成及 X 帖子搜索

DeepSeek

日期	标题	摘要
05-22	DeepSeek-V4-Pro 折扣永久化	原定 5/31 截止的折扣改为永久优惠

二、Benchmark 快照

SWE-Bench Verified（Top 3）

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

来源：OpenAutoCoder / live-swe-agent、Sonar、ByteDance Trae Agent

SWE-Bench Pro Public（Top 3）

排名	模型	分数
1	gpt-5.4 (xHigh)	59.1
2	Muse Spark	55.0
3	claude-opus-4-6 (thinking)	51.9

来源：Scale AI Leaderboard

LM Arena Overall（Top 3）

排名	模型	分数
1	claude-opus-4-6-thinking	1502.17
2	claude-opus-4-7-thinking	1499.70
3	claude-opus-4-6	1498.38

来源：LM Arena Leaderboard

三、榜单变化

LM Arena Overall — 显著变化

新上榜模型：

mimo-v2-omni — 首次进入，排名 #94，分数 1414.38
MiniMax-M2.7 — 首次进入，排名 #96，分数 1413.11

排名大幅上升：

模型	变化	当前排名/分数
GLM-5.1	20 → 16	1473.85 (+1.62)
gpt-5.5-instant	21 → 17	1473.75 (+1.67)
mimo-v2.5	69 → 62	1433.88 (+4.70)
claude-opus-4-1-thinking-16k	46 → 43	1448.99
qwen3.6-max-preview	33 → 31	1459.04 (+1.91)

排名大幅下降：

模型	变化	当前排名/分数
DeepSeek-V4-Pro	32 → 38	1454.16 (-4.50)
DeepSeek-V4-Pro-thinking	30 → 32	1457.79 (-3.61)
grok-4.3	41 → 48	1446.77 (-4.41)
DeepSeek-V4-flash-thinking	55 → 58	1437.13 (-2.48)
ernie-5.1	18 → 21	1470.45 (-2.76)
gemini-3.1-flash-lite-preview	59 → 64	1433.49 (-2.46)

SWE-Bench Verified — 显著变化

大幅变动：

模型	变化	分数变化
Warp	11 → 36	75.6 → 71.0 (-4.6)
devlo	44 → 83/94	70.2 → 58.2/54.2 (大幅下降)
Nemotron-CORTEXA	50 → 82	68.2 → 58.2 (-10.0)
EntroPO + R2E + Qwen3-Coder-30B	103 → 76	52.2 → 60.4 (+8.2, 上升)

SWE-Bench Pro Public

本期无变动。当前 Top 3 如上文快照所示。

四、需要注意的来源状态

所有采集来源均正常，本期无采集失败。
Claude Code 最新版本 v2.1.154（Opus 4.8），Codex CLI 最新版本 0.135.0，Grok Build 最新版本 0.2.7。
DeepSeek-V4-Pro 折扣已从限时转为永久，关注后续定价策略调整。

来源 · 75 条

openai.com ×17 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×6 blog.google ×12 @xai ×8 @deepseek_ai @thsottiaux ×3 @nickaturley ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3