AI 日报 2026-05-25 08:35
2026-05-25 08:35 CST
核心速览
1.【Google】I/O 2026 发布 Gemini 3.5,全面进入"Agentic Gemini"时代
Google 在 I/O 2026 发布 Gemini 3.5 模型,强调"前沿智能+行动能力"。同步推出 AI Mode 搜索、Google Workspace AI 更新及订阅体系升级,共公布 100+ 项更新。这是 Google 最大规模 AI 产品集中发布,标志其从"AI 助手"向"自主 Agent"转型。 来源
2.【OpenAI】AI 模型推翻离散几何领域 80 年核心猜想
OpenAI 模型成功解决 80 年未解的"单位距离问题"(unit distance problem),推翻离散几何中的一个重要猜想。这是 AI 驱动数学研究的里程碑事件,表明前沿模型已能在纯数学领域产出原创性突破。 来源
3.【Anthropic】收购 SDK 平台公司 Stainless
Anthropic 宣布收购 Stainless——一个 SDK 和 MCP 服务器平台,自 Anthropic API 早期起即为其所有 SDK 提供支持。此举将强化 Anthropic 的开发者工具链和 API 生态建设,巩固其在开发者基础设施层面的控制力。 来源
4.【xAI】Grok Build Beta 上线,Grok 订阅接入 OpenCode/OpenClaw
xAI 发布 Grok Build 早期 Beta——面向 SuperGrok Heavy 用户的 agentic CLI 编程工具,支持编码、建应用和自动化工作流。同时 Grok 订阅已接入 OpenCode 和 OpenClaw,xAI 正加速构建开发者生态。 来源
5.【DeepSeek】V4-Pro 折扣永久化
DeepSeek 宣布 V4-Pro 的折扣价格转为永久定价。此前该折扣原定 5 月 31 日到期,现决定无限期延续。这一价格策略可能进一步压缩竞争对手的定价空间,加速高性能模型的普及化。 来源
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #94 | 70.2 → 54.2 (-22.8%) | 大幅下滑,排名暴跌 50 位 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 (-14.7%) | 排名跌出前 50 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 (+15.7%) | 30B 小模型逆势上升 27 位 |
| Warp | #11 → #36 | 75.6 → 71.0 (-6.1%) | 头部梯队滑落,排名跌 25 位 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 (-11.1%) | 尾部持续下滑 |
Terminal-bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness / Multiple | #10 → #4 | 79.9 → 84.5 (+5.8%) | 闯入前 5,表现亮眼 |
| Warp / Multiple | #42 → #66 | 61.2 → 50.1 (-18.1%) | 在 Terminal-bench 同步大幅下跌 |
趋势观察: Warp 在两个主流 Coding Agent 基准上同步大幅下跌,可能与近期评测方法更新或自身版本回退有关;EntroPO+Qwen3-Coder 作为 30B 小模型在 SWE-bench 上大幅跃升值得关注。
快速预览
- OpenAI 获 Gartner 2026 企业 AI 编码代理「领导者」象限;Codex 生态持续扩张(Dell 混合部署、移动端上线)
- Anthropic 收购 Stainless(SDK/MCP 平台);Claude Code 连发 5 版本至 v2.1.150,新增
/usage分类明细和/code-review命令 - Google I/O 2026 发布 Gemini 3.5,定位「前沿智能 + 行动力」,AI 搜索、Workspace 全线更新
- LM Arena Top 3:claude-opus-4-6-thinking (1502.0)、claude-opus-4-7-thinking (1500.3)、claude-opus-4-6 (1498.1)
- SWE-bench Verified 重大变动:devlo 从第 44 名暴跌至 83–94 名,Warp 从第 11 跌至第 36
一、行业新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | Gartner 2026 企业 AI 编码代理领导者 | OpenAI 被评为 2026 Gartner Magic Quadrant 企业 AI 编码代理领导者,Codex 因创新和企业规模部署获认可 |
| 05-22 | Virgin Atlantic 加速交付案例 | Virgin Atlantic 用 Codex 在固定期限内完成移动端重构,近 100% 单元测试覆盖、零 P1 缺陷 |
| 05-21 | AdventHealth 整体护理 | AdventHealth 使用 ChatGPT for Healthcare 简化工作流、减少行政负担 |
| 05-20 | AI 推翻离散几何中心猜想 | OpenAI 模型解决了 80 年历史的单位距离问题,推翻离散几何重要猜想 |
| 05-20 | Education for Countries 新阶段 | 扩大全球学校 AI 采用,新增合作伙伴和教师培训 |
| 05-20 | Ramp 工程师用 Codex 加速代码审查 | 使用 GPT-5.5 的 Codex 将审查反馈从数小时缩短到分钟 |
| 05-19 | OpenAI for Singapore | 多年 AI 合作伙伴关系,覆盖人才培养和公共服务 |
| 05-19 | 内容溯源与透明度 | 推进 Content Credentials、SynthID 和验证工具 |
| 05-18 | Dell 合作:Codex 进入混合/本地部署 | 帮助企业在混合和本地环境中安全部署 Codex |
| 05-16 | 马耳他 ChatGPT Plus 合作 | 向所有公民提供 ChatGPT Plus 及 AI 培训 |
| 05-15 | Databricks 引入 GPT-5.5 | GPT-5.5 在 OfficeQA Pro 基准上创下新 SOTA |
| 05-15 | ChatGPT 个人理财体验 | 美国 Pro 用户可关联金融账户获取 AI 理财洞察(预览) |
| 05-14 | Sea 集团部署 Codex | Sea CPO 解释在亚洲工程团队全面部署 Codex 的战略 |
| 05-14 | Codex 移动端 | 通过 ChatGPT 移动 App 远程使用 Codex |
| 05-14 | ChatGPT 敏感对话上下文识别 | 提升安全对话中的上下文感知能力 |
| 05-13 | Codex Windows 沙箱 | 安全沙箱技术实现 Codex 在 Windows 上运行 |
| 05-13 | TanStack npm 供应链攻击应对 | macOS 用户需在 2026-06-12 前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师使用 Codex | 使用 GPT-5.5 的 Codex 交付生产系统和研究实验 |
| 05-11 | DeployCo 上线 | 新企业部署公司,帮助组织将前沿 AI 投入生产 |
其他同期新闻:销售/运营/数据科学/财务团队 Codex 使用指南(05-12~15)、AutoScout24 案例(05-12)、Parameter Golf 回顾(05-12)、ChatGPT Q1 采用趋势(05-11)、Campus Network(05-11)
OpenAI Codex Changelog(按日期倒序)
| 日期 | 版本/标题 | 要点 |
|---|---|---|
| 05-21 | Appshots & Goal Mode | macOS 可双击 Command 键将前台 App 截图发送给 Codex |
| 05-21 | CLI 0.133.0 | Goals 默认启用,支持跨会话进度跟踪 |
| 05-20 | CLI 0.132.0 | Python SDK 支持一等公民认证(API key、ChatGPT 浏览器/设备码流程) |
| 05-18 | CLI 0.131.0 | TUI 丰富会话控制:token 用量、权限模式、工作区根目录等 |
| 05-14 | Codex 移动端 | ChatGPT 移动 App 可连接 Mac 运行 Codex |
Anthropic(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-19 | 扩大 AI 伦理对话 | 与学者、哲学家、神职人员就 AI 伦理问题展开系列对话 |
| 05-18 | 收购 Stainless | 收购 SDK 和 MCP 服务器平台 Stainless,该平台支撑了 Anthropic 所有 SDK |
| 05-14 | 美中 AI 竞争白皮书 | 发布论文阐述美国及民主盟友在前沿 AI 领域领先的优势及保持策略 |
| 05-14 | 盖茨基金会合作 | 承诺 2 亿美元用于全球健康、生命科学、教育等领域 |
| 05-11 | Claude 宪法有声书 | Amanda Askell 和 Joe Carlsmith 朗读,含写作过程 Q&A |
Claude Code Releases(按日期倒序)
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-23 | v2.1.150 | 内部基础设施改进(无用户可见变更) |
| 05-22 | v2.1.149 | /usage 新增分类明细:skills、subagents、plugins、MCP server 成本 |
| 05-22 | v2.1.148 | 修复 v2.1.147 引入的 Bash 工具 exit code 127 回归 |
| 05-21 | v2.1.147 | 固定后台会话(Ctrl+T)保持存活,更新时原地重启 |
| 05-21 | v2.1.146 | /simplify 重命名为 /code-review,支持 effort level 参数 |
Google(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 | Sundar Pichai I/O 2026 对话阶段回顾 |
| 05-20 | I/O 2026 全部 100 项发布 | I/O 2026 完整公告汇总 |
| 05-20 | Missouri 社区投资 | 下一代劳动力和能源项目投资 |
| 05-19 | Gemini 3.5 发布 | 「前沿智能 + 行动力」定位 |
| 05-19 | AI 搜索新时代 | 搜索引擎与 AI 最佳结合 |
| 05-19 | AI Mode 使用洞察 | 美国用户 AI Mode 搜索行为数据 |
| 05-19 | Google Workspace 更新 | AI 驱动的新创作和生产力功能 |
| 05-19 | AI 订阅更新 | 更多功能、更强能力、同价格 |
| 05-19 | Sundar Pichai 主题演讲 | 宣告 agentic Gemini 时代 |
xAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-21 | Grok 集成 OpenCode | Grok/X Premium 订阅可在 OpenCode 中使用,支持高速和代码库智能 |
| 05-19 | Grok 集成 OpenClaw | 可在 OpenClaw 中聊天、生成图像/视频、搜索 X 帖子 |
| 05-15 | Grok 集成 Hermes Agent | Grok 订阅可在 NousResearch Hermes Agent 中使用 |
| 05-14 | Grok Build 公测 | agentic CLI 编码工具,面向 SuperGrok Heavy 用户开放早期测试 |
DeepSeek(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣永久化 | 折扣延长至 2026-05-31,并宣布转为永久优惠 |
二、Benchmark 快照与变化
SWE-bench Verified(有变化)
当前 Top 10:
| 排名 | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
本期变化(非 Top 10 位置变动):
| 模型 | 排名变化 | 分数变化 | 说明 |
|---|---|---|---|
| devlo | 44 → 83/94 | 70.2 → 58.2/54.2 | 大幅下跌,疑似重新评测或数据修正 |
| Warp | 11 → 36 | 75.6 → 71.0 | 显著下滑 |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 | 大幅下滑 |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 | 小幅下跌 |
| Solver (2024-09-12) | 120 → 126 | 45.4 → 43.6 | 小幅下跌 |
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 | 52.2 → 60.4 | 显著上升(+8.2 分) |
⚠️ devlo 存在两条变化记录(83 和 94),数据来源待确认。
SWE-bench Pro Public(本期无变动)
当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
来源:Scale AI Leaderboard · 快照时间 2026-05-25
Terminal-Bench 2.0(有变化)
当前 Top 5:
| 排名 | 模型 | 分数 | 采集日期 |
|---|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 | 2026-05-15 |
| 2 | JJAgent / Multiple | 87.1 | 2026-05-15 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 | 2026-05-14 |
| 4 | LemonHarness / Multiple | 84.5 | 2026-05-14 |
| 5 | Capy / GPT-5.5 | 83.1 | 2026-05-14 |
本期变化:
| 模型 | 排名变化 | 分数变化 | 说明 |
|---|---|---|---|
| LemonHarness / Multiple | 10 → 4 | 79.9 → 84.5 | 大幅上升,新进 Top 5 |
| Warp / Multiple | 42 → 48/66 | 61.2 → 59.1/50.1 | 下降(存在多条记录) |
| little-coder / Qwen3.6-35B-A3B | 122 → 117 | 23.0 → 24.6 | 小幅上升 |
来源:tbench.ai
LM Arena(本期无变动)
当前 Top 5:
| 排名 | 模型 | Elo 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.98 |
| 2 | claude-opus-4-7-thinking | 1500.25 |
| 3 | claude-opus-4-6 | 1498.06 |
| 4 | claude-opus-4-7 | 1492.39 |
| 5 | muse-spark | 1489.49 |
来源:LM Arena (HuggingFace) · 快照 2026-05-19 · Top 4 均为 Anthropic Claude 系列
三、来源状态
- 本期所有新闻源和 benchmark 源均采集成功,无失败记录。