AI 日报 2026-05-25 12:06

2026-05-25 12:06 CST

核心速览

2026 年 5 月 23 日 AI 行业日报(快速版)


1. 【Google】I/O 2026 发布 Gemini 3.5,开启"Agentic Gemini 时代"

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,定位为"前沿智能与行动力结合",同步推出 AI Mode 搜索、Workspace 新功能及订阅更新。Sundar Pichai 称此为 AI Agent 时代的新阶段,Google 正全面押注 Agentic 能力。 🔗 Gemini 3.5 官方介绍

2. 【OpenAI】AI 模型推翻离散几何中 80 年未解猜想

OpenAI 一个模型解决了持续 80 年的"单位距离问题"(unit distance problem),推翻了离散几何领域的一个核心猜想。这是 AI 驱动数学研究的里程碑事件,标志着大模型在形式推理领域取得突破性进展。 🔗 原文链接

3. 【OpenAI】获评 Gartner 企业 AI 编程 Agent 领导者

OpenAI 在 2026 年 Gartner 魔力象限中被评为企业 AI 编程 Agent 领导者,Codex 因创新能力和企业级部署规模获得认可。同期,Virgin Atlantic、Ramp、NVIDIA 等多家企业披露了 Codex 在代码审查、开发加速中的实际应用成果。 🔗 Gartner 评定详情

4. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless API——一家 SDK 与 MCP 服务器平台公司,自 Anthropic API 早期即为其提供所有 SDK 支持。此次收购将加强 Anthropic 的开发者工具链和 API 生态建设。 🔗 收购公告

5. 【xAI】Grok Build 测试版上线,进军 Agentic CLI 编程

xAI 发布 Grok Build 早期测试版,面向 SuperGrok Heavy 用户开放,定位为 Agentic CLI 工具,支持编码、应用构建和工作流自动化。同期 Grok 订阅已接入 OpenCode 和 OpenClaw 等第三方工具。 🔗 Grok Build 公告


重大 Benchmark 变化

SWE-bench Verified:

模型 排名变动 分数变动 说明
devlo #44 → #83/94 70.2 → 54.2~58.2(-17%~-22% 大幅下滑,存在两个不同提交记录
Nemotron-CORTEXA #50 → #82 68.2 → 58.2(-14.7% 排名下降 32 位
Warp #11 → #36 75.6 → 71.0(-6.1%) 排名下降 25 位,跌出前十
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4(+15.7% 排名上升 27 位,显著进步
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0(-11.1%) 小幅下降

Terminal Bench 2.0:

模型 排名变动 分数变动 说明
Warp / Multiple #42 → #48~66 61.2 → 50.1~59.1(-3%~-18% 多项提交均下滑
LemonHarness / Multiple #10 → #4 79.9 → 84.5(+5.8% 冲入前五

快速预览

  1. OpenAI 获 Gartner 2026 企业 AI 编程智能体「领导者」;Codex 持续推进企业级部署(Dell 混合/本地合作、Databricks 集成 GPT-5.5)
  2. Google I/O 2026 召开,发布 Gemini 3.5、AI Search 新时代、Workspace Agent 等 100+ 项更新
  3. LM Arena 总榜 Top 4 全部为 Claude Opus 系列(4-6-thinking 1502 分领跑);SWE-bench Pro Public 新增 gpt-5.4(xHigh) 以 59.1 登顶
  4. Anthropic 收购 Stainless(SDK/MCP 平台);Claude Code 连续发布 v2.1.146–v2.1.150,新增 /code-review 命令与 usage 分类明细
  5. DeepSeek-V4-Pro 折扣永久化;xAI Grok Build 开放 Beta,Grok 订阅可接入 OpenCode/OpenClaw/Hermes Agent

新闻(按厂商 · 日期倒序)

OpenAI

日期 标题 要点
05-22 Gartner 2026 企业 AI 编程智能体领导者 Codex 被评为 Magic Quadrant Leader
05-22 Virgin Atlantic 用 Codex 加速交付 移动端 App 改版,零 P1 缺陷、近 100% 单测覆盖
05-21 AdventHealth × ChatGPT 医疗场景 ChatGPT for Healthcare 精简行政流程
05-21 Codex Appshots + 目标模式 macOS 双 Command 键截图直传上下文;CLI 0.133.0 Goals 默认开启
05-20 OpenAI 模型证伪离散几何 80 年猜想 解决 unit distance problem,AI 数学里程碑
05-20 Ramp 用 Codex + GPT-5.5 加速代码审查 分钟级实质反馈替代数小时
05-20 CLI 0.132.0:Python SDK 一等认证 支持 API key / ChatGPT 设备码登录
05-19 OpenAI for Singapore 多年合作 AI 部署、人才培养、公共服务
05-19 内容溯源:Content Credentials + SynthID AI 生成媒体验证工具
05-18 Dell × Codex 混合/本地部署 企业可在自有基础设施运行 Codex
05-18 CLI 0.131.0 TUI 会话控制增强
05-15 Databricks 集成 GPT-5.5 OfficeQA Pro benchmark 新 SOTA
05-15 ChatGPT 个人理财功能预览 美国 Pro 用户可关联金融账户
05-14 Codex 移动端上线 ChatGPT 移动 App 远程操控 Mac 上的 Codex
05-14 Sea Limited 部署 Codex 亚洲 AI-native 软件开发
05-14 ChatGPT 敏感对话上下文识别 安全更新提升风险检测
05-13 Windows 沙盒构建 Codex 支持 Windows 安全沙盒
05-13 TanStack npm 供应链攻击响应 macOS 用户须在 6/12 前更新 OpenAI 应用
05-12 NVIDIA 工程师用 Codex 生产系统 + 研究实验落地
05-12 AutoScout24 AI 工作流扩展 Codex + ChatGPT 加速开发周期
05-11 DeployCo 企业部署公司成立 帮助组织将前沿 AI 推入生产
05-11 ChatGPT Q1 2026 采用增长 35 岁以上用户增长最快,性别使用更均衡
05-11 企业 AI 规模化指南 信任、治理、工作流设计
05-16 Malta 全民 ChatGPT Plus

Anthropic

日期 标题 要点
05-23 Claude Code v2.1.150 内部基础设施优化
05-22 v2.1.149:/usage 分类明细 skills / subagents / plugins / MCP 服务器成本分项展示
05-22 v2.1.148:修复 Bash 127 回退 2.1.147 引入的回归
05-21 v2.1.147:固定后台会话 Ctrl+T 固定的会话空闲不销毁、内存压力下最后淘汰
05-21 v2.1.146:/simplify → /code-review 支持 effort level 参数
05-19 与学者/哲学家/神职人员的 AI 对话 探讨前沿 AI 伦理与品格形成
05-18 收购 Stainless SDK / MCP 服务器平台,Anthropic API 基础设施
05-14 美中 AI 竞争立场论文 美国及民主盟友在前沿 AI 领先
05-14 盖茨基金会合作 · 2 亿美元 全球健康、生命科学、教育、农业
05-11 Claude's Constitution 有声书 Amanda Askell & Joe Carlsmith 朗读

Google

日期 标题 要点
05-22 I/O 2026 Dialogues 回顾 Sundar Pichai 访谈
05-20 I/O 2026:100 项公告汇总
05-19 Gemini 3.5 发布 "frontier intelligence with action"
05-19 AI Search 新时代 AI Mode 美国用户行为洞察
05-19 Workspace 更新 AI 创建 + 协作新功能
05-19 Google AI 订阅升级 功能更多、价格不变
05-19 agentic Gemini 时代
05-20 Google Beam 群组会议实验
05-20 密苏里州社区投资 下一代劳动力 + 能源
05-11 AI 驱动 Google Finance 扩展至欧洲

xAI

日期 标题 要点
05-21 Grok 订阅接入 OpenCode 使用 Grok Build 模型的高速 + 代码库智能
05-19 Grok 订阅接入 OpenClaw 图片/视频生成、X 帖子搜索
05-15 Grok 订阅接入 NousResearch Hermes Agent
05-14 Grok Build Beta 上线 agentic CLI 编码/应用构建/工作流自动化,SuperGrok Heavy 限定

DeepSeek

日期 标题 要点
05-22 DeepSeek-V4-Pro 折扣永久化 原定 5/31 截止的折扣改为永久

Benchmark 快照

LM Arena(综合 · text_style_control)— 采集日 2026-05-19

来源:lmarena-ai/leaderboard-dataset

本期无变动(数据与上期一致)。当前 Top 10:

# 模型 ELO
1 claude-opus-4-6-thinking 1502.0
2 claude-opus-4-7-thinking 1500.3
3 claude-opus-4-6 1498.1
4 claude-opus-4-7 1492.4
5 muse-spark 1489.5
6 gemini-3.1-pro-preview 1488.2
7 gemini-3-pro 1485.8
8 gpt-5.5-high 1481.3
9 gemini-3.5-flash 1480.0
10 gpt-5.4-high 1479.6

SWE-bench Verified — 采集日 2025-12-15(Top 10)

来源:OpenAutoCoder/live-swe-agent

本期无变动。当前 Top 3:

# 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

近期变化(排名/分数有显著变动的条目):

模型 排名变化 分数变化 方向
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4
Warp #11 → #36 75.6 → 71.0
devlo #44 → #83/#94 70.2 → 58.2 / 54.2
Nemotron-CORTEXA #50 → #82 68.2 → 58.2
EPAM AI/Run + GPT4o #156 → #162 27.0 → 24.0

SWE-bench Pro Public — 采集日 2026-05-25

来源:Scale AI Leaderboard

本期无变动。当前 Top 3:

# 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

Terminal-bench 2.0 — 采集日 2026-05-15

来源:tbench.ai

当前 Top 3:

# 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

近期变化

模型 排名变化 分数变化 方向
LemonHarness / Multiple #10 → #4 79.9 → 84.5
little-coder / Qwen3.6-35B-A3B #122 → #117 23.0 → 24.6
Warp / Multiple #42 → #48/#66 61.2 → 59.1 / 50.1

一句话总结

本周 AI 行业焦点集中在编程智能体企业落地(OpenAI Codex × Gartner Leader / Dell / Databricks)、Google I/O 2026 全面更新(Gemini 3.5 + agentic 战略)、以及 Anthropic 基础设施收购与 Claude Code 快速迭代。Benchmark 方面 Claude Opus 系列继续主导 LM Arena,SWE-bench Pro Public 由 gpt-5.4(xHigh) 领跑,Terminal-bench 则由 Claude Opus 4.7 摘冠。

Sources