AI 日报 2026-05-25 12:06

核心速览

2026 年 5 月 23 日 AI 行业日报（快速版）

1. 【Google】I/O 2026 发布 Gemini 3.5，开启"Agentic Gemini 时代"

Google 在 I/O 2026 大会上发布 Gemini 3.5 模型，定位为"前沿智能与行动力结合"，同步推出 AI Mode 搜索、Workspace 新功能及订阅更新。Sundar Pichai 称此为 AI Agent 时代的新阶段，Google 正全面押注 Agentic 能力。 🔗 Gemini 3.5 官方介绍

2. 【OpenAI】AI 模型推翻离散几何中 80 年未解猜想

OpenAI 一个模型解决了持续 80 年的"单位距离问题"（unit distance problem），推翻了离散几何领域的一个核心猜想。这是 AI 驱动数学研究的里程碑事件，标志着大模型在形式推理领域取得突破性进展。 🔗 原文链接

3. 【OpenAI】获评 Gartner 企业 AI 编程 Agent 领导者

OpenAI 在 2026 年 Gartner 魔力象限中被评为企业 AI 编程 Agent 领导者，Codex 因创新能力和企业级部署规模获得认可。同期，Virgin Atlantic、Ramp、NVIDIA 等多家企业披露了 Codex 在代码审查、开发加速中的实际应用成果。 🔗 Gartner 评定详情

4. 【Anthropic】收购 SDK 平台公司 Stainless

Anthropic 宣布收购 Stainless API——一家 SDK 与 MCP 服务器平台公司，自 Anthropic API 早期即为其提供所有 SDK 支持。此次收购将加强 Anthropic 的开发者工具链和 API 生态建设。 🔗 收购公告

5. 【xAI】Grok Build 测试版上线，进军 Agentic CLI 编程

xAI 发布 Grok Build 早期测试版，面向 SuperGrok Heavy 用户开放，定位为 Agentic CLI 工具，支持编码、应用构建和工作流自动化。同期 Grok 订阅已接入 OpenCode 和 OpenClaw 等第三方工具。 🔗 Grok Build 公告

重大 Benchmark 变化

SWE-bench Verified：

模型	排名变动	分数变动	说明
devlo	#44 → #83/94	70.2 → 54.2~58.2（-17%~-22%）	大幅下滑，存在两个不同提交记录
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2（-14.7%）	排名下降 32 位
Warp	#11 → #36	75.6 → 71.0（-6.1%）	排名下降 25 位，跌出前十
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4（+15.7%）	排名上升 27 位，显著进步
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0（-11.1%）	小幅下降

Terminal Bench 2.0：

模型	排名变动	分数变动	说明
Warp / Multiple	#42 → #48~66	61.2 → 50.1~59.1（-3%~-18%）	多项提交均下滑
LemonHarness / Multiple	#10 → #4	79.9 → 84.5（+5.8%）	冲入前五

快速预览

OpenAI 获 Gartner 2026 企业 AI 编程智能体「领导者」；Codex 持续推进企业级部署（Dell 混合/本地合作、Databricks 集成 GPT-5.5）
Google I/O 2026 召开，发布 Gemini 3.5、AI Search 新时代、Workspace Agent 等 100+ 项更新
LM Arena 总榜 Top 4 全部为 Claude Opus 系列（4-6-thinking 1502 分领跑）；SWE-bench Pro Public 新增 gpt-5.4(xHigh) 以 59.1 登顶
Anthropic 收购 Stainless（SDK/MCP 平台）；Claude Code 连续发布 v2.1.146–v2.1.150，新增 /code-review 命令与 usage 分类明细
DeepSeek-V4-Pro 折扣永久化；xAI Grok Build 开放 Beta，Grok 订阅可接入 OpenCode/OpenClaw/Hermes Agent

新闻（按厂商 · 日期倒序）

OpenAI

日期	标题	要点
05-22	Gartner 2026 企业 AI 编程智能体领导者	Codex 被评为 Magic Quadrant Leader
05-22	Virgin Atlantic 用 Codex 加速交付	移动端 App 改版，零 P1 缺陷、近 100% 单测覆盖
05-21	AdventHealth × ChatGPT 医疗场景	ChatGPT for Healthcare 精简行政流程
05-21	Codex Appshots + 目标模式	macOS 双 Command 键截图直传上下文；CLI 0.133.0 Goals 默认开启
05-20	OpenAI 模型证伪离散几何 80 年猜想	解决 unit distance problem，AI 数学里程碑
05-20	Ramp 用 Codex + GPT-5.5 加速代码审查	分钟级实质反馈替代数小时
05-20	CLI 0.132.0：Python SDK 一等认证	支持 API key / ChatGPT 设备码登录
05-19	OpenAI for Singapore 多年合作	AI 部署、人才培养、公共服务
05-19	内容溯源：Content Credentials + SynthID	AI 生成媒体验证工具
05-18	Dell × Codex 混合/本地部署	企业可在自有基础设施运行 Codex
05-18	CLI 0.131.0	TUI 会话控制增强
05-15	Databricks 集成 GPT-5.5	OfficeQA Pro benchmark 新 SOTA
05-15	ChatGPT 个人理财功能预览	美国 Pro 用户可关联金融账户
05-14	Codex 移动端上线	ChatGPT 移动 App 远程操控 Mac 上的 Codex
05-14	Sea Limited 部署 Codex	亚洲 AI-native 软件开发
05-14	ChatGPT 敏感对话上下文识别	安全更新提升风险检测
05-13	Windows 沙盒构建	Codex 支持 Windows 安全沙盒
05-13	TanStack npm 供应链攻击响应	macOS 用户须在 6/12 前更新 OpenAI 应用
05-12	NVIDIA 工程师用 Codex	生产系统 + 研究实验落地
05-12	AutoScout24 AI 工作流扩展	Codex + ChatGPT 加速开发周期
05-11	DeployCo 企业部署公司成立	帮助组织将前沿 AI 推入生产
05-11	ChatGPT Q1 2026 采用增长	35 岁以上用户增长最快，性别使用更均衡
05-11	企业 AI 规模化指南	信任、治理、工作流设计
05-16	Malta 全民 ChatGPT Plus

Anthropic

日期	标题	要点
05-23	Claude Code v2.1.150	内部基础设施优化
05-22	v2.1.149：/usage 分类明细	skills / subagents / plugins / MCP 服务器成本分项展示
05-22	v2.1.148：修复 Bash 127 回退	2.1.147 引入的回归
05-21	v2.1.147：固定后台会话	`Ctrl+T` 固定的会话空闲不销毁、内存压力下最后淘汰
05-21	v2.1.146：/simplify → /code-review	支持 effort level 参数
05-19	与学者/哲学家/神职人员的 AI 对话	探讨前沿 AI 伦理与品格形成
05-18	收购 Stainless	SDK / MCP 服务器平台，Anthropic API 基础设施
05-14	美中 AI 竞争立场论文	美国及民主盟友在前沿 AI 领先
05-14	盖茨基金会合作 · 2 亿美元	全球健康、生命科学、教育、农业
05-11	Claude's Constitution 有声书	Amanda Askell & Joe Carlsmith 朗读

Google

日期	标题	要点
05-22	I/O 2026 Dialogues 回顾	Sundar Pichai 访谈
05-20	I/O 2026：100 项公告汇总
05-19	Gemini 3.5 发布	"frontier intelligence with action"
05-19	AI Search 新时代	AI Mode 美国用户行为洞察
05-19	Workspace 更新	AI 创建 + 协作新功能
05-19	Google AI 订阅升级	功能更多、价格不变
05-19	agentic Gemini 时代
05-20	Google Beam 群组会议实验
05-20	密苏里州社区投资	下一代劳动力 + 能源
05-11	AI 驱动 Google Finance 扩展至欧洲

xAI

日期	标题	要点
05-21	Grok 订阅接入 OpenCode	使用 Grok Build 模型的高速 + 代码库智能
05-19	Grok 订阅接入 OpenClaw	图片/视频生成、X 帖子搜索
05-15	Grok 订阅接入 NousResearch Hermes Agent
05-14	Grok Build Beta 上线	agentic CLI 编码/应用构建/工作流自动化，SuperGrok Heavy 限定

DeepSeek

日期	标题	要点
05-22	DeepSeek-V4-Pro 折扣永久化	原定 5/31 截止的折扣改为永久

Benchmark 快照

LM Arena（综合 · text_style_control）— 采集日 2026-05-19

来源：lmarena-ai/leaderboard-dataset

本期无变动（数据与上期一致）。当前 Top 10：

#	模型	ELO
1	claude-opus-4-6-thinking	1502.0
2	claude-opus-4-7-thinking	1500.3
3	claude-opus-4-6	1498.1
4	claude-opus-4-7	1492.4
5	muse-spark	1489.5
6	gemini-3.1-pro-preview	1488.2
7	gemini-3-pro	1485.8
8	gpt-5.5-high	1481.3
9	gemini-3.5-flash	1480.0
10	gpt-5.4-high	1479.6

SWE-bench Verified — 采集日 2025-12-15（Top 10）

来源：OpenAutoCoder/live-swe-agent

本期无变动。当前 Top 3：

#	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

近期变化（排名/分数有显著变动的条目）：

模型	排名变化	分数变化	方向
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76	52.2 → 60.4	⬆
Warp	#11 → #36	75.6 → 71.0	⬇
devlo	#44 → #83/#94	70.2 → 58.2 / 54.2	⬇
Nemotron-CORTEXA	#50 → #82	68.2 → 58.2	⬇
EPAM AI/Run + GPT4o	#156 → #162	27.0 → 24.0	⬇

SWE-bench Pro Public — 采集日 2026-05-25

来源：Scale AI Leaderboard

本期无变动。当前 Top 3：

#	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

Terminal-bench 2.0 — 采集日 2026-05-15

来源：tbench.ai

当前 Top 3：

#	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

近期变化：

模型	排名变化	分数变化	方向
LemonHarness / Multiple	#10 → #4	79.9 → 84.5	⬆
little-coder / Qwen3.6-35B-A3B	#122 → #117	23.0 → 24.6	⬆
Warp / Multiple	#42 → #48/#66	61.2 → 59.1 / 50.1	⬇

一句话总结

本周 AI 行业焦点集中在编程智能体企业落地（OpenAI Codex × Gartner Leader / Dell / Databricks）、Google I/O 2026 全面更新（Gemini 3.5 + agentic 战略）、以及 Anthropic 基础设施收购与 Claude Code 快速迭代。Benchmark 方面 Claude Opus 系列继续主导 LM Arena，SWE-bench Pro Public 由 gpt-5.4(xHigh) 领跑，Terminal-bench 则由 Claude Opus 4.7 摘冠。

来源 · 64 条

openai.com ×28 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×12 @xai ×5 @deepseek_ai