AI 日报 2026-05-25 12:06
2026-05-25 12:06 CST
核心速览
2026 年 5 月 23 日 AI 行业日报(快速版)
1. 【Google】I/O 2026 发布 Gemini 3.5,开启"Agentic Gemini 时代"
Google 在 I/O 2026 大会上发布 Gemini 3.5 模型,定位为"前沿智能与行动力结合",同步推出 AI Mode 搜索、Workspace 新功能及订阅更新。Sundar Pichai 称此为 AI Agent 时代的新阶段,Google 正全面押注 Agentic 能力。 🔗 Gemini 3.5 官方介绍
2. 【OpenAI】AI 模型推翻离散几何中 80 年未解猜想
OpenAI 一个模型解决了持续 80 年的"单位距离问题"(unit distance problem),推翻了离散几何领域的一个核心猜想。这是 AI 驱动数学研究的里程碑事件,标志着大模型在形式推理领域取得突破性进展。 🔗 原文链接
3. 【OpenAI】获评 Gartner 企业 AI 编程 Agent 领导者
OpenAI 在 2026 年 Gartner 魔力象限中被评为企业 AI 编程 Agent 领导者,Codex 因创新能力和企业级部署规模获得认可。同期,Virgin Atlantic、Ramp、NVIDIA 等多家企业披露了 Codex 在代码审查、开发加速中的实际应用成果。 🔗 Gartner 评定详情
4. 【Anthropic】收购 SDK 平台公司 Stainless
Anthropic 宣布收购 Stainless API——一家 SDK 与 MCP 服务器平台公司,自 Anthropic API 早期即为其提供所有 SDK 支持。此次收购将加强 Anthropic 的开发者工具链和 API 生态建设。 🔗 收购公告
5. 【xAI】Grok Build 测试版上线,进军 Agentic CLI 编程
xAI 发布 Grok Build 早期测试版,面向 SuperGrok Heavy 用户开放,定位为 Agentic CLI 工具,支持编码、应用构建和工作流自动化。同期 Grok 订阅已接入 OpenCode 和 OpenClaw 等第三方工具。 🔗 Grok Build 公告
重大 Benchmark 变化
SWE-bench Verified:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| devlo | #44 → #83/94 | 70.2 → 54.2~58.2(-17%~-22%) | 大幅下滑,存在两个不同提交记录 |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2(-14.7%) | 排名下降 32 位 |
| Warp | #11 → #36 | 75.6 → 71.0(-6.1%) | 排名下降 25 位,跌出前十 |
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4(+15.7%) | 排名上升 27 位,显著进步 |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0(-11.1%) | 小幅下降 |
Terminal Bench 2.0:
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| Warp / Multiple | #42 → #48~66 | 61.2 → 50.1~59.1(-3%~-18%) | 多项提交均下滑 |
| LemonHarness / Multiple | #10 → #4 | 79.9 → 84.5(+5.8%) | 冲入前五 |
快速预览
- OpenAI 获 Gartner 2026 企业 AI 编程智能体「领导者」;Codex 持续推进企业级部署(Dell 混合/本地合作、Databricks 集成 GPT-5.5)
- Google I/O 2026 召开,发布 Gemini 3.5、AI Search 新时代、Workspace Agent 等 100+ 项更新
- LM Arena 总榜 Top 4 全部为 Claude Opus 系列(4-6-thinking 1502 分领跑);SWE-bench Pro Public 新增 gpt-5.4(xHigh) 以 59.1 登顶
- Anthropic 收购 Stainless(SDK/MCP 平台);Claude Code 连续发布 v2.1.146–v2.1.150,新增
/code-review命令与 usage 分类明细 - DeepSeek-V4-Pro 折扣永久化;xAI Grok Build 开放 Beta,Grok 订阅可接入 OpenCode/OpenClaw/Hermes Agent
新闻(按厂商 · 日期倒序)
OpenAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | Gartner 2026 企业 AI 编程智能体领导者 | Codex 被评为 Magic Quadrant Leader |
| 05-22 | Virgin Atlantic 用 Codex 加速交付 | 移动端 App 改版,零 P1 缺陷、近 100% 单测覆盖 |
| 05-21 | AdventHealth × ChatGPT 医疗场景 | ChatGPT for Healthcare 精简行政流程 |
| 05-21 | Codex Appshots + 目标模式 | macOS 双 Command 键截图直传上下文;CLI 0.133.0 Goals 默认开启 |
| 05-20 | OpenAI 模型证伪离散几何 80 年猜想 | 解决 unit distance problem,AI 数学里程碑 |
| 05-20 | Ramp 用 Codex + GPT-5.5 加速代码审查 | 分钟级实质反馈替代数小时 |
| 05-20 | CLI 0.132.0:Python SDK 一等认证 | 支持 API key / ChatGPT 设备码登录 |
| 05-19 | OpenAI for Singapore 多年合作 | AI 部署、人才培养、公共服务 |
| 05-19 | 内容溯源:Content Credentials + SynthID | AI 生成媒体验证工具 |
| 05-18 | Dell × Codex 混合/本地部署 | 企业可在自有基础设施运行 Codex |
| 05-18 | CLI 0.131.0 | TUI 会话控制增强 |
| 05-15 | Databricks 集成 GPT-5.5 | OfficeQA Pro benchmark 新 SOTA |
| 05-15 | ChatGPT 个人理财功能预览 | 美国 Pro 用户可关联金融账户 |
| 05-14 | Codex 移动端上线 | ChatGPT 移动 App 远程操控 Mac 上的 Codex |
| 05-14 | Sea Limited 部署 Codex | 亚洲 AI-native 软件开发 |
| 05-14 | ChatGPT 敏感对话上下文识别 | 安全更新提升风险检测 |
| 05-13 | Windows 沙盒构建 | Codex 支持 Windows 安全沙盒 |
| 05-13 | TanStack npm 供应链攻击响应 | macOS 用户须在 6/12 前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师用 Codex | 生产系统 + 研究实验落地 |
| 05-12 | AutoScout24 AI 工作流扩展 | Codex + ChatGPT 加速开发周期 |
| 05-11 | DeployCo 企业部署公司成立 | 帮助组织将前沿 AI 推入生产 |
| 05-11 | ChatGPT Q1 2026 采用增长 | 35 岁以上用户增长最快,性别使用更均衡 |
| 05-11 | 企业 AI 规模化指南 | 信任、治理、工作流设计 |
| 05-16 | Malta 全民 ChatGPT Plus |
Anthropic
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-23 | Claude Code v2.1.150 | 内部基础设施优化 |
| 05-22 | v2.1.149:/usage 分类明细 | skills / subagents / plugins / MCP 服务器成本分项展示 |
| 05-22 | v2.1.148:修复 Bash 127 回退 | 2.1.147 引入的回归 |
| 05-21 | v2.1.147:固定后台会话 | Ctrl+T 固定的会话空闲不销毁、内存压力下最后淘汰 |
| 05-21 | v2.1.146:/simplify → /code-review | 支持 effort level 参数 |
| 05-19 | 与学者/哲学家/神职人员的 AI 对话 | 探讨前沿 AI 伦理与品格形成 |
| 05-18 | 收购 Stainless | SDK / MCP 服务器平台,Anthropic API 基础设施 |
| 05-14 | 美中 AI 竞争立场论文 | 美国及民主盟友在前沿 AI 领先 |
| 05-14 | 盖茨基金会合作 · 2 亿美元 | 全球健康、生命科学、教育、农业 |
| 05-11 | Claude's Constitution 有声书 | Amanda Askell & Joe Carlsmith 朗读 |
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 | Sundar Pichai 访谈 |
| 05-20 | I/O 2026:100 项公告汇总 | |
| 05-19 | Gemini 3.5 发布 | "frontier intelligence with action" |
| 05-19 | AI Search 新时代 | AI Mode 美国用户行为洞察 |
| 05-19 | Workspace 更新 | AI 创建 + 协作新功能 |
| 05-19 | Google AI 订阅升级 | 功能更多、价格不变 |
| 05-19 | agentic Gemini 时代 | |
| 05-20 | Google Beam 群组会议实验 | |
| 05-20 | 密苏里州社区投资 | 下一代劳动力 + 能源 |
| 05-11 | AI 驱动 Google Finance 扩展至欧洲 |
xAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-21 | Grok 订阅接入 OpenCode | 使用 Grok Build 模型的高速 + 代码库智能 |
| 05-19 | Grok 订阅接入 OpenClaw | 图片/视频生成、X 帖子搜索 |
| 05-15 | Grok 订阅接入 NousResearch Hermes Agent | |
| 05-14 | Grok Build Beta 上线 | agentic CLI 编码/应用构建/工作流自动化,SuperGrok Heavy 限定 |
DeepSeek
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣永久化 | 原定 5/31 截止的折扣改为永久 |
Benchmark 快照
LM Arena(综合 · text_style_control)— 采集日 2026-05-19
本期无变动(数据与上期一致)。当前 Top 10:
| # | 模型 | ELO |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.0 |
| 2 | claude-opus-4-7-thinking | 1500.3 |
| 3 | claude-opus-4-6 | 1498.1 |
| 4 | claude-opus-4-7 | 1492.4 |
| 5 | muse-spark | 1489.5 |
| 6 | gemini-3.1-pro-preview | 1488.2 |
| 7 | gemini-3-pro | 1485.8 |
| 8 | gpt-5.5-high | 1481.3 |
| 9 | gemini-3.5-flash | 1480.0 |
| 10 | gpt-5.4-high | 1479.6 |
SWE-bench Verified — 采集日 2025-12-15(Top 10)
本期无变动。当前 Top 3:
| # | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
近期变化(排名/分数有显著变动的条目):
| 模型 | 排名变化 | 分数变化 | 方向 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 | 52.2 → 60.4 | ⬆ |
| Warp | #11 → #36 | 75.6 → 71.0 | ⬇ |
| devlo | #44 → #83/#94 | 70.2 → 58.2 / 54.2 | ⬇ |
| Nemotron-CORTEXA | #50 → #82 | 68.2 → 58.2 | ⬇ |
| EPAM AI/Run + GPT4o | #156 → #162 | 27.0 → 24.0 | ⬇ |
SWE-bench Pro Public — 采集日 2026-05-25
本期无变动。当前 Top 3:
| # | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
Terminal-bench 2.0 — 采集日 2026-05-15
来源:tbench.ai
当前 Top 3:
| # | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
近期变化:
| 模型 | 排名变化 | 分数变化 | 方向 |
|---|---|---|---|
| LemonHarness / Multiple | #10 → #4 | 79.9 → 84.5 | ⬆ |
| little-coder / Qwen3.6-35B-A3B | #122 → #117 | 23.0 → 24.6 | ⬆ |
| Warp / Multiple | #42 → #48/#66 | 61.2 → 59.1 / 50.1 | ⬇ |
一句话总结
本周 AI 行业焦点集中在编程智能体企业落地(OpenAI Codex × Gartner Leader / Dell / Databricks)、Google I/O 2026 全面更新(Gemini 3.5 + agentic 战略)、以及 Anthropic 基础设施收购与 Claude Code 快速迭代。Benchmark 方面 Claude Opus 系列继续主导 LM Arena,SWE-bench Pro Public 由 gpt-5.4(xHigh) 领跑,Terminal-bench 则由 Claude Opus 4.7 摘冠。