AI 日报 2026-05-28 08:38

2026-05-28 08:38 CST

核心速览

2026 年 5 月 20 日 — 5 月 27 日


【OpenAI】AI 模型推翻离散几何 80 年猜想 OpenAI 模型解决了持续 80 年的单位距离问题(unit distance problem),推翻了离散几何领域的一个核心猜想,标志着 AI 驱动数学研究的重要里程碑。 原文链接

【Google I/O 2026】发布 Gemini 3.5,进入 Agentic Gemini 时代 Google 在 I/O 2026 发布 Gemini 3.5 模型,定位为"前沿智能与行动力结合";同步推出 AI Mode 搜索、Workspace 更新及 Google AI 订阅升级,全面押注 Agent 化方向。 原文链接

【xAI】Grok Build Beta 向所有 SuperGrok/Premium+ 用户开放 xAI 推出 Grok Build Beta(agentic CLI),支持 Plan Mode、Imagine 图片/视频生成及工作流自动化;随后开放 grok-build-0.1 至 Kilo Code 等第三方 IDE,快速扩展开发者生态。 原文链接

【Anthropic】收购 SDK 平台 Stainless Anthropic 收购 Stainless(@stainlessapi),该平台自 Anthropic API 早期起即为所有 SDK 提供支持,收购将进一步强化其开发者工具链与 MCP 服务器生态。 原文链接

【OpenAI / 社区】GPT-5.5 发现 27 年前 RCE 漏洞 社区用户报告 GPT-5.5 发现了一个 1999 年 4 月引入的远程代码执行漏洞,已多次验证确认,准备负责任披露,展示模型在网络安全领域的深层能力。 原文链接


重大 Benchmark 变化

SWE-bench Verified

模型 排名变动 分数变动 说明
EntroPO + R2E + Qwen3-Coder-30B 103→76 ↑27 52.2→60.4 (+15.7%) 30B 参数模型大幅提升,进入前 80
Nemotron-CORTEXA 50→82 ↓32 68.2→58.2 (-14.7%) 大幅下滑,跌出前 50
Warp 11→36 ↓25 75.6→71.0 (-6.1%) 从头部梯队显著回落
devlo 44→94 ↓50 70.2→54.2 (-22.8%) 分数大幅下降,排名腰斩

Terminal-Bench 2.0

模型 排名变动 分数变动 说明
LemonHarness 10→4 ↑6 79.9→84.5 (+5.8%) 冲入前 5,进步显著
Warp 42→66 ↓24 61.2→50.1 (-18.1%) 分数与排名双降,表现不佳

快速预览

  • OpenAI 密集发布 Codex 生态合作:Cisco、Virgin Atlantic、Dell、Ramp、Sea 等多家企业落地 Codex,Gartner 将 OpenAI 评为 2026 企业 AI 编程代理领导者
  • Google I/O 2026 余热未退:Gemini 3.5 发布,Sundar Pichai 定调"Agentic Gemini 时代";Gemini 3.5 Flash 在 Vending Bench 成本/智能 Pareto 前沿
  • xAI Grok Build 进入公开 Beta:所有 SuperGrok / X Premium+ 用户可用,并已集成 Kilo Code、OpenCode、OpenClaw、Hermes Agent
  • LM Arena 总榜 Top 3 均为 Claude Opus 系列(1501.98 / 1500.25 / 1498.06),SWE-Bench Pro Public 冠军为 gpt-5.4 (xHigh) 59.1 分
  • Anthropic 收购 Stainless(SDK/MCP 平台)并发布 Agent 沙箱安全工程博客;Claude Code v2.1.152 推出 /code-review --fix

一、新闻动态

OpenAI(按日期倒序)

日期 标题 要点 来源
05-27 Cisco × Codex 重塑企业工程 Cisco 利用 Codex 实现 AI 原生开发、AI Defense、自动缺陷修复 链接
05-27 自改进税务代理 OpenAI + Thrive + Crete 基于 Codex 构建自动报税代理,处理 7000+ 份申报表 链接
05-27 Warp 使用 GPT-5.5 构建开源 Warp 以 GPT-5.5 协调多环境编码代理 链接
05-27 2026 选举信息保障 信息发布、网络安全支持、AI 透明度提升 链接
05-25 巴西内容合作 与 Grupo Folha、Grupo UOL 合作,可信新闻引入 ChatGPT 链接
05-22 Virgin Atlantic × Codex 移动端 App 改版实现近 100% 单元测试覆盖、零 P1 缺陷 链接
05-22 Gartner 领导者 OpenAI 入选 2026 Gartner 企业 AI 编程代理魔力象限领导者 链接
05-21 AdventHealth 医疗应用 ChatGPT for Healthcare 简化临床工作流,减少行政负担 链接
05-20 Ramp × Codex 代码审查 使用 GPT-5.5 + Codex 代码审查,反馈从小时级降至分钟级 链接
05-20 数学里程碑 OpenAI 模型推翻离散几何中 80 年之久的单位距离猜想 链接
05-20 Education for Countries 扩展全球学校 AI 采用,新合作伙伴与教师培训 链接
05-19 OpenAI for Singapore 多年 AI 合作伙伴关系,人才培养与公共服务部署 链接
05-19 内容溯源 Content Credentials + SynthID + 验证工具推进 AI 媒体透明度 链接
05-18 Dell × Codex 企业合作 Codex 进入混合/本地部署企业环境 链接
05-16 Malta 合作 全民 ChatGPT Plus 免费使用 链接
05-15 ChatGPT 个人理财功能 Pro 用户(美国)可关联金融账户获取 AI 理财洞察 链接
05-15 Databricks × GPT-5.5 GPT-5.5 登陆 Databricks 企业代理工作流,OfficeQA Pro 新 SOTA 链接
05-14 Sea Limited × Codex Sea CPO 解读 Codex 在亚洲工程团队的全面部署 链接
05-14 Codex 移动端 ChatGPT 移动 App 支持 Codex 远程监控、引导与审批 链接

OpenAI Codex Changelog:

日期 版本 要点
05-26 CLI 0.134.0 本地对话历史搜索(大小写无关 + 预览)
05-21 App 26.519 Appshots 功能上线(⌘+⌘ 发送前台窗口截图到 Codex)、Goal Mode
05-21 CLI 0.133.0 Goals 默认启用,跨活跃轮次跟踪进度
05-20 CLI 0.132.0 Python SDK 一等公民认证支持(API Key / 浏览器 / 设备码流程)
05-18 CLI 0.131.0 TUI 增强:服务层命令、混合 token 用量、权限审批模式、响应式 Markdown 表格

Anthropic(按日期倒序)

日期 要点 来源
05-27 Claude Code v2.1.152/code-review --fix 可将审查发现直接应用到工作树,/simplify 自动调用该功能 GitHub
05-26 安全引导插件上线:Claude Code 用户可在 /plugins 市场安装,编码时识别并修复漏洞 X
05-26 工程博客:Agent 权限应随能力演进,Anthropic 通过沙箱机制限制破坏性操作 博客
05-25 Chris Olah 受邀在教皇 Leo XIV 通谕发布仪式演讲,讨论 AI 内部状态与审慎 链接
05-23 Claude Code v2.1.150:内部基础设施改进(无用户可见变更) GitHub
05-22 Claude Code v2.1.149:/usage 新增按类别用量明细(skills、subagents、plugins、MCP 服务) GitHub
05-22 Claude Code v2.1.148:修复 Bash 工具 exit code 127 回归 GitHub
05-21 Claude Code v2.1.147:后台会话钉住(Ctrl+T)、空闲保活、内存压力优先卸载非钉住会话 GitHub
05-19 与学者/哲学家/神职人员的 AI 对话系列,探讨品格形成问题 链接
05-18 收购 Stainless(SDK 和 MCP 服务器平台),Anthropic 所有 SDK 自 API 早期均由其驱动 链接
05-14 发表 AI 中美竞争论文:美国及民主盟友目前在前沿 AI 领先 链接
05-14 与盖茨基金会合作:承诺 2 亿美元用于全球健康、生命科学、教育、农业 链接

Google(按日期倒序)

日期 标题 要点 来源
05-22 I/O 2026 Dialogues 回顾 Sundar Pichai 对话专场 链接
05-20 密苏里州社区投资 下一代劳动力建设与能源项目 链接
05-20 I/O 2026 百项发布汇总 详见官方合集 链接
05-20 Google Beam 小组会议 远程 3 人 + 本地 2 人混合会议实验 链接
05-19 Gemini 3.5 发布 前沿智能 + 行动能力 链接
05-19 Agentic Gemini 时代 Pichai 主题演讲 链接
05-19 AI Search 新时代 AI Mode 美国用户洞察 链接
05-19 Workspace 更新 新创作与生产力功能 链接
05-19 AI 订阅更新 更多功能同价 链接

xAI(按日期倒序)

日期 要点 来源
05-27 Grok 集成 Kilo Code:grok-build-0.1 模型上线 链接
05-26 Grok Build Beta 缓存优化,重置所有用户用量限制 链接
05-25 Grok Build 公开 Beta:所有 SuperGrok / X Premium+ 用户可用,含 Plan Mode、Imagine、CLI 链接
05-21 Grok 集成 OpenCode 链接
05-19 Grok 集成 OpenClaw 链接
05-18 转发 NVIDIA Vera CPU 给 SpaceX 的消息 链接
05-15 Grok 集成 NousResearch Hermes Agent 链接
05-14 Grok Build 早期 Beta(SuperGrok Heavy 专属) 链接

DeepSeek

日期 要点 来源
05-22 DeepSeek-V4-Pro 折扣永久化,延期至 5/31 UTC 链接

二、Benchmark 快照(截至数据采集时间)

说明:以下为各榜单当前 Top 3 模型快照,来源数据均截至各 benchmark 标注的采集时间。

SWE-Bench Verified(Top 3)

排名 模型 分数 采集时间
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28

来源

SWE-Bench Pro Public(Top 3)

排名 模型 分数 采集时间
1 gpt-5.4 (xHigh)* 59.1 2026-05-28
2 Muse Spark* 55.0 2026-05-28
3 claude-opus-4-6 (thinking)* 51.9 2026-05-28

来源

Terminal-Bench 2.0(Top 3)

排名 模型 分数 采集时间
1 vix / Claude Opus 4.7 90.2 2026-05-15
2 JJAgent / Multiple 87.1 2026-05-15
3 NexAU-AHE / GPT-5.5 84.7 2026-05-14

来源

LM Arena Overall(Top 3)

排名 模型 分数 采集时间
1 claude-opus-4-6-thinking 1501.98 2026-05-19
2 claude-opus-4-7-thinking 1500.25 2026-05-19
3 claude-opus-4-6 1498.06 2026-05-19

来源


三、榜单变化

SWE-Bench Verified 变化

模型 变化 前值 → 现值 排名变化
Warp 分数+排名 75.6 (#11) → 71.0 (#36) 大幅下滑 25 位
devlo 分数+排名 70.2 (#44) → 58.2 (#83) / 54.2 (#94) 严重下滑
Nemotron-CORTEXA 分数+排名 68.2 (#50) → 58.2 (#82) 下滑 32 位
EntroPO + R2E + Qwen3-Coder-30B 分数+排名 52.2 (#103) → 60.4 (#76) 上升 27 位
EPAM + GPT4o 分数+排名 27.0 (#156) → 24.0 (#162) 下滑 6 位
Solver (2024-09-12) 分数+排名 45.4 (#120) → 43.6 (#126) 下滑 6 位

Terminal-Bench 2.0 变化

模型 变化 前值 → 现值 排名变化
LemonHarness / Multiple 分数+排名 79.9 (#10) → 84.5 (#4) 上升 6 位
little-coder / Qwen3.6-35B-A3B 分数+排名 23.0 (#122) → 24.6 (#117) 上升 5 位
Warp / Multiple 分数+排名 61.2 (#42) → 59.1 (#48) / 50.1 (#66) 下滑

LM Arena / SWE-Bench Pro Public

本期无变动。LM Arena 当前 Top 3 及 SWE-Bench Pro Public 当前 Top 3 见上方快照部分。

Sources