AI 日报 2026-05-28 08:38

核心速览

2026 年 5 月 20 日 — 5 月 27 日

【OpenAI】AI 模型推翻离散几何 80 年猜想 OpenAI 模型解决了持续 80 年的单位距离问题（unit distance problem），推翻了离散几何领域的一个核心猜想，标志着 AI 驱动数学研究的重要里程碑。原文链接

【Google I/O 2026】发布 Gemini 3.5，进入 Agentic Gemini 时代 Google 在 I/O 2026 发布 Gemini 3.5 模型，定位为"前沿智能与行动力结合"；同步推出 AI Mode 搜索、Workspace 更新及 Google AI 订阅升级，全面押注 Agent 化方向。原文链接

【xAI】Grok Build Beta 向所有 SuperGrok/Premium+ 用户开放 xAI 推出 Grok Build Beta（agentic CLI），支持 Plan Mode、Imagine 图片/视频生成及工作流自动化；随后开放 grok-build-0.1 至 Kilo Code 等第三方 IDE，快速扩展开发者生态。原文链接

【Anthropic】收购 SDK 平台 Stainless Anthropic 收购 Stainless（@stainlessapi），该平台自 Anthropic API 早期起即为所有 SDK 提供支持，收购将进一步强化其开发者工具链与 MCP 服务器生态。原文链接

【OpenAI / 社区】GPT-5.5 发现 27 年前 RCE 漏洞 社区用户报告 GPT-5.5 发现了一个 1999 年 4 月引入的远程代码执行漏洞，已多次验证确认，准备负责任披露，展示模型在网络安全领域的深层能力。原文链接

重大 Benchmark 变化

SWE-bench Verified

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B	103→76 ↑27	52.2→60.4 (+15.7%)	30B 参数模型大幅提升，进入前 80
Nemotron-CORTEXA	50→82 ↓32	68.2→58.2 (-14.7%)	大幅下滑，跌出前 50
Warp	11→36 ↓25	75.6→71.0 (-6.1%)	从头部梯队显著回落
devlo	44→94 ↓50	70.2→54.2 (-22.8%)	分数大幅下降，排名腰斩

Terminal-Bench 2.0

模型	排名变动	分数变动	说明
LemonHarness	10→4 ↑6	79.9→84.5 (+5.8%)	冲入前 5，进步显著
Warp	42→66 ↓24	61.2→50.1 (-18.1%)	分数与排名双降，表现不佳

快速预览

OpenAI 密集发布 Codex 生态合作：Cisco、Virgin Atlantic、Dell、Ramp、Sea 等多家企业落地 Codex，Gartner 将 OpenAI 评为 2026 企业 AI 编程代理领导者
Google I/O 2026 余热未退：Gemini 3.5 发布，Sundar Pichai 定调"Agentic Gemini 时代"；Gemini 3.5 Flash 在 Vending Bench 成本/智能 Pareto 前沿
xAI Grok Build 进入公开 Beta：所有 SuperGrok / X Premium+ 用户可用，并已集成 Kilo Code、OpenCode、OpenClaw、Hermes Agent
LM Arena 总榜 Top 3 均为 Claude Opus 系列（1501.98 / 1500.25 / 1498.06），SWE-Bench Pro Public 冠军为 gpt-5.4 (xHigh) 59.1 分
Anthropic 收购 Stainless（SDK/MCP 平台）并发布 Agent 沙箱安全工程博客；Claude Code v2.1.152 推出 /code-review --fix

一、新闻动态

OpenAI（按日期倒序）

日期	标题	要点	来源
05-27	Cisco × Codex 重塑企业工程	Cisco 利用 Codex 实现 AI 原生开发、AI Defense、自动缺陷修复	链接
05-27	自改进税务代理	OpenAI + Thrive + Crete 基于 Codex 构建自动报税代理，处理 7000+ 份申报表	链接
05-27	Warp 使用 GPT-5.5 构建开源	Warp 以 GPT-5.5 协调多环境编码代理	链接
05-27	2026 选举信息保障	信息发布、网络安全支持、AI 透明度提升	链接
05-25	巴西内容合作	与 Grupo Folha、Grupo UOL 合作，可信新闻引入 ChatGPT	链接
05-22	Virgin Atlantic × Codex	移动端 App 改版实现近 100% 单元测试覆盖、零 P1 缺陷	链接
05-22	Gartner 领导者	OpenAI 入选 2026 Gartner 企业 AI 编程代理魔力象限领导者	链接
05-21	AdventHealth 医疗应用	ChatGPT for Healthcare 简化临床工作流，减少行政负担	链接
05-20	Ramp × Codex 代码审查	使用 GPT-5.5 + Codex 代码审查，反馈从小时级降至分钟级	链接
05-20	数学里程碑	OpenAI 模型推翻离散几何中 80 年之久的单位距离猜想	链接
05-20	Education for Countries	扩展全球学校 AI 采用，新合作伙伴与教师培训	链接
05-19	OpenAI for Singapore	多年 AI 合作伙伴关系，人才培养与公共服务部署	链接
05-19	内容溯源	Content Credentials + SynthID + 验证工具推进 AI 媒体透明度	链接
05-18	Dell × Codex 企业合作	Codex 进入混合/本地部署企业环境	链接
05-16	Malta 合作	全民 ChatGPT Plus 免费使用	链接
05-15	ChatGPT 个人理财功能	Pro 用户（美国）可关联金融账户获取 AI 理财洞察	链接
05-15	Databricks × GPT-5.5	GPT-5.5 登陆 Databricks 企业代理工作流，OfficeQA Pro 新 SOTA	链接
05-14	Sea Limited × Codex	Sea CPO 解读 Codex 在亚洲工程团队的全面部署	链接
05-14	Codex 移动端	ChatGPT 移动 App 支持 Codex 远程监控、引导与审批	链接

OpenAI Codex Changelog：

日期	版本	要点
05-26	CLI 0.134.0	本地对话历史搜索（大小写无关 + 预览）
05-21	App 26.519	Appshots 功能上线（⌘+⌘ 发送前台窗口截图到 Codex）、Goal Mode
05-21	CLI 0.133.0	Goals 默认启用，跨活跃轮次跟踪进度
05-20	CLI 0.132.0	Python SDK 一等公民认证支持（API Key / 浏览器 / 设备码流程）
05-18	CLI 0.131.0	TUI 增强：服务层命令、混合 token 用量、权限审批模式、响应式 Markdown 表格

Anthropic（按日期倒序）

日期	要点	来源
05-27	Claude Code v2.1.152：`/code-review --fix` 可将审查发现直接应用到工作树，`/simplify` 自动调用该功能	GitHub
05-26	安全引导插件上线：Claude Code 用户可在 `/plugins` 市场安装，编码时识别并修复漏洞	X
05-26	工程博客：Agent 权限应随能力演进，Anthropic 通过沙箱机制限制破坏性操作	博客
05-25	Chris Olah 受邀在教皇 Leo XIV 通谕发布仪式演讲，讨论 AI 内部状态与审慎	链接
05-23	Claude Code v2.1.150：内部基础设施改进（无用户可见变更）	GitHub
05-22	Claude Code v2.1.149：`/usage` 新增按类别用量明细（skills、subagents、plugins、MCP 服务）	GitHub
05-22	Claude Code v2.1.148：修复 Bash 工具 exit code 127 回归	GitHub
05-21	Claude Code v2.1.147：后台会话钉住（`Ctrl+T`）、空闲保活、内存压力优先卸载非钉住会话	GitHub
05-19	与学者/哲学家/神职人员的 AI 对话系列，探讨品格形成问题	链接
05-18	收购 Stainless（SDK 和 MCP 服务器平台），Anthropic 所有 SDK 自 API 早期均由其驱动	链接
05-14	发表 AI 中美竞争论文：美国及民主盟友目前在前沿 AI 领先	链接
05-14	与盖茨基金会合作：承诺 2 亿美元用于全球健康、生命科学、教育、农业	链接

Google（按日期倒序）

日期	标题	要点	来源
05-22	I/O 2026 Dialogues 回顾	Sundar Pichai 对话专场	链接
05-20	密苏里州社区投资	下一代劳动力建设与能源项目	链接
05-20	I/O 2026 百项发布汇总	详见官方合集	链接
05-20	Google Beam 小组会议	远程 3 人 + 本地 2 人混合会议实验	链接
05-19	Gemini 3.5 发布	前沿智能 + 行动能力	链接
05-19	Agentic Gemini 时代	Pichai 主题演讲	链接
05-19	AI Search 新时代	AI Mode 美国用户洞察	链接
05-19	Workspace 更新	新创作与生产力功能	链接
05-19	AI 订阅更新	更多功能同价	链接

xAI（按日期倒序）

日期	要点	来源
05-27	Grok 集成 Kilo Code：grok-build-0.1 模型上线	链接
05-26	Grok Build Beta 缓存优化，重置所有用户用量限制	链接
05-25	Grok Build 公开 Beta：所有 SuperGrok / X Premium+ 用户可用，含 Plan Mode、Imagine、CLI	链接
05-21	Grok 集成 OpenCode	链接
05-19	Grok 集成 OpenClaw	链接
05-18	转发 NVIDIA Vera CPU 给 SpaceX 的消息	链接
05-15	Grok 集成 NousResearch Hermes Agent	链接
05-14	Grok Build 早期 Beta（SuperGrok Heavy 专属）	链接

DeepSeek

日期	要点	来源
05-22	DeepSeek-V4-Pro 折扣永久化，延期至 5/31 UTC	链接

二、Benchmark 快照（截至数据采集时间）

说明：以下为各榜单当前 Top 3 模型快照，来源数据均截至各 benchmark 标注的采集时间。

SWE-Bench Verified（Top 3）

排名	模型	分数	采集时间
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28

来源

SWE-Bench Pro Public（Top 3）

排名	模型	分数	采集时间
1	gpt-5.4 (xHigh)*	59.1	2026-05-28
2	Muse Spark*	55.0	2026-05-28
3	claude-opus-4-6 (thinking)*	51.9	2026-05-28

来源

Terminal-Bench 2.0（Top 3）

排名	模型	分数	采集时间
1	vix / Claude Opus 4.7	90.2	2026-05-15
2	JJAgent / Multiple	87.1	2026-05-15
3	NexAU-AHE / GPT-5.5	84.7	2026-05-14

来源

LM Arena Overall（Top 3）

排名	模型	分数	采集时间
1	claude-opus-4-6-thinking	1501.98	2026-05-19
2	claude-opus-4-7-thinking	1500.25	2026-05-19
3	claude-opus-4-6	1498.06	2026-05-19

来源

三、榜单变化

SWE-Bench Verified 变化

模型	变化	前值 → 现值	排名变化
Warp	分数+排名	75.6 (#11) → 71.0 (#36)	大幅下滑 25 位
devlo	分数+排名	70.2 (#44) → 58.2 (#83) / 54.2 (#94)	严重下滑
Nemotron-CORTEXA	分数+排名	68.2 (#50) → 58.2 (#82)	下滑 32 位
EntroPO + R2E + Qwen3-Coder-30B	分数+排名	52.2 (#103) → 60.4 (#76)	上升 27 位
EPAM + GPT4o	分数+排名	27.0 (#156) → 24.0 (#162)	下滑 6 位
Solver (2024-09-12)	分数+排名	45.4 (#120) → 43.6 (#126)	下滑 6 位

Terminal-Bench 2.0 变化

模型	变化	前值 → 现值	排名变化
LemonHarness / Multiple	分数+排名	79.9 (#10) → 84.5 (#4)	上升 6 位
little-coder / Qwen3.6-35B-A3B	分数+排名	23.0 (#122) → 24.6 (#117)	上升 5 位
Warp / Multiple	分数+排名	61.2 (#42) → 59.1 (#48) / 50.1 (#66)	下滑

LM Arena / SWE-Bench Pro Public

本期无变动。LM Arena 当前 Top 3 及 SWE-Bench Pro Public 当前 Top 3 见上方快照部分。

来源 · 79 条

openai.com ×22 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×6 blog.google ×11 @xai ×8 @deepseek_ai @thsottiaux ×3 @nickaturley ×3 @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3