AI 日报 2026-05-28 08:38
2026-05-28 08:38 CST
核心速览
2026 年 5 月 20 日 — 5 月 27 日
【OpenAI】AI 模型推翻离散几何 80 年猜想 OpenAI 模型解决了持续 80 年的单位距离问题(unit distance problem),推翻了离散几何领域的一个核心猜想,标志着 AI 驱动数学研究的重要里程碑。 原文链接
【Google I/O 2026】发布 Gemini 3.5,进入 Agentic Gemini 时代 Google 在 I/O 2026 发布 Gemini 3.5 模型,定位为"前沿智能与行动力结合";同步推出 AI Mode 搜索、Workspace 更新及 Google AI 订阅升级,全面押注 Agent 化方向。 原文链接
【xAI】Grok Build Beta 向所有 SuperGrok/Premium+ 用户开放 xAI 推出 Grok Build Beta(agentic CLI),支持 Plan Mode、Imagine 图片/视频生成及工作流自动化;随后开放 grok-build-0.1 至 Kilo Code 等第三方 IDE,快速扩展开发者生态。 原文链接
【Anthropic】收购 SDK 平台 Stainless Anthropic 收购 Stainless(@stainlessapi),该平台自 Anthropic API 早期起即为所有 SDK 提供支持,收购将进一步强化其开发者工具链与 MCP 服务器生态。 原文链接
【OpenAI / 社区】GPT-5.5 发现 27 年前 RCE 漏洞 社区用户报告 GPT-5.5 发现了一个 1999 年 4 月引入的远程代码执行漏洞,已多次验证确认,准备负责任披露,展示模型在网络安全领域的深层能力。 原文链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103→76 ↑27 | 52.2→60.4 (+15.7%) | 30B 参数模型大幅提升,进入前 80 |
| Nemotron-CORTEXA | 50→82 ↓32 | 68.2→58.2 (-14.7%) | 大幅下滑,跌出前 50 |
| Warp | 11→36 ↓25 | 75.6→71.0 (-6.1%) | 从头部梯队显著回落 |
| devlo | 44→94 ↓50 | 70.2→54.2 (-22.8%) | 分数大幅下降,排名腰斩 |
Terminal-Bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness | 10→4 ↑6 | 79.9→84.5 (+5.8%) | 冲入前 5,进步显著 |
| Warp | 42→66 ↓24 | 61.2→50.1 (-18.1%) | 分数与排名双降,表现不佳 |
快速预览
- OpenAI 密集发布 Codex 生态合作:Cisco、Virgin Atlantic、Dell、Ramp、Sea 等多家企业落地 Codex,Gartner 将 OpenAI 评为 2026 企业 AI 编程代理领导者
- Google I/O 2026 余热未退:Gemini 3.5 发布,Sundar Pichai 定调"Agentic Gemini 时代";Gemini 3.5 Flash 在 Vending Bench 成本/智能 Pareto 前沿
- xAI Grok Build 进入公开 Beta:所有 SuperGrok / X Premium+ 用户可用,并已集成 Kilo Code、OpenCode、OpenClaw、Hermes Agent
- LM Arena 总榜 Top 3 均为 Claude Opus 系列(1501.98 / 1500.25 / 1498.06),SWE-Bench Pro Public 冠军为 gpt-5.4 (xHigh) 59.1 分
- Anthropic 收购 Stainless(SDK/MCP 平台)并发布 Agent 沙箱安全工程博客;Claude Code v2.1.152 推出
/code-review --fix
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 要点 | 来源 |
|---|---|---|---|
| 05-27 | Cisco × Codex 重塑企业工程 | Cisco 利用 Codex 实现 AI 原生开发、AI Defense、自动缺陷修复 | 链接 |
| 05-27 | 自改进税务代理 | OpenAI + Thrive + Crete 基于 Codex 构建自动报税代理,处理 7000+ 份申报表 | 链接 |
| 05-27 | Warp 使用 GPT-5.5 构建开源 | Warp 以 GPT-5.5 协调多环境编码代理 | 链接 |
| 05-27 | 2026 选举信息保障 | 信息发布、网络安全支持、AI 透明度提升 | 链接 |
| 05-25 | 巴西内容合作 | 与 Grupo Folha、Grupo UOL 合作,可信新闻引入 ChatGPT | 链接 |
| 05-22 | Virgin Atlantic × Codex | 移动端 App 改版实现近 100% 单元测试覆盖、零 P1 缺陷 | 链接 |
| 05-22 | Gartner 领导者 | OpenAI 入选 2026 Gartner 企业 AI 编程代理魔力象限领导者 | 链接 |
| 05-21 | AdventHealth 医疗应用 | ChatGPT for Healthcare 简化临床工作流,减少行政负担 | 链接 |
| 05-20 | Ramp × Codex 代码审查 | 使用 GPT-5.5 + Codex 代码审查,反馈从小时级降至分钟级 | 链接 |
| 05-20 | 数学里程碑 | OpenAI 模型推翻离散几何中 80 年之久的单位距离猜想 | 链接 |
| 05-20 | Education for Countries | 扩展全球学校 AI 采用,新合作伙伴与教师培训 | 链接 |
| 05-19 | OpenAI for Singapore | 多年 AI 合作伙伴关系,人才培养与公共服务部署 | 链接 |
| 05-19 | 内容溯源 | Content Credentials + SynthID + 验证工具推进 AI 媒体透明度 | 链接 |
| 05-18 | Dell × Codex 企业合作 | Codex 进入混合/本地部署企业环境 | 链接 |
| 05-16 | Malta 合作 | 全民 ChatGPT Plus 免费使用 | 链接 |
| 05-15 | ChatGPT 个人理财功能 | Pro 用户(美国)可关联金融账户获取 AI 理财洞察 | 链接 |
| 05-15 | Databricks × GPT-5.5 | GPT-5.5 登陆 Databricks 企业代理工作流,OfficeQA Pro 新 SOTA | 链接 |
| 05-14 | Sea Limited × Codex | Sea CPO 解读 Codex 在亚洲工程团队的全面部署 | 链接 |
| 05-14 | Codex 移动端 | ChatGPT 移动 App 支持 Codex 远程监控、引导与审批 | 链接 |
OpenAI Codex Changelog:
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-26 | CLI 0.134.0 | 本地对话历史搜索(大小写无关 + 预览) |
| 05-21 | App 26.519 | Appshots 功能上线(⌘+⌘ 发送前台窗口截图到 Codex)、Goal Mode |
| 05-21 | CLI 0.133.0 | Goals 默认启用,跨活跃轮次跟踪进度 |
| 05-20 | CLI 0.132.0 | Python SDK 一等公民认证支持(API Key / 浏览器 / 设备码流程) |
| 05-18 | CLI 0.131.0 | TUI 增强:服务层命令、混合 token 用量、权限审批模式、响应式 Markdown 表格 |
Anthropic(按日期倒序)
| 日期 | 要点 | 来源 |
|---|---|---|
| 05-27 | Claude Code v2.1.152:/code-review --fix 可将审查发现直接应用到工作树,/simplify 自动调用该功能 |
GitHub |
| 05-26 | 安全引导插件上线:Claude Code 用户可在 /plugins 市场安装,编码时识别并修复漏洞 |
X |
| 05-26 | 工程博客:Agent 权限应随能力演进,Anthropic 通过沙箱机制限制破坏性操作 | 博客 |
| 05-25 | Chris Olah 受邀在教皇 Leo XIV 通谕发布仪式演讲,讨论 AI 内部状态与审慎 | 链接 |
| 05-23 | Claude Code v2.1.150:内部基础设施改进(无用户可见变更) | GitHub |
| 05-22 | Claude Code v2.1.149:/usage 新增按类别用量明细(skills、subagents、plugins、MCP 服务) |
GitHub |
| 05-22 | Claude Code v2.1.148:修复 Bash 工具 exit code 127 回归 | GitHub |
| 05-21 | Claude Code v2.1.147:后台会话钉住(Ctrl+T)、空闲保活、内存压力优先卸载非钉住会话 |
GitHub |
| 05-19 | 与学者/哲学家/神职人员的 AI 对话系列,探讨品格形成问题 | 链接 |
| 05-18 | 收购 Stainless(SDK 和 MCP 服务器平台),Anthropic 所有 SDK 自 API 早期均由其驱动 | 链接 |
| 05-14 | 发表 AI 中美竞争论文:美国及民主盟友目前在前沿 AI 领先 | 链接 |
| 05-14 | 与盖茨基金会合作:承诺 2 亿美元用于全球健康、生命科学、教育、农业 | 链接 |
Google(按日期倒序)
| 日期 | 标题 | 要点 | 来源 |
|---|---|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 | Sundar Pichai 对话专场 | 链接 |
| 05-20 | 密苏里州社区投资 | 下一代劳动力建设与能源项目 | 链接 |
| 05-20 | I/O 2026 百项发布汇总 | 详见官方合集 | 链接 |
| 05-20 | Google Beam 小组会议 | 远程 3 人 + 本地 2 人混合会议实验 | 链接 |
| 05-19 | Gemini 3.5 发布 | 前沿智能 + 行动能力 | 链接 |
| 05-19 | Agentic Gemini 时代 | Pichai 主题演讲 | 链接 |
| 05-19 | AI Search 新时代 | AI Mode 美国用户洞察 | 链接 |
| 05-19 | Workspace 更新 | 新创作与生产力功能 | 链接 |
| 05-19 | AI 订阅更新 | 更多功能同价 | 链接 |
xAI(按日期倒序)
| 日期 | 要点 | 来源 |
|---|---|---|
| 05-27 | Grok 集成 Kilo Code:grok-build-0.1 模型上线 | 链接 |
| 05-26 | Grok Build Beta 缓存优化,重置所有用户用量限制 | 链接 |
| 05-25 | Grok Build 公开 Beta:所有 SuperGrok / X Premium+ 用户可用,含 Plan Mode、Imagine、CLI | 链接 |
| 05-21 | Grok 集成 OpenCode | 链接 |
| 05-19 | Grok 集成 OpenClaw | 链接 |
| 05-18 | 转发 NVIDIA Vera CPU 给 SpaceX 的消息 | 链接 |
| 05-15 | Grok 集成 NousResearch Hermes Agent | 链接 |
| 05-14 | Grok Build 早期 Beta(SuperGrok Heavy 专属) | 链接 |
DeepSeek
| 日期 | 要点 | 来源 |
|---|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣永久化,延期至 5/31 UTC | 链接 |
二、Benchmark 快照(截至数据采集时间)
说明:以下为各榜单当前 Top 3 模型快照,来源数据均截至各 benchmark 标注的采集时间。
SWE-Bench Verified(Top 3)
| 排名 | 模型 | 分数 | 采集时间 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
SWE-Bench Pro Public(Top 3)
| 排名 | 模型 | 分数 | 采集时间 |
|---|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 | 2026-05-28 |
| 2 | Muse Spark* | 55.0 | 2026-05-28 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 | 2026-05-28 |
Terminal-Bench 2.0(Top 3)
| 排名 | 模型 | 分数 | 采集时间 |
|---|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 | 2026-05-15 |
| 2 | JJAgent / Multiple | 87.1 | 2026-05-15 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 | 2026-05-14 |
LM Arena Overall(Top 3)
| 排名 | 模型 | 分数 | 采集时间 |
|---|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.98 | 2026-05-19 |
| 2 | claude-opus-4-7-thinking | 1500.25 | 2026-05-19 |
| 3 | claude-opus-4-6 | 1498.06 | 2026-05-19 |
三、榜单变化
SWE-Bench Verified 变化
| 模型 | 变化 | 前值 → 现值 | 排名变化 |
|---|---|---|---|
| Warp | 分数+排名 | 75.6 (#11) → 71.0 (#36) | 大幅下滑 25 位 |
| devlo | 分数+排名 | 70.2 (#44) → 58.2 (#83) / 54.2 (#94) | 严重下滑 |
| Nemotron-CORTEXA | 分数+排名 | 68.2 (#50) → 58.2 (#82) | 下滑 32 位 |
| EntroPO + R2E + Qwen3-Coder-30B | 分数+排名 | 52.2 (#103) → 60.4 (#76) | 上升 27 位 |
| EPAM + GPT4o | 分数+排名 | 27.0 (#156) → 24.0 (#162) | 下滑 6 位 |
| Solver (2024-09-12) | 分数+排名 | 45.4 (#120) → 43.6 (#126) | 下滑 6 位 |
Terminal-Bench 2.0 变化
| 模型 | 变化 | 前值 → 现值 | 排名变化 |
|---|---|---|---|
| LemonHarness / Multiple | 分数+排名 | 79.9 (#10) → 84.5 (#4) | 上升 6 位 |
| little-coder / Qwen3.6-35B-A3B | 分数+排名 | 23.0 (#122) → 24.6 (#117) | 上升 5 位 |
| Warp / Multiple | 分数+排名 | 61.2 (#42) → 59.1 (#48) / 50.1 (#66) | 下滑 |
LM Arena / SWE-Bench Pro Public
本期无变动。LM Arena 当前 Top 3 及 SWE-Bench Pro Public 当前 Top 3 见上方快照部分。