AI 日报 2026-05-27 08:36

2026-05-27 08:36 CST

核心速览

【OpenAI】模型证明离散几何核心猜想被推翻 OpenAI 模型解决了 80 年历史的单位距离问题,推翻了离散几何领域的一个重大猜想,标志着 AI 在数学研究领域的里程碑式突破。这是 AI 驱动数学发现的重要进展。 原文链接

【Google】Gemini 3.5 发布,开启"Agentic Gemini"时代 Google I/O 2026 发布 Gemini 3.5,定位为"前沿智能与行动能力结合"。Gemini 3.5 Flash 在多个视觉任务上超越 3.1 Pro,速度快约 6 倍,在 Vending Bench 成本效益指标上处于 Pareto 前沿。 原文链接

【Google DeepMind】AlphaProof Nexus 解决 9 个开放 Erdős 问题 Google DeepMind 发布 AlphaProof Nexus,基于 Gemini 的形式化证明搜索框架,自主解决了 9 个开放的 Erdős 问题(其中 2 个开放 56 年)、44 个 OEIS 问题,以及代数几何和博弈论中的长期开放问题。 原文链接

【Anthropic】收购 SDK 平台 Stainless,深化基础设施布局 Anthropic 宣布收购 Stainless,该平台自 Anthropic API 早期即为所有 SDK 提供支持,并运营 MCP 服务器平台。此次收购将加强 Anthropic 开发者工具链和 API 基础设施能力。 原文链接

【xAI】Grok Build 公测上线,进入 Agentic Coding 赛道 xAI 发布 Grok Build Beta,面向 SuperGrok 和 X Premium+ 用户开放,支持 Plan Mode、Imagine 图片/视频生成及 CLI 自动化构建。该工具已集成至 OpenCode 和 OpenClaw 等第三方平台。 原文链接


重大 Benchmark 变化

SWE-bench Verified:

模型 排名变动 分数变动 备注
devlo 44→94 70.2→54.2 排名下降50位,分数暴跌16分
Nemotron-CORTEXA 50→82 68.2→58.2 排名下降32位,分数跌14.7%
Warp 11→36 75.6→71.0 排名下降25位
EntroPO + R2E + Qwen3-Coder-30B 103→76 52.2→60.4 排名上升27位,分数提升15.7%

Terminal Bench 2.0:

模型 排名变动 分数变动 备注
LemonHarness / Multiple 10→4 79.9→84.5 冲入前4,分数提升5.8%
Warp / Multiple 42→66 61.2→50.1 排名下降24位,分数跌幅显著

快速预览

  • OpenAI 模型证明离散几何猜想:80年历史的单位距离问题被 AI 模型解决,数学里程碑 (来源)
  • Google I/O 2026 发布 Gemini 3.5:前沿智能与行动能力结合,标志 agentic Gemini 时代开启 (来源)
  • LM Arena 总榜 Top 3:Claude Opus 4.6 Thinking (1501.98) > Claude Opus 4.7 Thinking (1500.25) > Claude Opus 4.6 (1498.06)
  • SWE-bench Verified Top 3 无变动:live-SWE-agent + Claude 4.5 Opus (79.2) 并列第一;Warp 排名暴跌 11→36
  • Anthropic 收购 Stainless,Grok Build Beta 向全量用户开放,DeepSeek-V4-Pro 优惠转永久

一、新闻(按厂商倒序)

OpenAI

日期 标题 要点
05-25 与 Grupo Folha/UOL 内容合作 ChatGPT 接入巴西可信新闻源,带归属和透明度
05-22 Virgin Atlantic 用 Codex 加速交付 近 100% 单测覆盖、零 P1 缺陷
05-22 Gartner 评为企业编码 Agent 领导者 Codex 获 Gartner 2026 Magic Quadrant 认可
05-21 AdventHealth 医疗场景落地 ChatGPT for Healthcare 精简行政流程
05-20 AI 模型推翻离散几何猜想 解决 80 年单位距离问题,AI 数学重大突破
05-20 Ramp 用 Codex 加速 Code Review GPT-5.5 驱动,分钟级反馈替代数小时
05-20 Education for Countries 新阶段 AI 教育全球扩展
05-19 OpenAI for Singapore 多年 AI 伙伴关系,本地人才培养
05-19 内容溯源技术升级 Content Credentials + SynthID 验证工具
05-18 与 Dell 合作 Codex 混合部署 企业本地/混合环境部署 AI 编码 Agent
05-16 Malta 全民 ChatGPT Plus 全国公民获 ChatGPT Plus 和培训
05-15 ChatGPT 个人理财功能预览 Pro 用户(美国)可连接金融账户获取 AI 理财建议
05-15 Databricks 集成 GPT-5.5 GPT-5.5 在 OfficeQA Pro 刷新 SOTA
05-14 Sea Limited 全面部署 Codex CPO 解释亚洲 AI 原生开发战略
05-14 Codex 移动端上线 ChatGPT 移动 App 监控和审批编码任务
05-14 敏感对话安全改进 提升上下文感知能力
05-13 Codex Windows 沙箱 受控文件访问和网络限制

Codex Changelog:

日期 版本 要点
05-26 CLI 0.134.0 本地会话历史搜索
05-21 App 26.519 Appshots(⌘+⌘ 发送当前窗口截图)、Goal Mode
05-21 CLI 0.133.0 Goals 默认启用
05-20 CLI 0.132.0 Python SDK 一等认证支持
05-18 CLI 0.131.0 TUI 丰富会话控制、混合 token 用量显示

Anthropic

日期 来源 要点
05-26 工程博客:Agent 沙箱安全 权限应随 Agent 能力演进
05-25 Chris Olah 出席教宗通谕发布 AI 内省与情感状态研究引发哲学讨论
05-19 前沿 AI 伦理对话 与学者、神职人员探讨 AI 伦理
05-18 收购 Stainless SDK 和 MCP 服务器平台纳入 Anthropic
05-14 美中 AI 竞争白皮书 美国及盟国当前领先,需持续投入
05-14 与盖茨基金会合作 2 亿美元拨款+Claude 额度支持健康/教育/农业

Claude Code Releases:

日期 版本 要点
05-23 v2.1.150 内部基础设施改进
05-22 v2.1.149 /usage 分类用量明细
05-22 v2.1.148 修复 Bash 工具 exit code 127 回退
05-21 v2.1.147 后台会话 Pin 支持、内存压力下优先级
05-21 v2.1.146 /simplify 更名为 /code-review,支持 effort level

社区动态: Boris Cherny 推荐 auto mode 作为 Claude Code 最佳实践,支持 Sonnet 4.6 + Opus 4.7 并行多会话。


Google

日期 标题 要点
05-22 I/O 2026 Dialogues 回顾 Sundar Pichai 对话
05-20 密苏里州社区投资 下一代劳动力和能源项目
05-20 I/O 2026 百项公告汇总 全面回顾
05-19 Gemini 3.5 发布 前沿智能 + 行动能力
05-19 AI Search 新时代 搜索引擎 + AI 最佳结合
05-19 AI Mode 使用洞察 美国用户 AI 搜索行为数据
05-19 Workspace 更新 AI 驱动创建和协作新方式
05-19 Google AI 订阅更新 更多功能,同价

社区: Logan Kilpatrick 称 Gemini 3.5 Flash 在 Vending Bench 成本效率帕累托前沿;视觉任务性能超 3.1 Pro 且快 ~6x。DeepMind AlphaProof Nexus 自主解决 9 个 Erdős 开放问题。


xAI

日期 要点
05-26 Grok Build Beta 用量重置 — 改进缓存后全员重置
05-25 Grok Build Beta 全量开放 — SuperGrok/Premium+ 用户可用
05-21 Grok 接入 OpenCode — 可在 OpenCode 中使用 Grok 订阅
05-19 Grok 接入 OpenClaw
05-15 Grok 接入 NousResearch Hermes Agent
05-14 Grok Build 早期 Beta — agentic CLI for coding/automation

DeepSeek

日期 要点
05-22 DeepSeek-V4-Pro 折扣转永久

二、Benchmark 快照与变化

LM Arena (Overall) — 本期无变动

排名 模型 分数
1 claude-opus-4-6-thinking 1501.98
2 claude-opus-4-7-thinking 1500.25
3 claude-opus-4-6 1498.06
4 claude-opus-4-7 1492.39
5 muse-spark 1489.49

Top 4 全部为 Anthropic Claude Opus 系列。来源:LM Arena Leaderboard


SWE-bench Verified — 有变化

当前 Top 3(无变动):

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

显著变化:

模型 排名变化 分数变化 备注
Warp 11 → 36 75.6 → 71.0 大幅下跌
devlo 44 → 83/94 70.2 → 58.2/54.2 多次降分
Nemotron-CORTEXA 50 → 82 68.2 → 58.2 NVIDIA 相关模型回落
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 52.2 → 60.4 上升
Solver (2024-09-12) 120 → 126 45.4 → 43.6 小幅下降
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0 小幅下降

来源:SWE-bench Verified


SWE-bench Pro Public — 本期无变动

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

来源:Scale AI Leaderboard


Terminal Bench 2.0 — 有变化

当前 Top 3(无变动):

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

显著变化:

模型 排名变化 分数变化 备注
LemonHarness / Multiple 10 → 4 79.9 → 84.5 大幅上升
Warp / Multiple 42 → 48/66 61.2 → 59.1/50.1 下降
little-coder / Qwen3.6-35B-A3B 122 → 117 23.0 → 24.6 小幅上升

来源:Terminal Bench


三、来源状态

所有采集源均正常,无失败记录。

Sources