AI 日报 2026-05-27 08:36
2026-05-27 08:36 CST
核心速览
【OpenAI】模型证明离散几何核心猜想被推翻 OpenAI 模型解决了 80 年历史的单位距离问题,推翻了离散几何领域的一个重大猜想,标志着 AI 在数学研究领域的里程碑式突破。这是 AI 驱动数学发现的重要进展。 原文链接
【Google】Gemini 3.5 发布,开启"Agentic Gemini"时代 Google I/O 2026 发布 Gemini 3.5,定位为"前沿智能与行动能力结合"。Gemini 3.5 Flash 在多个视觉任务上超越 3.1 Pro,速度快约 6 倍,在 Vending Bench 成本效益指标上处于 Pareto 前沿。 原文链接
【Google DeepMind】AlphaProof Nexus 解决 9 个开放 Erdős 问题 Google DeepMind 发布 AlphaProof Nexus,基于 Gemini 的形式化证明搜索框架,自主解决了 9 个开放的 Erdős 问题(其中 2 个开放 56 年)、44 个 OEIS 问题,以及代数几何和博弈论中的长期开放问题。 原文链接
【Anthropic】收购 SDK 平台 Stainless,深化基础设施布局 Anthropic 宣布收购 Stainless,该平台自 Anthropic API 早期即为所有 SDK 提供支持,并运营 MCP 服务器平台。此次收购将加强 Anthropic 开发者工具链和 API 基础设施能力。 原文链接
【xAI】Grok Build 公测上线,进入 Agentic Coding 赛道 xAI 发布 Grok Build Beta,面向 SuperGrok 和 X Premium+ 用户开放,支持 Plan Mode、Imagine 图片/视频生成及 CLI 自动化构建。该工具已集成至 OpenCode 和 OpenClaw 等第三方平台。 原文链接
重大 Benchmark 变化
SWE-bench Verified:
| 模型 | 排名变动 | 分数变动 | 备注 |
|---|---|---|---|
| devlo | 44→94 | 70.2→54.2 | 排名下降50位,分数暴跌16分 |
| Nemotron-CORTEXA | 50→82 | 68.2→58.2 | 排名下降32位,分数跌14.7% |
| Warp | 11→36 | 75.6→71.0 | 排名下降25位 |
| EntroPO + R2E + Qwen3-Coder-30B | 103→76 | 52.2→60.4 | 排名上升27位,分数提升15.7% |
Terminal Bench 2.0:
| 模型 | 排名变动 | 分数变动 | 备注 |
|---|---|---|---|
| LemonHarness / Multiple | 10→4 | 79.9→84.5 | 冲入前4,分数提升5.8% |
| Warp / Multiple | 42→66 | 61.2→50.1 | 排名下降24位,分数跌幅显著 |
快速预览
- OpenAI 模型证明离散几何猜想:80年历史的单位距离问题被 AI 模型解决,数学里程碑 (来源)
- Google I/O 2026 发布 Gemini 3.5:前沿智能与行动能力结合,标志 agentic Gemini 时代开启 (来源)
- LM Arena 总榜 Top 3:Claude Opus 4.6 Thinking (1501.98) > Claude Opus 4.7 Thinking (1500.25) > Claude Opus 4.6 (1498.06)
- SWE-bench Verified Top 3 无变动:live-SWE-agent + Claude 4.5 Opus (79.2) 并列第一;Warp 排名暴跌 11→36
- Anthropic 收购 Stainless,Grok Build Beta 向全量用户开放,DeepSeek-V4-Pro 优惠转永久
一、新闻(按厂商倒序)
OpenAI
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-25 | 与 Grupo Folha/UOL 内容合作 | ChatGPT 接入巴西可信新闻源,带归属和透明度 |
| 05-22 | Virgin Atlantic 用 Codex 加速交付 | 近 100% 单测覆盖、零 P1 缺陷 |
| 05-22 | Gartner 评为企业编码 Agent 领导者 | Codex 获 Gartner 2026 Magic Quadrant 认可 |
| 05-21 | AdventHealth 医疗场景落地 | ChatGPT for Healthcare 精简行政流程 |
| 05-20 | AI 模型推翻离散几何猜想 | 解决 80 年单位距离问题,AI 数学重大突破 |
| 05-20 | Ramp 用 Codex 加速 Code Review | GPT-5.5 驱动,分钟级反馈替代数小时 |
| 05-20 | Education for Countries 新阶段 | AI 教育全球扩展 |
| 05-19 | OpenAI for Singapore | 多年 AI 伙伴关系,本地人才培养 |
| 05-19 | 内容溯源技术升级 | Content Credentials + SynthID 验证工具 |
| 05-18 | 与 Dell 合作 Codex 混合部署 | 企业本地/混合环境部署 AI 编码 Agent |
| 05-16 | Malta 全民 ChatGPT Plus | 全国公民获 ChatGPT Plus 和培训 |
| 05-15 | ChatGPT 个人理财功能预览 | Pro 用户(美国)可连接金融账户获取 AI 理财建议 |
| 05-15 | Databricks 集成 GPT-5.5 | GPT-5.5 在 OfficeQA Pro 刷新 SOTA |
| 05-14 | Sea Limited 全面部署 Codex | CPO 解释亚洲 AI 原生开发战略 |
| 05-14 | Codex 移动端上线 | ChatGPT 移动 App 监控和审批编码任务 |
| 05-14 | 敏感对话安全改进 | 提升上下文感知能力 |
| 05-13 | Codex Windows 沙箱 | 受控文件访问和网络限制 |
Codex Changelog:
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-26 | CLI 0.134.0 | 本地会话历史搜索 |
| 05-21 | App 26.519 | Appshots(⌘+⌘ 发送当前窗口截图)、Goal Mode |
| 05-21 | CLI 0.133.0 | Goals 默认启用 |
| 05-20 | CLI 0.132.0 | Python SDK 一等认证支持 |
| 05-18 | CLI 0.131.0 | TUI 丰富会话控制、混合 token 用量显示 |
Anthropic
| 日期 | 来源 | 要点 |
|---|---|---|
| 05-26 | 工程博客:Agent 沙箱安全 | 权限应随 Agent 能力演进 |
| 05-25 | Chris Olah 出席教宗通谕发布 | AI 内省与情感状态研究引发哲学讨论 |
| 05-19 | 前沿 AI 伦理对话 | 与学者、神职人员探讨 AI 伦理 |
| 05-18 | 收购 Stainless | SDK 和 MCP 服务器平台纳入 Anthropic |
| 05-14 | 美中 AI 竞争白皮书 | 美国及盟国当前领先,需持续投入 |
| 05-14 | 与盖茨基金会合作 | 2 亿美元拨款+Claude 额度支持健康/教育/农业 |
Claude Code Releases:
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-23 | v2.1.150 | 内部基础设施改进 |
| 05-22 | v2.1.149 | /usage 分类用量明细 |
| 05-22 | v2.1.148 | 修复 Bash 工具 exit code 127 回退 |
| 05-21 | v2.1.147 | 后台会话 Pin 支持、内存压力下优先级 |
| 05-21 | v2.1.146 | /simplify 更名为 /code-review,支持 effort level |
社区动态: Boris Cherny 推荐 auto mode 作为 Claude Code 最佳实践,支持 Sonnet 4.6 + Opus 4.7 并行多会话。
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 | Sundar Pichai 对话 |
| 05-20 | 密苏里州社区投资 | 下一代劳动力和能源项目 |
| 05-20 | I/O 2026 百项公告汇总 | 全面回顾 |
| 05-19 | Gemini 3.5 发布 | 前沿智能 + 行动能力 |
| 05-19 | AI Search 新时代 | 搜索引擎 + AI 最佳结合 |
| 05-19 | AI Mode 使用洞察 | 美国用户 AI 搜索行为数据 |
| 05-19 | Workspace 更新 | AI 驱动创建和协作新方式 |
| 05-19 | Google AI 订阅更新 | 更多功能,同价 |
社区: Logan Kilpatrick 称 Gemini 3.5 Flash 在 Vending Bench 成本效率帕累托前沿;视觉任务性能超 3.1 Pro 且快 ~6x。DeepMind AlphaProof Nexus 自主解决 9 个 Erdős 开放问题。
xAI
| 日期 | 要点 |
|---|---|
| 05-26 | Grok Build Beta 用量重置 — 改进缓存后全员重置 |
| 05-25 | Grok Build Beta 全量开放 — SuperGrok/Premium+ 用户可用 |
| 05-21 | Grok 接入 OpenCode — 可在 OpenCode 中使用 Grok 订阅 |
| 05-19 | Grok 接入 OpenClaw |
| 05-15 | Grok 接入 NousResearch Hermes Agent |
| 05-14 | Grok Build 早期 Beta — agentic CLI for coding/automation |
DeepSeek
| 日期 | 要点 |
|---|---|
| 05-22 | DeepSeek-V4-Pro 折扣转永久 |
二、Benchmark 快照与变化
LM Arena (Overall) — 本期无变动
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.98 |
| 2 | claude-opus-4-7-thinking | 1500.25 |
| 3 | claude-opus-4-6 | 1498.06 |
| 4 | claude-opus-4-7 | 1492.39 |
| 5 | muse-spark | 1489.49 |
Top 4 全部为 Anthropic Claude Opus 系列。来源:LM Arena Leaderboard
SWE-bench Verified — 有变化
当前 Top 3(无变动):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
显著变化:
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| Warp | 11 → 36 | 75.6 → 71.0 | 大幅下跌 |
| devlo | 44 → 83/94 | 70.2 → 58.2/54.2 | 多次降分 |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 | NVIDIA 相关模型回落 |
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 | 52.2 → 60.4 | 上升 |
| Solver (2024-09-12) | 120 → 126 | 45.4 → 43.6 | 小幅下降 |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 | 小幅下降 |
SWE-bench Pro Public — 本期无变动
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
Terminal Bench 2.0 — 有变化
当前 Top 3(无变动):
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
显著变化:
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| LemonHarness / Multiple | 10 → 4 | 79.9 → 84.5 | 大幅上升 |
| Warp / Multiple | 42 → 48/66 | 61.2 → 59.1/50.1 | 下降 |
| little-coder / Qwen3.6-35B-A3B | 122 → 117 | 23.0 → 24.6 | 小幅上升 |
三、来源状态
所有采集源均正常,无失败记录。