AI 日报 2026-05-25 12:18
2026-05-25 12:18 CST
核心速览
【Google】I/O 2026 发布 Gemini 3.5,全面进入 Agentic 时代 Google 在 I/O 2026 发布 Gemini 3.5 系列模型,Flash 版本在视觉任务上超越 3.1 Pro 且速度提升约 6 倍。Sundar Pichai 宣布 Google 全面进入"Agentic Gemini"时代,同步更新 Search AI Mode、Workspace、订阅服务等产品线。 链接
【OpenAI】AI 模型推翻离散几何 80 年核心猜想 OpenAI 模型解决了 80 年历史的单位距离问题(unit distance problem),推翻了离散几何领域的一个重大猜想,标志着 AI 驱动数学研究的里程碑时刻。 链接
【Anthropic】收购 SDK 平台公司 Stainless Anthropic 宣布收购 Stainless(@stainlessapi),这是一家 SDK 和 MCP 服务器平台公司,自 Anthropic API 早期即为其提供所有 SDK 支持。此举将加强 Anthropic 开发者工具生态的垂直整合。 链接
【OpenAI】Gartner 评选为 AI 编码代理领导者 OpenAI 在 2026 Gartner 企业 AI 编码代理魔力象限中被评为领导者,Codex 在创新能力和企业级部署方面获得认可。同期 OpenAI 与 Dell 达成合作,将 Codex 引入混合云与本地部署环境。 链接
【DeepSeek】V4-Pro 折扣永久化 DeepSeek 宣布将 DeepSeek-V4-Pro 的优惠价格设为永久定价,降低企业与开发者使用门槛,与 OpenAI、Google 展开价格竞争。 链接
重大 Benchmark 变化
SWE-bench Verified
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 (↑27) | 52.2 → 60.4 (↑15.7%) | 开源模型大幅跃升 |
| devlo | 44 → 94 (↓50) | 70.2 → 54.2 (↓22.8%) | 大幅下滑,疑为提交回退或评测修正 |
| Nemotron-CORTEXA | 50 → 82 (↓32) | 68.2 → 58.2 (↓14.7%) | NVIDIA 系模型显著下降 |
| Warp | 11 → 36 (↓25) | 75.6 → 71.0 (↓6.1%) | 排名腰斩,竞争力减弱 |
Terminal-Bench 2.0
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness / Multiple | 10 → 4 (↑6) | 79.9 → 84.5 (↑5.8%) | 挺进 Top 5 |
| Warp / Multiple | 42 → 66 (↓24) | 61.2 → 50.1 (↓18.1%) | 双榜同步下滑,或为评测策略调整 |
快速预览
- OpenAI 获 Gartner 2026 企业 AI 编程代理魔力象限领导者,Codex 企业部署加速
- Google I/O 2026 发布 Gemini 3.5,标志"agentic Gemini 时代"开启
- Anthropic 完成收购 Stainless SDK 平台,Claude Code 迭代至 v2.1.150
- DeepSeek-V4-Pro 折扣永久化;xAI 发布 Grok Build CLI 测试版
- LMArena 总榜 Top 2 均为 Claude Opus 4.6/4.7(thinking),SWE-bench Pro Public 新增 gpt-5.4 以 59.1 登顶
一、新闻动态
OpenAI(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | Gartner 魔力象限领导者 | OpenAI 获评 2026 Gartner 企业 AI 编程代理魔力象限领导者,Codex 被认可为创新与企业规模部署标杆 |
| 05-22 | Virgin Atlantic 用 Codex 加速交付 | 复活节旅行截止日前完成移动 App 重构,近全量单元测试覆盖,零 P1 缺陷 |
| 05-21 | AdventHealth × ChatGPT for Healthcare | 精简临床工作流、降低行政负担,释放更多患者护理时间 |
| 05-20 | AI 模型推翻离散几何猜想 | 解决 80 年历史的单位距离问题,AI 驱动数学里程碑 |
| 05-20 | Education for Countries 新阶段 | 扩大全球学校 AI 采纳,新增合作伙伴与教师培训 |
| 05-20 | Ramp 用 Codex 加速代码审查 | GPT-5.5 + Codex 实现分钟级代码审查反馈 |
| 05-19 | OpenAI for Singapore | 多年 AI 合作伙伴关系,覆盖人才培养与公共服务 |
| 05-19 | 内容溯源透明化 | 推进 Content Credentials + SynthID + 验证工具 |
| 05-18 | 与 Dell 合作 | Codex 进入混合/本地部署企业环境 |
| 05-16 | 马耳他 ChatGPT Plus 合作 | 向全体公民提供 ChatGPT Plus 及培训 |
| 05-15 | Databricks 集成 GPT-5.5 | GPT-5.5 在 OfficeQA Pro 刷新 SOTA,进入 Databricks 企业代理工作流 |
| 05-15 | ChatGPT 个人理财体验 | 美国 Pro 用户可关联金融账户获取 AI 理财洞察 |
| 05-14 | Sea Limited 部署 Codex | Sea CPO 解释在亚洲工程团队推广 Codex 的战略 |
| 05-14 | Codex 移动端 | ChatGPT 移动 App 可远程监控与操控 Codex |
| 05-14 | 安全对话上下文识别 | ChatGPT 新安全更新提升敏感对话中的上下文感知 |
| 05-13 | Codex Windows 沙盒 | 构建安全沙盒以支持 Codex 在 Windows 上运行 |
| 05-13 | TanStack 供应链攻击响应 | macOS 用户须在 2026-06-12 前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师用 Codex | GPT-5.5 + Codex 驱动生产系统与研究实验 |
| 05-11 | Q1 2026 ChatGPT 采纳增长 | 35 岁以上用户增速最快,性别使用更趋平衡 |
| 05-11 | DeployCo 上线 | 新企业部署公司,帮助组织将前沿 AI 投入生产 |
Codex Changelog(按日期倒序)
| 日期 | 版本/标题 | 要点 |
|---|---|---|
| 05-21 | Appshots + Goal Mode | macOS Appshots:双击 Command 键将前台应用截图发送给 Codex;CLI 0.133.0 Goals 默认启用 |
| 05-20 | CLI 0.132.0 | Python SDK 支持一等认证(API Key / ChatGPT 浏览器 / 设备码登录) |
| 05-18 | CLI 0.131.0 | TUI 丰富会话控件:服务层命令、混合 token 用量、权限审批模式等 |
| 05-14 | 移动端 Codex | ChatGPT 移动 App 连接 Mac 上运行的 Codex,复用同一项目/文件/配置 |
Anthropic(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-19 | 与学者/哲学家/伦理学家对话 | 讨论 AI 引发的问题,从"好品格如何形成"开始 |
| 05-18 | 收购 Stainless | 收购 SDK 与 MCP 服务器平台 Stainless,该平台为所有 Anthropic SDK 提供支持 |
| 05-14 | AI 竞争论文 | 发布中美 AI 竞争观点论文,主张美国及民主盟友目前保持前沿 AI 领先 |
| 05-14 | 盖茨基金会合作 | 承诺 2 亿美元资助 + Claude 额度 + 技术支持,覆盖全球健康/生命科学/教育/农业/经济流动性 |
| 05-11 | Claude 宪法有声书 | Amanda Askell 与 Joe Carlsmith 朗读,含创作过程 Q&A |
Claude Code Releases(按日期倒序)
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-23 | v2.1.150 | 内部基础设施改进,无用户可见变更 |
| 05-22 | v2.1.149 | /usage 新增按类别(skills / subagents / plugins / MCP-server)用量分解 |
| 05-22 | v2.1.148 | 修复 Bash 工具 exit code 127 回归(2.1.147 引入) |
| 05-21 | v2.1.147 | Pin 后台会话空闲保活、原地重启应用更新、内存压力下最后被回收 |
| 05-21 | v2.1.146 | /simplify 重命名为 /code-review,支持 effort level 参数 |
Google(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | I/O 2026 Dialogues 回顾 | Sundar Pichai I/O 对话舞台回顾 |
| 05-20 | 密苏里州社区投资 | 投资下一代劳动力与能源项目 |
| 05-20 | I/O 2026 百项发布总览 | 全部 I/O 发布汇总 |
| 05-20 | Google Beam 小组会议 | 新实验功能支持多人远程会议 |
| 05-19 | Gemini 3.5 发布 | Gemini 3.5:前沿智能与行动能力 |
| 05-19 | Agentic Gemini 时代 | Sundar Pichai:欢迎进入 agentic Gemini 时代 |
| 05-19 | AI 搜索新时代 | 搜索引擎 + AI 最佳结合 |
| 05-19 | AI Mode 使用洞察 | 美国用户 AI Mode 搜索行为变化 |
| 05-19 | Google Workspace 更新 | AI 驱动的新创建与完成方式 |
| 05-19 | AI 订阅更新 | 更多功能、同价订阅 |
| 05-11 | AI Google Finance 欧洲扩展 | AI 驱动的 Google Finance 扩展至欧洲 |
xAI(按日期倒序)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-21 | Grok × OpenCode | Grok/X Premium 订阅可在 OpenCode 中使用,基于 Grok Build 模型 |
| 05-19 | Grok × OpenClaw | Grok 订阅可在 OpenClaw 中使用,支持聊天/图像/视频生成/X 搜索 |
| 05-15 | Grok × Hermes Agent | Grok 订阅集成 NousResearch Hermes Agent |
| 05-14 | Grok Build CLI 测试版 | 面向 SuperGrok Heavy 的 agentic CLI,用于编码/构建/自动化 |
DeepSeek
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-22 | V4-Pro 折扣永久化 | DeepSeek-V4-Pro 折扣变为永久优惠 |
Google 相关人物动态
| 日期 | 来源 | 要点 |
|---|---|---|
| 05-23 | Logan Kilpatrick | Gemini 3.5 Flash 在 Vending Bench 的成本/智能 Pareto 前沿 |
| 05-22 | Logan Kilpatrick | Gemini 3.5 Flash 在多视觉场景超越 3.1 Pro,平均快 ~6x |
| 05-22 | Logan Kilpatrick | Antigravity 2.0 IDE 仍可用,UI 更新,重置周限额 |
| 05-22 | Demis Hassabis | Antigravity IDE 反馈回应:未移除 IDE 支持,已修复 Windows 问题 |
| 05-22 | Demis Hassabis | Gemini Omni 可根据 Google Maps 截图生成第一人称驾驶视角 |
Anthropic 相关人物动态
| 日期 | 来源 | 要点 |
|---|---|---|
| 05-24 | Boris Cherny | 推荐 Claude Code auto mode:无权限弹窗,支持多会话并行("multi-clauding") |
| 05-22 | Boris Cherny | Project Glasswing 网络安全行动:合作伙伴已发现超过一万个高危/关键漏洞 |
OpenAI 相关人物动态
| 日期 | 来源 | 要点 |
|---|---|---|
| 05-25 | Greg Brockman | GPT-5.5 Pro 用于事实核查,Ethan Mollick 评价为"非常可靠" |
| 05-24 | Greg Brockman | 强调 Codex 是开源的 |
| 05-23 | Greg Brockman | Codex 计算机使用端到端构建并调试 iPhone 模拟器 |
| 05-23 | Tibo (Codex PM) | Codex 限额消耗过快问题已定位(缓存命中率优化回滚),已重置所有账户用量 |
| 05-21 | Nick Turley | ChatGPT for PowerPoint 发布:可在 PowerPoint 中创建/编辑幻灯片 |
二、Benchmark 快照
SWE-bench Verified(Top 10)
| 排名 | 模型 | 分数 | 快照日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
SWE-bench Pro Public(Top 10)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh) * | 59.1 |
| 2 | Muse Spark * | 55.0 |
| 3 | claude-opus-4-6 (thinking) * | 51.9 |
| 4 | gemini-3.1-pro (thinking) * | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
| 6 | claude-4-5-Sonnet | 43.6 |
| 7 | gemini-3-pro-preview | 43.3 |
| 8 | claude-4-Sonnet | 42.7 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 |
| 10 | gpt-5.2-codex | 41.04 |
* 带星号为非官方/实验提交。来源:Scale Leaderboard
Terminal-bench 2.0(Top 10)
| 排名 | Agent / 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
| 4 | LemonHarness / Multiple | 84.5 |
| 5 | Capy / GPT-5.5 | 83.1 |
| 6 | Polaris / Multiple | 82.2 |
| 7 | Codex CLI / GPT-5.5 | 82.0 |
| 8 | TongAgents / Gemini 3.1 Pro | 80.2 |
| 9 | WOZCODE / Claude Opus 4.7 | 80.2 |
| 10 | LemonHarness / Multiple | 79.9 |
来源:tbench.ai
LMArena Overall(Top 10)
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.98 |
| 2 | claude-opus-4-7-thinking | 1500.25 |
| 3 | claude-opus-4-6 | 1498.06 |
| 4 | claude-opus-4-7 | 1492.39 |
| 5 | muse-spark | 1489.49 |
| 6 | gemini-3.1-pro-preview | 1488.18 |
| 7 | gemini-3-pro | 1485.82 |
| 8 | gpt-5.5-high | 1481.32 |
| 9 | gemini-3.5-flash | 1480.04 |
| 10 | gpt-5.4-high | 1479.60 |
来源:LMArena (text_style_control),快照日期 2026-05-19
三、榜单变化
SWE-bench Verified 变化
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| Warp | 11 → 36 | 75.6 → 71.0 | 大幅下滑 |
| devlo | 44 → 83/94 | 70.2 → 58.2/54.2 | 严重下滑(多条记录) |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 | 大幅下滑 |
| EntroPO + R2E + Qwen3-Coder-30B-A3B | 103 → 76 | 52.2 → 60.4 | 明显上升 |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 | 小幅下滑 |
| Solver (2024-09-12) | 120 → 126 | 45.4 → 43.6 | 小幅下滑 |
Terminal-bench 2.0 变化
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| LemonHarness / Multiple | 10 → 4 | 79.9 → 84.5 | 显著上升,进入 Top 5 |
| Warp / Multiple | 42 → 48/66 | 61.2 → 59.1/50.1 | 下滑(多条记录) |
| little-coder / Qwen3.6-35B-A3B | 122 → 117 | 23.0 → 24.6 | 小幅上升 |
LMArena Overall
本期无变动。当前 Top 3:claude-opus-4-6-thinking (1501.98)、claude-opus-4-7-thinking (1500.25)、claude-opus-4-6 (1498.06)。
SWE-bench Pro Public
本期无 Top 10 排名变动记录。当前 Top 3:gpt-5.4 (xHigh) 59.1、Muse Spark 55.0、claude-opus-4-6 (thinking) 51.9。
四、来源状态
所有采集源均正常,无采集失败。