AI 日报 2026-05-15 11:06

2026-05-15 11:06 CST

核心速览

1. 【OpenAI】GPT-5.5 Instant 发布:更快、更准、更个性化 GPT-5.5 Instant 更新为 ChatGPT 默认模型,显著降低幻觉率,提升回答准确性,并增强个性化控制能力。这是 OpenAI 在用户体验层面的重要迭代,直接影响数亿日常用户。原文链接

2. 【xAI】Grok 4.3 上线:登顶多项权威榜单 Grok 4.3 成为 xAI 最快、最强模型,在 ArtificialAnlys 智能体工具调用和指令遵循榜单排名第一,ValsAI 企业法律和金融领域亦居首位。支持 100 万 token 上下文,定价 $1.25/$2.50 per million tokens。原文链接

3. 【Anthropic】与盖茨基金会合作,投入 2 亿美元 Anthropic 承诺 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的拨款、Claude 额度及技术支持。这是 AI 公司迄今最大规模的公益投入之一。原文链接

4. 【xAI】Grok Build CLI 内测上线,对标 Codex/Claude Code xAI 推出 Grok Build 测试版——面向 SuperGrok Heavy 用户的智能体命令行工具,支持编码、应用构建和工作流自动化。AI 编码助手赛道竞争进一步加剧。原文链接

5. 【OpenAI】ChatGPT 开始测试广告 OpenAI 正式在 ChatGPT 中测试广告投放,承诺广告标注清晰、回答独立于广告内容、隐私保护到位。标志 ChatGPT 商业化进入新阶段,免费用户体验将受影响。原文链接


重大 Benchmark 变化

以下为 SWE-bench Verified 及 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:

模型 Benchmark 排名变动 分数变动
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct SWE-bench Verified 103 → 76 (+27) 52.2 → 60.4 (+15.7%)
LemonHarness / Multiple Terminal-Bench 2.0 10 → 3 (+7) 79.9 → 84.5 (+5.8%)
Nemotron-CORTEXA SWE-bench Verified 50 → 82 (-32) 68.2 → 58.2 (-14.7%)
devlo SWE-bench Verified 44 → 83/94 (-39/-50) 70.2 → 58.2/54.2 (-17.1%/-22.8%)
Warp SWE-bench Verified 11 → 36 (-25) 75.6 → 71.0 (-6.1%)
Warp / Multiple Terminal-Bench 2.0 44 → 49/68 (-5/-24) 61.2 → 59.1/50.1 (-3.4%/-18.1%)

亮点: Qwen3-Coder-30B 搭配 EntroPO+R2E 后排名飙升 27 位,分数提升 15.7%,小模型编码能力持续突破。Nemotron-CORTEXA、devlo、Warp 多榜大幅下跌,可能与评测方法更新有关。

快速预览

  • OpenAI 移动端 Codex 上线:支持在 ChatGPT 手机 App 中实时监控、引导和审批编码任务 (详情)
  • Anthropic 与盖茨基金会合作:承诺 2 亿美元用于全球健康、生命科学、教育等领域 (详情)
  • xAI 发布 Grok Build CLI 测试版:面向 SuperGrok Heavy 用户的智能体编码工具 (详情)
  • Terminal-Bench 2.0 榜首:vix / Claude Opus 4.7 以 90.2 分领跑;LemonHarness 跃升至第 3
  • SWE-Bench Verified 变动较大:Warp 从 #11 跌至 #36,devlo 从 #44 大幅下降
  • ⚠ LMArena 榜单采集失败,本期无数据

详细正文

一、新闻(按厂商 / 来源、日期倒序)

OpenAI 官方新闻

日期 标题 摘要
05-14 Work with Codex from anywhere ChatGPT 移动端支持 Codex,跨设备实时操控编码任务
05-14 Helping ChatGPT better recognize context in sensitive conversations ChatGPT 安全更新:提升敏感对话的上下文感知与风险检测
05-13 Building a safe, effective sandbox to enable Codex on Windows Codex Windows 安全沙箱架构:受控文件访问与网络限制
05-13 Our response to the TanStack npm supply chain attack 回应 TanStack 供应链攻击,macOS 用户须在 6 月 12 日前更新
05-12 How finance teams use Codex 金融团队使用 Codex 构建 MBR、报告包、方差桥接等
05-12 How NVIDIA engineers and researchers build with Codex NVIDIA 使用 Codex + GPT-5.5 交付生产系统
05-12 What Parameter Golf taught us about AI-assisted research 1000+ 参与者探索 AI 辅助 ML 研究
05-12 AutoScout24 scales engineering with AI-powered workflows AutoScout24 使用 Codex/ChatGPT 加速开发
05-11 How ChatGPT adoption broadened in early 2026 Q1 2026 ChatGPT 采纳激增,35 岁以上用户增长最快
05-11 OpenAI launches DeployCo 新企业部署公司 DeployCo 成立,帮助组织落地前沿 AI
05-11 How enterprises are scaling AI 企业 AI 规模化指南:信任、治理、工作流设计
05-11 OpenAI Campus Network 全球学生俱乐部计划开放申请
05-08 Running Codex safely at OpenAI Codex 内部安全实践:沙箱、审批、网络策略
05-07 Scaling Trusted Access for Cyber with GPT-5.5 GPT-5.5 / GPT-5.5-Cyber 扩展网络安全可信访问
05-07 Advancing voice intelligence with new models in the API 新实时语音模型上线 API
05-07 Testing ads in ChatGPT ChatGPT 开始测试广告,明确标注、保护隐私
05-07 Introducing Trusted Contact in ChatGPT 检测到严重自伤风险时通知信任联系人
05-07 Simplex rethinks software development with Codex Simplex 使用 Codex 缩短设计、构建、测试时间
05-07 Parloa builds service agents Parloa 利用 OpenAI 模型驱动语音客服智能体
05-06 How ChatGPT learns about the world while protecting privacy ChatGPT 隐私保护机制详解
05-06 Introducing ChatGPT Futures: Class of 2026 26 名学生创新者计划
05-06 Uber uses OpenAI Uber 使用 OpenAI 驱动 AI 助手和语音功能
05-06 Singular Bank + ChatGPT/Codex Singular Bank 内部助手每日为银行家节省 60–90 分钟
05-06 How frontier firms are pulling ahead B2B Signals 研究:前沿企业深度采纳 AI
05-05 GPT-5.5 Instant: smarter, clearer, and more personalized ChatGPT 默认模型更新,减少幻觉、增强个性化
05-05 GPT-5.5 Instant System Card 系统卡发布
05-05 MRC supercomputer networking protocol 通过 OCP 发布 MRC 协议,提升大规模训练网络韧性
05-05 New ways to buy ChatGPT ads 自助 Ads Manager、CPC 竞价等广告产品扩展
05-05 Advancing youth safety in EMEA 欧洲青年安全蓝图与资助计划
05-04 OpenAI and PwC collaborate on CFO office 联合 PwC 用 AI 智能体自动化财务工作流
05-04 How OpenAI delivers low-latency voice AI at scale 重构 WebRTC 堆栈实现低延迟语音 AI

OpenAI Codex Changelog

日期 更新
05-13 Codex 移动端文档:ChatGPT 手机 App 使用 Codex 的设置、连接与排障
05-11 Auto-review 文档扩展:覆盖审查生命周期、触发条件、失败行为
05-07 Codex for Chrome:Chrome 扩展,后台跨标签页运行
05-06 Analytics 治理文档更新:Analytics 仪表板图表、数据导出、API 端点
05-05 Codex access tokens:Enterprise 管理员可创建访问令牌用于非交互式本地工作流

Anthropic (X 动态)

日期 内容
05-14 发布中美 AI 竞争论文:分析美国及民主盟友在前沿 AI 领先地位及保持策略
05-14 与盖茨基金会合作:承诺 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性
05-11 Claude's Constitution 有声书:两位作者朗读,含写作过程 Q&A
05-07 捐赠 Petri 对齐工具:开源对齐工具 Petri 捐赠给 Meridian Labs,附重大更新
05-07 Bug Bounty 公开:HackerOne 安全漏洞赏金计划向所有人开放

Claude Code Releases

版本 日期 要点
v2.1.142 05-14 claude agents 新增 --add-dir--settings--mcp-config 等 8 个标志
v2.1.141 05-13 Hook JSON 输出新增 terminalSequence 字段,支持桌面通知
v2.1.140 05-12 Agent tool subagent_type 匹配改为大小写/分隔符不敏感
v2.1.139 05-11 Agent View(研究预览)claude agents 查看所有会话状态
v2.1.138 05-09 内部修复

xAI (X 动态)

日期 内容
05-14 Grok Build CLI 测试版:面向 SuperGrok Heavy 订阅者的智能体编码工具
05-08 Grok 连接器上线:Grok 可获取邮件、优化 PPT、整理日历/Notion
05-07 图片生成 Quality Mode 上线 API:已生成 3 亿+ 图片,更强真实感和文字渲染
05-05 Grok 4.3 上线 API:xAI 称其在 ArtificialAnlys 智能体工具调用和指令跟随榜、ValsAI 企业领域(案例法、企业金融)均排名第一;100 万 token 上下文,$1.25/$2.50 per M tokens
05-01 语音克隆上线 API:2 分钟创建自定义语音,80+ 预设语音覆盖 28 种语言

Google Blog AI

日期 标题
05-11 AI 驱动的 Google Finance 扩展至欧洲
05-08 创意大师为小企业制作 AI 广告
05-06 Search 中 5 个园艺技巧
05-05 Google × XPRIZE $350 万 Future Vision 电影竞赛
05-04 Gemini API Webhooks 支持长时间任务
05-04 2026 年 4 月 Google AI 更新汇总

二、Benchmark 快照与变化

SWE-Bench Verified(scale.com / live-swe-agent

当前 Top 10:

# 模型 分数 快照日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

本期显著变化:

模型 变化 前 → 现(排名) 前 → 现(分数)
Warp 排名下降 #11 → #36 75.6 → 71.0
devlo 排名大幅下降 #44 → #83 / #94 70.2 → 58.2 / 54.2
EntroPO + R2E + Qwen3-Coder-30B 排名上升 #103 → #76 52.2 → 60.4
Nemotron-CORTEXA 排名下降 #50 → #82 68.2 → 58.2
EPAM AI/Run + GPT4o 排名下降 #156 → #162 27.0 → 24.0
Solver (2024-09-12) 排名下降 #120 → #126 45.4 → 43.6

devlo 出现两条不同记录(#83 和 #94),可能为不同配置提交。


SWE-Bench Pro Public(Scale Leaderboard

当前 Top 5:

# 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

本期无变动。


Terminal-Bench 2.0(tbench.ai

当前 Top 5:

# 模型 分数 快照日期
1 vix / Claude Opus 4.7 90.2 05-15
2 NexAU-AHE / GPT-5.5 84.7 05-14
3 LemonHarness / Multiple 84.5 05-14
4 Capy / GPT-5.5 83.1 05-14
5 Polaris / Multiple 82.2 05-14

本期显著变化:

模型 变化 前 → 现(排名) 前 → 现(分数)
LemonHarness / Multiple 大幅上升 #10 → #3 79.9 → 84.5
Warp / Multiple 排名下降 #44 → #49 / #68 61.2 → 59.1 / 50.1
little-coder / Qwen3.6-35B-A3B 小幅上升 #124 → #119 23.0 → 24.6

三、采集失败来源

  • LMArena Leaderboard:本期采集失败,无数据可用。

Sources