AI 日报 2026-05-15 11:06
2026-05-15 11:06 CST
核心速览
1. 【OpenAI】GPT-5.5 Instant 发布:更快、更准、更个性化 GPT-5.5 Instant 更新为 ChatGPT 默认模型,显著降低幻觉率,提升回答准确性,并增强个性化控制能力。这是 OpenAI 在用户体验层面的重要迭代,直接影响数亿日常用户。原文链接
2. 【xAI】Grok 4.3 上线:登顶多项权威榜单 Grok 4.3 成为 xAI 最快、最强模型,在 ArtificialAnlys 智能体工具调用和指令遵循榜单排名第一,ValsAI 企业法律和金融领域亦居首位。支持 100 万 token 上下文,定价 $1.25/$2.50 per million tokens。原文链接
3. 【Anthropic】与盖茨基金会合作,投入 2 亿美元 Anthropic 承诺 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的拨款、Claude 额度及技术支持。这是 AI 公司迄今最大规模的公益投入之一。原文链接
4. 【xAI】Grok Build CLI 内测上线,对标 Codex/Claude Code xAI 推出 Grok Build 测试版——面向 SuperGrok Heavy 用户的智能体命令行工具,支持编码、应用构建和工作流自动化。AI 编码助手赛道竞争进一步加剧。原文链接
5. 【OpenAI】ChatGPT 开始测试广告 OpenAI 正式在 ChatGPT 中测试广告投放,承诺广告标注清晰、回答独立于广告内容、隐私保护到位。标志 ChatGPT 商业化进入新阶段,免费用户体验将受影响。原文链接
重大 Benchmark 变化
以下为 SWE-bench Verified 及 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:
| 模型 | Benchmark | 排名变动 | 分数变动 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct | SWE-bench Verified | 103 → 76 (+27) | 52.2 → 60.4 (+15.7%) |
| LemonHarness / Multiple | Terminal-Bench 2.0 | 10 → 3 (+7) | 79.9 → 84.5 (+5.8%) |
| Nemotron-CORTEXA | SWE-bench Verified | 50 → 82 (-32) | 68.2 → 58.2 (-14.7%) |
| devlo | SWE-bench Verified | 44 → 83/94 (-39/-50) | 70.2 → 58.2/54.2 (-17.1%/-22.8%) |
| Warp | SWE-bench Verified | 11 → 36 (-25) | 75.6 → 71.0 (-6.1%) |
| Warp / Multiple | Terminal-Bench 2.0 | 44 → 49/68 (-5/-24) | 61.2 → 59.1/50.1 (-3.4%/-18.1%) |
亮点: Qwen3-Coder-30B 搭配 EntroPO+R2E 后排名飙升 27 位,分数提升 15.7%,小模型编码能力持续突破。Nemotron-CORTEXA、devlo、Warp 多榜大幅下跌,可能与评测方法更新有关。
快速预览
- OpenAI 移动端 Codex 上线:支持在 ChatGPT 手机 App 中实时监控、引导和审批编码任务 (详情)
- Anthropic 与盖茨基金会合作:承诺 2 亿美元用于全球健康、生命科学、教育等领域 (详情)
- xAI 发布 Grok Build CLI 测试版:面向 SuperGrok Heavy 用户的智能体编码工具 (详情)
- Terminal-Bench 2.0 榜首:vix / Claude Opus 4.7 以 90.2 分领跑;LemonHarness 跃升至第 3
- SWE-Bench Verified 变动较大:Warp 从 #11 跌至 #36,devlo 从 #44 大幅下降
- ⚠ LMArena 榜单采集失败,本期无数据
详细正文
一、新闻(按厂商 / 来源、日期倒序)
OpenAI 官方新闻
OpenAI Codex Changelog
| 日期 | 更新 |
|---|---|
| 05-13 | Codex 移动端文档:ChatGPT 手机 App 使用 Codex 的设置、连接与排障 |
| 05-11 | Auto-review 文档扩展:覆盖审查生命周期、触发条件、失败行为 |
| 05-07 | Codex for Chrome:Chrome 扩展,后台跨标签页运行 |
| 05-06 | Analytics 治理文档更新:Analytics 仪表板图表、数据导出、API 端点 |
| 05-05 | Codex access tokens:Enterprise 管理员可创建访问令牌用于非交互式本地工作流 |
Anthropic (X 动态)
| 日期 | 内容 |
|---|---|
| 05-14 | 发布中美 AI 竞争论文:分析美国及民主盟友在前沿 AI 领先地位及保持策略 |
| 05-14 | 与盖茨基金会合作:承诺 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性 |
| 05-11 | Claude's Constitution 有声书:两位作者朗读,含写作过程 Q&A |
| 05-07 | 捐赠 Petri 对齐工具:开源对齐工具 Petri 捐赠给 Meridian Labs,附重大更新 |
| 05-07 | Bug Bounty 公开:HackerOne 安全漏洞赏金计划向所有人开放 |
Claude Code Releases
| 版本 | 日期 | 要点 |
|---|---|---|
| v2.1.142 | 05-14 | claude agents 新增 --add-dir、--settings、--mcp-config 等 8 个标志 |
| v2.1.141 | 05-13 | Hook JSON 输出新增 terminalSequence 字段,支持桌面通知 |
| v2.1.140 | 05-12 | Agent tool subagent_type 匹配改为大小写/分隔符不敏感 |
| v2.1.139 | 05-11 | Agent View(研究预览):claude agents 查看所有会话状态 |
| v2.1.138 | 05-09 | 内部修复 |
xAI (X 动态)
| 日期 | 内容 |
|---|---|
| 05-14 | Grok Build CLI 测试版:面向 SuperGrok Heavy 订阅者的智能体编码工具 |
| 05-08 | Grok 连接器上线:Grok 可获取邮件、优化 PPT、整理日历/Notion |
| 05-07 | 图片生成 Quality Mode 上线 API:已生成 3 亿+ 图片,更强真实感和文字渲染 |
| 05-05 | Grok 4.3 上线 API:xAI 称其在 ArtificialAnlys 智能体工具调用和指令跟随榜、ValsAI 企业领域(案例法、企业金融)均排名第一;100 万 token 上下文,$1.25/$2.50 per M tokens |
| 05-01 | 语音克隆上线 API:2 分钟创建自定义语音,80+ 预设语音覆盖 28 种语言 |
Google Blog AI
| 日期 | 标题 |
|---|---|
| 05-11 | AI 驱动的 Google Finance 扩展至欧洲 |
| 05-08 | 创意大师为小企业制作 AI 广告 |
| 05-06 | Search 中 5 个园艺技巧 |
| 05-05 | Google × XPRIZE $350 万 Future Vision 电影竞赛 |
| 05-04 | Gemini API Webhooks 支持长时间任务 |
| 05-04 | 2026 年 4 月 Google AI 更新汇总 |
二、Benchmark 快照与变化
SWE-Bench Verified(scale.com / live-swe-agent)
当前 Top 10:
| # | 模型 | 分数 | 快照日期 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | 2025-11-20 |
| 5 | Atlassian Rovo Dev | 76.8 | 2025-09-02 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 | 2025-08-04 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 | 2026-02-17 |
| 8 | ACoder | 76.4 | 2025-08-19 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 | 2026-02-17 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 | 2026-02-17 |
本期显著变化:
| 模型 | 变化 | 前 → 现(排名) | 前 → 现(分数) |
|---|---|---|---|
| Warp | 排名下降 | #11 → #36 | 75.6 → 71.0 |
| devlo | 排名大幅下降 | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 |
| EntroPO + R2E + Qwen3-Coder-30B | 排名上升 | #103 → #76 | 52.2 → 60.4 |
| Nemotron-CORTEXA | 排名下降 | #50 → #82 | 68.2 → 58.2 |
| EPAM AI/Run + GPT4o | 排名下降 | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | 排名下降 | #120 → #126 | 45.4 → 43.6 |
devlo 出现两条不同记录(#83 和 #94),可能为不同配置提交。
SWE-Bench Pro Public(Scale Leaderboard)
当前 Top 5:
| # | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
本期无变动。
Terminal-Bench 2.0(tbench.ai)
当前 Top 5:
| # | 模型 | 分数 | 快照日期 |
|---|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 | 05-15 |
| 2 | NexAU-AHE / GPT-5.5 | 84.7 | 05-14 |
| 3 | LemonHarness / Multiple | 84.5 | 05-14 |
| 4 | Capy / GPT-5.5 | 83.1 | 05-14 |
| 5 | Polaris / Multiple | 82.2 | 05-14 |
本期显著变化:
| 模型 | 变化 | 前 → 现(排名) | 前 → 现(分数) |
|---|---|---|---|
| LemonHarness / Multiple | 大幅上升 | #10 → #3 | 79.9 → 84.5 |
| Warp / Multiple | 排名下降 | #44 → #49 / #68 | 61.2 → 59.1 / 50.1 |
| little-coder / Qwen3.6-35B-A3B | 小幅上升 | #124 → #119 | 23.0 → 24.6 |
三、采集失败来源
- LMArena Leaderboard:本期采集失败,无数据可用。