AI 日报 2026-05-15 11:06

核心速览

1. 【OpenAI】GPT-5.5 Instant 发布：更快、更准、更个性化 GPT-5.5 Instant 更新为 ChatGPT 默认模型，显著降低幻觉率，提升回答准确性，并增强个性化控制能力。这是 OpenAI 在用户体验层面的重要迭代，直接影响数亿日常用户。原文链接

2. 【xAI】Grok 4.3 上线：登顶多项权威榜单 Grok 4.3 成为 xAI 最快、最强模型，在 ArtificialAnlys 智能体工具调用和指令遵循榜单排名第一，ValsAI 企业法律和金融领域亦居首位。支持 100 万 token 上下文，定价 $1.25/$2.50 per million tokens。原文链接

3. 【Anthropic】与盖茨基金会合作，投入 2 亿美元 Anthropic 承诺 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的拨款、Claude 额度及技术支持。这是 AI 公司迄今最大规模的公益投入之一。原文链接

4. 【xAI】Grok Build CLI 内测上线，对标 Codex/Claude Code xAI 推出 Grok Build 测试版——面向 SuperGrok Heavy 用户的智能体命令行工具，支持编码、应用构建和工作流自动化。AI 编码助手赛道竞争进一步加剧。原文链接

5. 【OpenAI】ChatGPT 开始测试广告 OpenAI 正式在 ChatGPT 中测试广告投放，承诺广告标注清晰、回答独立于广告内容、隐私保护到位。标志 ChatGPT 商业化进入新阶段，免费用户体验将受影响。原文链接

重大 Benchmark 变化

以下为 SWE-bench Verified 及 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目：

模型	Benchmark	排名变动	分数变动
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct	SWE-bench Verified	103 → 76 (+27)	52.2 → 60.4 (+15.7%)
LemonHarness / Multiple	Terminal-Bench 2.0	10 → 3 (+7)	79.9 → 84.5 (+5.8%)
Nemotron-CORTEXA	SWE-bench Verified	50 → 82 (-32)	68.2 → 58.2 (-14.7%)
devlo	SWE-bench Verified	44 → 83/94 (-39/-50)	70.2 → 58.2/54.2 (-17.1%/-22.8%)
Warp	SWE-bench Verified	11 → 36 (-25)	75.6 → 71.0 (-6.1%)
Warp / Multiple	Terminal-Bench 2.0	44 → 49/68 (-5/-24)	61.2 → 59.1/50.1 (-3.4%/-18.1%)

亮点： Qwen3-Coder-30B 搭配 EntroPO+R2E 后排名飙升 27 位，分数提升 15.7%，小模型编码能力持续突破。Nemotron-CORTEXA、devlo、Warp 多榜大幅下跌，可能与评测方法更新有关。

快速预览

OpenAI 移动端 Codex 上线：支持在 ChatGPT 手机 App 中实时监控、引导和审批编码任务 (详情)
Anthropic 与盖茨基金会合作：承诺 2 亿美元用于全球健康、生命科学、教育等领域 (详情)
xAI 发布 Grok Build CLI 测试版：面向 SuperGrok Heavy 用户的智能体编码工具 (详情)
Terminal-Bench 2.0 榜首：vix / Claude Opus 4.7 以 90.2 分领跑；LemonHarness 跃升至第 3
SWE-Bench Verified 变动较大：Warp 从 #11 跌至 #36，devlo 从 #44 大幅下降
⚠ LMArena 榜单采集失败，本期无数据

详细正文

一、新闻（按厂商 / 来源、日期倒序）

OpenAI 官方新闻

日期	标题	摘要
05-14	Work with Codex from anywhere	ChatGPT 移动端支持 Codex，跨设备实时操控编码任务
05-14	Helping ChatGPT better recognize context in sensitive conversations	ChatGPT 安全更新：提升敏感对话的上下文感知与风险检测
05-13	Building a safe, effective sandbox to enable Codex on Windows	Codex Windows 安全沙箱架构：受控文件访问与网络限制
05-13	Our response to the TanStack npm supply chain attack	回应 TanStack 供应链攻击，macOS 用户须在 6 月 12 日前更新
05-12	How finance teams use Codex	金融团队使用 Codex 构建 MBR、报告包、方差桥接等
05-12	How NVIDIA engineers and researchers build with Codex	NVIDIA 使用 Codex + GPT-5.5 交付生产系统
05-12	What Parameter Golf taught us about AI-assisted research	1000+ 参与者探索 AI 辅助 ML 研究
05-12	AutoScout24 scales engineering with AI-powered workflows	AutoScout24 使用 Codex/ChatGPT 加速开发
05-11	How ChatGPT adoption broadened in early 2026	Q1 2026 ChatGPT 采纳激增，35 岁以上用户增长最快
05-11	OpenAI launches DeployCo	新企业部署公司 DeployCo 成立，帮助组织落地前沿 AI
05-11	How enterprises are scaling AI	企业 AI 规模化指南：信任、治理、工作流设计
05-11	OpenAI Campus Network	全球学生俱乐部计划开放申请
05-08	Running Codex safely at OpenAI	Codex 内部安全实践：沙箱、审批、网络策略
05-07	Scaling Trusted Access for Cyber with GPT-5.5	GPT-5.5 / GPT-5.5-Cyber 扩展网络安全可信访问
05-07	Advancing voice intelligence with new models in the API	新实时语音模型上线 API
05-07	Testing ads in ChatGPT	ChatGPT 开始测试广告，明确标注、保护隐私
05-07	Introducing Trusted Contact in ChatGPT	检测到严重自伤风险时通知信任联系人
05-07	Simplex rethinks software development with Codex	Simplex 使用 Codex 缩短设计、构建、测试时间
05-07	Parloa builds service agents	Parloa 利用 OpenAI 模型驱动语音客服智能体
05-06	How ChatGPT learns about the world while protecting privacy	ChatGPT 隐私保护机制详解
05-06	Introducing ChatGPT Futures: Class of 2026	26 名学生创新者计划
05-06	Uber uses OpenAI	Uber 使用 OpenAI 驱动 AI 助手和语音功能
05-06	Singular Bank + ChatGPT/Codex	Singular Bank 内部助手每日为银行家节省 60–90 分钟
05-06	How frontier firms are pulling ahead	B2B Signals 研究：前沿企业深度采纳 AI
05-05	GPT-5.5 Instant: smarter, clearer, and more personalized	ChatGPT 默认模型更新，减少幻觉、增强个性化
05-05	GPT-5.5 Instant System Card	系统卡发布
05-05	MRC supercomputer networking protocol	通过 OCP 发布 MRC 协议，提升大规模训练网络韧性
05-05	New ways to buy ChatGPT ads	自助 Ads Manager、CPC 竞价等广告产品扩展
05-05	Advancing youth safety in EMEA	欧洲青年安全蓝图与资助计划
05-04	OpenAI and PwC collaborate on CFO office	联合 PwC 用 AI 智能体自动化财务工作流
05-04	How OpenAI delivers low-latency voice AI at scale	重构 WebRTC 堆栈实现低延迟语音 AI

OpenAI Codex Changelog

日期	更新
05-13	Codex 移动端文档：ChatGPT 手机 App 使用 Codex 的设置、连接与排障
05-11	Auto-review 文档扩展：覆盖审查生命周期、触发条件、失败行为
05-07	Codex for Chrome：Chrome 扩展，后台跨标签页运行
05-06	Analytics 治理文档更新：Analytics 仪表板图表、数据导出、API 端点
05-05	Codex access tokens：Enterprise 管理员可创建访问令牌用于非交互式本地工作流

Anthropic (X 动态)

日期	内容
05-14	发布中美 AI 竞争论文：分析美国及民主盟友在前沿 AI 领先地位及保持策略
05-14	与盖茨基金会合作：承诺 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性
05-11	Claude's Constitution 有声书：两位作者朗读，含写作过程 Q&A
05-07	捐赠 Petri 对齐工具：开源对齐工具 Petri 捐赠给 Meridian Labs，附重大更新
05-07	Bug Bounty 公开：HackerOne 安全漏洞赏金计划向所有人开放

Claude Code Releases

版本	日期	要点
v2.1.142	05-14	`claude agents` 新增 `--add-dir`、`--settings`、`--mcp-config` 等 8 个标志
v2.1.141	05-13	Hook JSON 输出新增 `terminalSequence` 字段，支持桌面通知
v2.1.140	05-12	Agent tool `subagent_type` 匹配改为大小写/分隔符不敏感
v2.1.139	05-11	Agent View（研究预览）：`claude agents` 查看所有会话状态
v2.1.138	05-09	内部修复

xAI (X 动态)

日期	内容
05-14	Grok Build CLI 测试版：面向 SuperGrok Heavy 订阅者的智能体编码工具
05-08	Grok 连接器上线：Grok 可获取邮件、优化 PPT、整理日历/Notion
05-07	图片生成 Quality Mode 上线 API：已生成 3 亿+ 图片，更强真实感和文字渲染
05-05	Grok 4.3 上线 API：xAI 称其在 ArtificialAnlys 智能体工具调用和指令跟随榜、ValsAI 企业领域（案例法、企业金融）均排名第一；100 万 token 上下文，$1.25/$2.50 per M tokens
05-01	语音克隆上线 API：2 分钟创建自定义语音，80+ 预设语音覆盖 28 种语言

Google Blog AI

日期	标题
05-11	AI 驱动的 Google Finance 扩展至欧洲
05-08	创意大师为小企业制作 AI 广告
05-06	Search 中 5 个园艺技巧
05-05	Google × XPRIZE $350 万 Future Vision 电影竞赛
05-04	Gemini API Webhooks 支持长时间任务
05-04	2026 年 4 月 Google AI 更新汇总

二、Benchmark 快照与变化

SWE-Bench Verified（scale.com / live-swe-agent）

当前 Top 10：

#	模型	分数	快照日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

本期显著变化：

模型	变化	前 → 现（排名）	前 → 现（分数）
Warp	排名下降	#11 → #36	75.6 → 71.0
devlo	排名大幅下降	#44 → #83 / #94	70.2 → 58.2 / 54.2
EntroPO + R2E + Qwen3-Coder-30B	排名上升	#103 → #76	52.2 → 60.4
Nemotron-CORTEXA	排名下降	#50 → #82	68.2 → 58.2
EPAM AI/Run + GPT4o	排名下降	#156 → #162	27.0 → 24.0
Solver (2024-09-12)	排名下降	#120 → #126	45.4 → 43.6

devlo 出现两条不同记录（#83 和 #94），可能为不同配置提交。

SWE-Bench Pro Public（Scale Leaderboard）

当前 Top 5：

#	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

本期无变动。

Terminal-Bench 2.0（tbench.ai）

当前 Top 5：

#	模型	分数	快照日期
1	vix / Claude Opus 4.7	90.2	05-15
2	NexAU-AHE / GPT-5.5	84.7	05-14
3	LemonHarness / Multiple	84.5	05-14
4	Capy / GPT-5.5	83.1	05-14
5	Polaris / Multiple	82.2	05-14

本期显著变化：

模型	变化	前 → 现（排名）	前 → 现（分数）
LemonHarness / Multiple	大幅上升	#10 → #3	79.9 → 84.5
Warp / Multiple	排名下降	#44 → #49 / #68	61.2 → 59.1 / 50.1
little-coder / Qwen3.6-35B-A3B	小幅上升	#124 → #119	23.0 → 24.6

三、采集失败来源

LMArena Leaderboard：本期采集失败，无数据可用。

来源 · 60 条

openai.com ×31 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×6 @xai ×5