AI 日报 2026-05-15 10:16

← 返回列表

快速版完整版

核心速览

【OpenAI】Work with Codex from anywhere
OpenAI 将 Codex 接入 ChatGPT 移动端，可跨设备实时监控、引导和批准编码任务。移动化让远程环境中的 coding agent 更易被持续管理。
https://openai.com/index/work-with-codex-from-anywhere
【OpenAI】Our response to the TanStack npm supply chain attack
OpenAI 披露应对 TanStack “Mini Shai-Hulud” npm 供应链攻击的措施，并要求 macOS 用户在 2026 年 6 月 12 日前更新应用。该事件凸显 AI 工具链签名证书与依赖安全的重要性。
https://openai.com/index/our-response-to-the-tanstack-npm-supply-chain-attack
【Anthropic】Gates Foundation partnership
Anthropic 与盖茨基金会合作，承诺投入 2 亿美元的赠款、Claude credits 和技术支持，覆盖全球健康、生命科学、教育、农业和经济流动性。该合作显示大模型能力正加速进入公益与发展领域。
https://x.com/AnthropicAI/status/2054941901900611787
【xAI】Grok Build early beta
xAI 发布 Grok Build 早期 beta，这是面向编码、应用构建和工作流自动化的 agentic CLI，当前开放给 SuperGrok Heavy 订阅者。该产品强化了 coding agent 在命令行场景的竞争。
https://x.com/xai/status/2054993285152989373
【xAI】Grok 4.3 on xAI API
Grok 4.3 登陆 xAI API，支持 100 万 token 上下文，价格为输入 1.25 美元/百万 token、输出 2.50 美元/百万 token。xAI 称其在 agentic tool calling、指令遵循及企业领域榜单领先。
https://x.com/xai/status/2051703217697010103

重大 Benchmark 变化

SWE-bench Verified：EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 从第 103 升至第 76，分数 52.2→60.4，涨幅约 15.7%。
SWE-bench Verified：Nemotron-CORTEXA 从第 50 降至第 82，分数 68.2→58.2，降幅约 14.7%。
SWE-bench Verified：Warp 从第 11 降至第 36，分数 75.6→71.0，排名显著下滑。
SWE-bench Verified：devlo 从第 44 降至第 83/94，分数由 70.2 降至 58.2/54.2，最大降幅约 22.8%。
Terminal-Bench 2.0：LemonHarness / Multiple 从第 10 升至第 3，分数 79.9→84.5，涨幅约 5.8%；Warp / Multiple 最多从第 44 降至第 68，分数 61.2→50.1。

快速预览

OpenAI：5/14 推出 ChatGPT 移动端使用 Codex，并更新敏感对话上下文识别安全能力。
Anthropic：Claude Code 5/14 发布 v2.1.142，新增 claude agents 多项后台会话配置参数；另宣布与 Gates Foundation 2 亿美元合作。
xAI：5/14 开放 Grok Build 早期 beta，这是面向 SuperGrok Heavy 用户的 agentic CLI。
Benchmark：SWE-bench Pro Public 当前 Top1 为 gpt-5.4 (xHigh)*，59.1；Terminal-Bench 2.0 Top1 为 vix / Claude Opus 4.7，90.2。
来源状态：LM Arena leaderboard 本期采集失败；SWE-bench Pro Public 本期无变动。

AI 行业日报

一、新闻动态

说明：以下仅基于用户提供来源整理；同一厂商/来源内按日期倒序排列。

OpenAI 官方新闻

日期	标题	要点	来源
2026-05-14	Work with Codex from anywhere	ChatGPT 移动端可使用 Codex，支持跨设备与远程环境实时监控、引导和审批编码任务。	OpenAI
2026-05-14	Helping ChatGPT better recognize context in sensitive conversations	ChatGPT 安全更新提升敏感对话中的上下文识别能力，帮助随时间检测风险并更安全回应。	OpenAI
2026-05-13	Building a safe, effective sandbox to enable Codex on Windows	OpenAI 介绍为 Windows 上 Codex 构建安全沙箱，包含受控文件访问与网络限制。	OpenAI
2026-05-13	Our response to the TanStack npm supply chain attack	OpenAI 说明对 TanStack “Mini Shai-Hulud” 供应链攻击的响应；macOS 用户需在 2026-06-12 前更新 OpenAI 应用。	OpenAI
2026-05-12	How finance teams use Codex	介绍财务团队用 Codex 生成 MBR、报告包、variance bridge、模型检查与规划场景。	OpenAI Academy
2026-05-12	How NVIDIA engineers and researchers build with Codex	NVIDIA 团队用 Codex 与 GPT-5.5 交付生产系统，并将研究想法转为可运行实验。	OpenAI
2026-05-12	What Parameter Golf taught us about AI-assisted research	Parameter Golf 有 1,000+ 参与者、2,000+ 提交，探索 AI 辅助机器学习研究、编码代理、量化和新模型设计。	OpenAI
2026-05-12	AutoScout24 scales engineering with AI-powered workflows	AutoScout24 Group 使用 Codex 与 ChatGPT 加速开发周期、提升代码质量并扩大 AI 采用。	OpenAI
2026-05-11	How ChatGPT adoption broadened in early 2026	2026 Q1 ChatGPT 采用率上升，35 岁以上用户增长最快，性别使用更均衡。	OpenAI Signals
2026-05-11	OpenAI Campus Network: Student club interest form	OpenAI Campus Network 面向全球学生社团，提供 AI 工具、活动与校园社区连接。	OpenAI
2026-05-11	How enterprises are scaling AI	讨论企业从实验到规模化 AI 影响的路径：信任、治理、工作流设计与质量。	OpenAI Business
2026-05-11	OpenAI launches DeployCo to help businesses build around intelligence	OpenAI 推出 DeployCo，帮助企业将前沿 AI 投入生产并形成可衡量业务影响。	OpenAI
2026-05-08	Running Codex safely at OpenAI	介绍 OpenAI 内部安全运行 Codex 的机制：沙箱、审批、网络策略与 agent-native telemetry。	OpenAI
2026-05-07	Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber	扩展 Trusted Access for Cyber，向经验证防御者提供 GPT-5.5 和 GPT-5.5-Cyber。	OpenAI
2026-05-07	Parloa builds service agents customers want to talk to	Parloa 使用 OpenAI 模型构建可扩展语音驱动 AI 客服代理。	OpenAI
2026-05-07	Advancing voice intelligence with new models in the API	OpenAI API 推出新的实时语音模型，支持推理、翻译与转录。	OpenAI
2026-05-07	Testing ads in ChatGPT	OpenAI 开始在 ChatGPT 中测试广告，强调清晰标注、答案独立、隐私保护与用户控制。	OpenAI
2026-05-07	Introducing Trusted Contact in ChatGPT	ChatGPT 推出可选安全功能 Trusted Contact，在检测严重自伤风险时通知可信联系人。	OpenAI
2026-05-07	Simplex rethinks software development with Codex	Simplex 使用 ChatGPT Enterprise 与 Codex 缩短设计、构建和测试时间。	OpenAI
2026-05-06	How ChatGPT learns about the world while protecting privacy	介绍 ChatGPT 如何保护隐私、减少训练中的个人数据，并提供是否用于改进模型的控制。	OpenAI
2026-05-06	Introducing ChatGPT Futures: Class of 2026	发布 ChatGPT Futures Class of 2026，介绍 26 名使用 AI 进行构建、研究和影响实践的学生。	OpenAI
2026-05-06	Uber uses OpenAI to help people earn smarter and book faster	Uber 使用 OpenAI 支持 AI 助手与语音功能，帮助司机与乘客提升体验。	OpenAI
2026-05-06	Singular Bank helps bankers move fast with ChatGPT and Codex	Singular Bank 内部助手 Singularity 使用 ChatGPT 与 Codex，帮助银行人员每天节省 60–90 分钟。	OpenAI
2026-05-06	How frontier firms are pulling ahead	OpenAI B2B Signals 研究讨论前沿企业如何深化 AI 采用与 Codex agentic workflows。	OpenAI
2026-05-05	GPT-5.5 Instant System Card	发布 GPT-5.5 Instant System Card。	OpenAI
2026-05-05	GPT-5.5 Instant: smarter, clearer, and more personalized	GPT-5.5 Instant 更新 ChatGPT 默认模型，提升准确性、降低幻觉并改进个性化控制。	OpenAI
2026-05-05	Unlocking large scale AI training networks with MRC	OpenAI 介绍 MRC 网络协议，并通过 OCP 发布，用于提升大规模 AI 训练集群韧性与性能。	OpenAI
2026-05-05	New ways to buy ChatGPT ads	ChatGPT 广告扩展 beta 自助 Ads Manager、CPC 出价和增强衡量工具。	OpenAI
2026-05-05	Advancing youth safety and wellbeing in EMEA	发布欧洲青少年安全蓝图与 EMEA Youth & Wellbeing Grants。	OpenAI
2026-05-04	OpenAI and PwC collaborate to reimagine the office of the CFO	OpenAI 与 PwC 合作，帮助企业用 AI agents 自动化财务流程、改进预测与控制。	OpenAI
2026-05-04	How OpenAI delivers low-latency voice AI at scale	介绍 OpenAI 如何重构 WebRTC stack，以支持低延迟、全球规模的实时语音 AI。	OpenAI

OpenAI Codex Changelog

日期	更新	要点	来源
2026-05-13	Codex mobile documentation	增加 ChatGPT 移动端使用 Codex 文档，涵盖设置、connected-host 行为、安全要求和连接故障排查。	Changelog
2026-05-11	Expanded Auto-review documentation	新增 Auto-review 专页，覆盖 reviewer 生命周期、触发条件、失败行为和配置。	Changelog
2026-05-07	Codex for Chrome	新 Chrome 扩展使 Codex 可在浏览器中与应用和网站协作，并由用户控制可访问网站。	Changelog
2026-05-06	Codex analytics governance docs update	Codex 企业治理指南更新 Analytics dashboard、数据导出与企业 Analytics API 端点说明。	Changelog
2026-05-05	Create Codex access tokens	ChatGPT Enterprise workspace 管理员可允许成员创建 Codex access tokens，用于可信非交互本地工作流。	Changelog

Anthropic / Claude Code

日期	来源	更新	要点	链接
2026-05-14	Claude Code Releases	v2.1.142	新增 `claude agents` 参数：`--add-dir`、`--settings`、`--mcp-config`、`--plugin-dir`、`--permission-mode`、`--model`、`--effort`、`--dangerously-skip-permissions`。	GitHub
2026-05-13	Claude Code Releases	v2.1.141	Hook JSON 输出新增 `terminalSequence` 字段，可发出桌面通知、窗口标题和铃声。	GitHub
2026-05-12	Claude Code Releases	v2.1.140	改进 Agent tool 的 `subagent_type` 匹配，支持大小写和分隔符不敏感。	GitHub
2026-05-11	Claude Code Releases	v2.1.139	新增 agent view 研究预览：以单列表查看运行中、阻塞中或已完成的 Claude Code session。	GitHub
2026-05-09	Claude Code Releases	v2.1.138	Internal fixes。	GitHub
unknown	Claude Code Changelog	2.1.142 / 2.1.141 / 2.1.140	Changelog 与对应 release 要点一致：agents flags、`terminalSequence`、`subagent_type` 匹配改进。	CHANGELOG.md

Anthropic 官方 X

日期	要点	来源
2026-05-14	发布关于美中 AI 竞争观点的论文，称美国及民主盟友目前在前沿 AI 领先，并讨论保持领先所需条件。	X
2026-05-14	与 Gates Foundation 合作，承诺 2 亿美元的 grants、Claude credits 和技术支持，覆盖全球健康、生命科学、教育、农业和经济流动性项目。	X
2026-05-11	Claude's Constitution 推出有声书，由 Amanda Askell 和 Joe Carlsmith 朗读，并包含写作过程与哲学背景 Q&A。	X
2026-05-07	Anthropic 将开源 alignment 工具 Petri 捐赠给 Meridian Labs，并发布重大更新。	X
2026-05-07	Anthropic 安全漏洞赏金计划在 HackerOne 上公开。	X

Google AI / Google Blog

日期	标题	要点	来源
2026-05-11	The new AI-powered Google Finance is expanding to Europe.	AI-powered Google Finance 扩展至欧洲。	Google Blog
2026-05-08	See what happens when creative legends use AI to make ads for small businesses.	展示创意人士使用 AI 为小企业制作广告。	Google Blog
2026-05-06	5 gardening tips you can try right in Search	在 Search 中提供可尝试的园艺技巧。	Google Blog
2026-05-05	Google is partnering with XPRIZE and Range Media Partners on the $3.5 million Future Vision film competition.	Google 与 XPRIZE、Range Media Partners 合作举办 350 万美元 Future Vision film competition。	Google Blog
2026-05-04	The latest AI news we announced in April 2026	汇总 Google 2026 年 4 月 AI 新闻。	Google Blog
2026-05-04	Reduce friction and latency for long-running jobs with Webhooks in Gemini API	Gemini API Webhooks 用于降低长运行任务的摩擦和延迟。	Google Blog

xAI 官方 X

日期	要点	来源
2026-05-14	Grok Build 早期 beta 开放给 SuperGrok Heavy 订阅者；这是用于编码、构建应用和自动化工作流的 agentic CLI。	X
2026-05-08	Grok connectors 可获取邮件、改进幻灯片、整理日历或 Notion，适用于 iOS、Android 和 grok.com 的所有计划。	X
2026-05-07	xAI API 上线 Image Generation Quality Mode；该模型已在 Grok 上生成超过 3 亿张图像，强调更高真实感、更强文字渲染和创意控制。	X
2026-05-05	Grok 4.3 登陆 xAI API，称支持 100 万 token 上下文窗口，价格为输入 $1.25/m、输出 $2.50/m。	X
2026-05-01	xAI API 上线 Voice Cloning，可在 2 分钟内创建自定义声音，或从 28 种语言、80+ 声音库中选择。	X

二、当前 Benchmark 快照

1. SWE-bench Verified

来源：swebench-verified
类别：Verified
关键链接：Top 3 来源分别来自 OpenAutoCoder/live-swe-agent、SonarSource、bytedance/trae-agent

Rank	Model	Score	Captured at
1	live-SWE-agent + Claude 4.5 Opus medium (20251101)	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28

2. SWE-bench Pro Public

来源：swebench-pro-public
类别：Public
来源链接：Scale Labs SWE-bench Pro Public Leaderboard
本期无变动。

Rank	Model	Score	Captured at
1	gpt-5.4 (xHigh)*	59.1	2026-05-15
2	Muse Spark*	55.0	2026-05-15
3	claude-opus-4-6 (thinking)*	51.9	2026-05-15

3. Terminal-Bench 2.0

来源：terminal-bench-2
类别：[email protected]
来源链接：Terminal-Bench 2.0 Leaderboard

Rank	Model	Score	Captured at
1	vix / Claude Opus 4.7	90.2	2026-05-15
2	NexAU-AHE / GPT-5.5	84.7	2026-05-14
3	LemonHarness / Multiple	84.5	2026-05-14

三、榜单变化

SWE-bench Verified 变化

Model	变化	Rank	Score
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct	上升	103 → 76	52.2 → 60.4
Warp	下降	11 → 36	75.6 → 71.0
Nemotron-CORTEXA	下降	50 → 82	68.2 → 58.2
devlo	下降	44 → 83	70.2 → 58.2
devlo	下降	44 → 94	70.2 → 54.2
Solver (2024-09-12)	下降	120 → 126	45.4 → 43.6
EPAM AI/Run Developer Agent + GPT4o	下降	156 → 162	27.0 → 24.0

SWE-bench Pro Public 变化

本期无变动。当前 Top 3 见上文「当前 Benchmark 快照」。

Terminal-Bench 2.0 变化

Model	变化	Rank	Score
LemonHarness / Multiple	上升	10 → 3	79.9 → 84.5
little-coder / Qwen3.6-35B-A3B	上升	124 → 119	23.0 → 24.6
Warp / Multiple	下降	44 → 49	61.2 → 59.1
Warp / Multiple	下降	44 → 68	61.2 → 50.1

四、来源状态与注意事项

来源	状态	说明
OpenAI news / Codex changelog	正常	本期有多条 Codex、ChatGPT、安全、企业与语音相关更新。
Anthropic / Claude Code / X	正常	本期有 Claude Code 多版本发布、Gates Foundation 合作、AI 竞争论文等更新。
Google Blog AI	正常	本期主要涉及 AI-powered Google Finance、Gemini API Webhooks、AI 创意与搜索场景。
xAI X	正常	本期包含 Grok Build、Grok connectors、图像质量模式、Grok 4.3 API、语音克隆。
SWE-bench Verified	正常	有榜单变化。
SWE-bench Pro Public	正常	本期无变动。
Terminal-Bench 2.0	正常	有榜单变化。
LM Arena leaderboard	采集失败	本期未纳入 benchmark 快照与变化分析。

来源 · 60 条

openai.com ×31 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×6 @xai ×5