AI 日报 2026-05-15 10:16

2026-05-15 10:16 CST

核心速览

  • 【OpenAI】Work with Codex from anywhere
    OpenAI 将 Codex 接入 ChatGPT 移动端,可跨设备实时监控、引导和批准编码任务。移动化让远程环境中的 coding agent 更易被持续管理。
    https://openai.com/index/work-with-codex-from-anywhere

  • 【OpenAI】Our response to the TanStack npm supply chain attack
    OpenAI 披露应对 TanStack “Mini Shai-Hulud” npm 供应链攻击的措施,并要求 macOS 用户在 2026 年 6 月 12 日前更新应用。该事件凸显 AI 工具链签名证书与依赖安全的重要性。
    https://openai.com/index/our-response-to-the-tanstack-npm-supply-chain-attack

  • 【Anthropic】Gates Foundation partnership
    Anthropic 与盖茨基金会合作,承诺投入 2 亿美元的赠款、Claude credits 和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性。该合作显示大模型能力正加速进入公益与发展领域。
    https://x.com/AnthropicAI/status/2054941901900611787

  • 【xAI】Grok Build early beta
    xAI 发布 Grok Build 早期 beta,这是面向编码、应用构建和工作流自动化的 agentic CLI,当前开放给 SuperGrok Heavy 订阅者。该产品强化了 coding agent 在命令行场景的竞争。
    https://x.com/xai/status/2054993285152989373

  • 【xAI】Grok 4.3 on xAI API
    Grok 4.3 登陆 xAI API,支持 100 万 token 上下文,价格为输入 1.25 美元/百万 token、输出 2.50 美元/百万 token。xAI 称其在 agentic tool calling、指令遵循及企业领域榜单领先。
    https://x.com/xai/status/2051703217697010103

重大 Benchmark 变化

  • SWE-bench Verified:EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 从第 103 升至第 76,分数 52.2→60.4,涨幅约 15.7%。
  • SWE-bench Verified:Nemotron-CORTEXA 从第 50 降至第 82,分数 68.2→58.2,降幅约 14.7%。
  • SWE-bench Verified:Warp 从第 11 降至第 36,分数 75.6→71.0,排名显著下滑。
  • SWE-bench Verified:devlo 从第 44 降至第 83/94,分数由 70.2 降至 58.2/54.2,最大降幅约 22.8%。
  • Terminal-Bench 2.0:LemonHarness / Multiple 从第 10 升至第 3,分数 79.9→84.5,涨幅约 5.8%;Warp / Multiple 最多从第 44 降至第 68,分数 61.2→50.1。

快速预览

  • OpenAI:5/14 推出 ChatGPT 移动端使用 Codex,并更新敏感对话上下文识别安全能力。
  • Anthropic:Claude Code 5/14 发布 v2.1.142,新增 claude agents 多项后台会话配置参数;另宣布与 Gates Foundation 2 亿美元合作。
  • xAI:5/14 开放 Grok Build 早期 beta,这是面向 SuperGrok Heavy 用户的 agentic CLI。
  • Benchmark:SWE-bench Pro Public 当前 Top1 为 gpt-5.4 (xHigh)*,59.1;Terminal-Bench 2.0 Top1 为 vix / Claude Opus 4.7,90.2。
  • 来源状态:LM Arena leaderboard 本期采集失败;SWE-bench Pro Public 本期无变动。

AI 行业日报

一、新闻动态

说明:以下仅基于用户提供来源整理;同一厂商/来源内按日期倒序排列。

OpenAI 官方新闻

日期 标题 要点 来源
2026-05-14 Work with Codex from anywhere ChatGPT 移动端可使用 Codex,支持跨设备与远程环境实时监控、引导和审批编码任务。 OpenAI
2026-05-14 Helping ChatGPT better recognize context in sensitive conversations ChatGPT 安全更新提升敏感对话中的上下文识别能力,帮助随时间检测风险并更安全回应。 OpenAI
2026-05-13 Building a safe, effective sandbox to enable Codex on Windows OpenAI 介绍为 Windows 上 Codex 构建安全沙箱,包含受控文件访问与网络限制。 OpenAI
2026-05-13 Our response to the TanStack npm supply chain attack OpenAI 说明对 TanStack “Mini Shai-Hulud” 供应链攻击的响应;macOS 用户需在 2026-06-12 前更新 OpenAI 应用。 OpenAI
2026-05-12 How finance teams use Codex 介绍财务团队用 Codex 生成 MBR、报告包、variance bridge、模型检查与规划场景。 OpenAI Academy
2026-05-12 How NVIDIA engineers and researchers build with Codex NVIDIA 团队用 Codex 与 GPT-5.5 交付生产系统,并将研究想法转为可运行实验。 OpenAI
2026-05-12 What Parameter Golf taught us about AI-assisted research Parameter Golf 有 1,000+ 参与者、2,000+ 提交,探索 AI 辅助机器学习研究、编码代理、量化和新模型设计。 OpenAI
2026-05-12 AutoScout24 scales engineering with AI-powered workflows AutoScout24 Group 使用 Codex 与 ChatGPT 加速开发周期、提升代码质量并扩大 AI 采用。 OpenAI
2026-05-11 How ChatGPT adoption broadened in early 2026 2026 Q1 ChatGPT 采用率上升,35 岁以上用户增长最快,性别使用更均衡。 OpenAI Signals
2026-05-11 OpenAI Campus Network: Student club interest form OpenAI Campus Network 面向全球学生社团,提供 AI 工具、活动与校园社区连接。 OpenAI
2026-05-11 How enterprises are scaling AI 讨论企业从实验到规模化 AI 影响的路径:信任、治理、工作流设计与质量。 OpenAI Business
2026-05-11 OpenAI launches DeployCo to help businesses build around intelligence OpenAI 推出 DeployCo,帮助企业将前沿 AI 投入生产并形成可衡量业务影响。 OpenAI
2026-05-08 Running Codex safely at OpenAI 介绍 OpenAI 内部安全运行 Codex 的机制:沙箱、审批、网络策略与 agent-native telemetry。 OpenAI
2026-05-07 Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber 扩展 Trusted Access for Cyber,向经验证防御者提供 GPT-5.5 和 GPT-5.5-Cyber。 OpenAI
2026-05-07 Parloa builds service agents customers want to talk to Parloa 使用 OpenAI 模型构建可扩展语音驱动 AI 客服代理。 OpenAI
2026-05-07 Advancing voice intelligence with new models in the API OpenAI API 推出新的实时语音模型,支持推理、翻译与转录。 OpenAI
2026-05-07 Testing ads in ChatGPT OpenAI 开始在 ChatGPT 中测试广告,强调清晰标注、答案独立、隐私保护与用户控制。 OpenAI
2026-05-07 Introducing Trusted Contact in ChatGPT ChatGPT 推出可选安全功能 Trusted Contact,在检测严重自伤风险时通知可信联系人。 OpenAI
2026-05-07 Simplex rethinks software development with Codex Simplex 使用 ChatGPT Enterprise 与 Codex 缩短设计、构建和测试时间。 OpenAI
2026-05-06 How ChatGPT learns about the world while protecting privacy 介绍 ChatGPT 如何保护隐私、减少训练中的个人数据,并提供是否用于改进模型的控制。 OpenAI
2026-05-06 Introducing ChatGPT Futures: Class of 2026 发布 ChatGPT Futures Class of 2026,介绍 26 名使用 AI 进行构建、研究和影响实践的学生。 OpenAI
2026-05-06 Uber uses OpenAI to help people earn smarter and book faster Uber 使用 OpenAI 支持 AI 助手与语音功能,帮助司机与乘客提升体验。 OpenAI
2026-05-06 Singular Bank helps bankers move fast with ChatGPT and Codex Singular Bank 内部助手 Singularity 使用 ChatGPT 与 Codex,帮助银行人员每天节省 60–90 分钟。 OpenAI
2026-05-06 How frontier firms are pulling ahead OpenAI B2B Signals 研究讨论前沿企业如何深化 AI 采用与 Codex agentic workflows。 OpenAI
2026-05-05 GPT-5.5 Instant System Card 发布 GPT-5.5 Instant System Card。 OpenAI
2026-05-05 GPT-5.5 Instant: smarter, clearer, and more personalized GPT-5.5 Instant 更新 ChatGPT 默认模型,提升准确性、降低幻觉并改进个性化控制。 OpenAI
2026-05-05 Unlocking large scale AI training networks with MRC OpenAI 介绍 MRC 网络协议,并通过 OCP 发布,用于提升大规模 AI 训练集群韧性与性能。 OpenAI
2026-05-05 New ways to buy ChatGPT ads ChatGPT 广告扩展 beta 自助 Ads Manager、CPC 出价和增强衡量工具。 OpenAI
2026-05-05 Advancing youth safety and wellbeing in EMEA 发布欧洲青少年安全蓝图与 EMEA Youth & Wellbeing Grants。 OpenAI
2026-05-04 OpenAI and PwC collaborate to reimagine the office of the CFO OpenAI 与 PwC 合作,帮助企业用 AI agents 自动化财务流程、改进预测与控制。 OpenAI
2026-05-04 How OpenAI delivers low-latency voice AI at scale 介绍 OpenAI 如何重构 WebRTC stack,以支持低延迟、全球规模的实时语音 AI。 OpenAI

OpenAI Codex Changelog

日期 更新 要点 来源
2026-05-13 Codex mobile documentation 增加 ChatGPT 移动端使用 Codex 文档,涵盖设置、connected-host 行为、安全要求和连接故障排查。 Changelog
2026-05-11 Expanded Auto-review documentation 新增 Auto-review 专页,覆盖 reviewer 生命周期、触发条件、失败行为和配置。 Changelog
2026-05-07 Codex for Chrome 新 Chrome 扩展使 Codex 可在浏览器中与应用和网站协作,并由用户控制可访问网站。 Changelog
2026-05-06 Codex analytics governance docs update Codex 企业治理指南更新 Analytics dashboard、数据导出与企业 Analytics API 端点说明。 Changelog
2026-05-05 Create Codex access tokens ChatGPT Enterprise workspace 管理员可允许成员创建 Codex access tokens,用于可信非交互本地工作流。 Changelog

Anthropic / Claude Code

日期 来源 更新 要点 链接
2026-05-14 Claude Code Releases v2.1.142 新增 claude agents 参数:--add-dir--settings--mcp-config--plugin-dir--permission-mode--model--effort--dangerously-skip-permissions GitHub
2026-05-13 Claude Code Releases v2.1.141 Hook JSON 输出新增 terminalSequence 字段,可发出桌面通知、窗口标题和铃声。 GitHub
2026-05-12 Claude Code Releases v2.1.140 改进 Agent tool 的 subagent_type 匹配,支持大小写和分隔符不敏感。 GitHub
2026-05-11 Claude Code Releases v2.1.139 新增 agent view 研究预览:以单列表查看运行中、阻塞中或已完成的 Claude Code session。 GitHub
2026-05-09 Claude Code Releases v2.1.138 Internal fixes。 GitHub
unknown Claude Code Changelog 2.1.142 / 2.1.141 / 2.1.140 Changelog 与对应 release 要点一致:agents flags、terminalSequencesubagent_type 匹配改进。 CHANGELOG.md

Anthropic 官方 X

日期 要点 来源
2026-05-14 发布关于美中 AI 竞争观点的论文,称美国及民主盟友目前在前沿 AI 领先,并讨论保持领先所需条件。 X
2026-05-14 与 Gates Foundation 合作,承诺 2 亿美元的 grants、Claude credits 和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性项目。 X
2026-05-11 Claude's Constitution 推出有声书,由 Amanda Askell 和 Joe Carlsmith 朗读,并包含写作过程与哲学背景 Q&A。 X
2026-05-07 Anthropic 将开源 alignment 工具 Petri 捐赠给 Meridian Labs,并发布重大更新。 X
2026-05-07 Anthropic 安全漏洞赏金计划在 HackerOne 上公开。 X

Google AI / Google Blog

日期 标题 要点 来源
2026-05-11 The new AI-powered Google Finance is expanding to Europe. AI-powered Google Finance 扩展至欧洲。 Google Blog
2026-05-08 See what happens when creative legends use AI to make ads for small businesses. 展示创意人士使用 AI 为小企业制作广告。 Google Blog
2026-05-06 5 gardening tips you can try right in Search 在 Search 中提供可尝试的园艺技巧。 Google Blog
2026-05-05 Google is partnering with XPRIZE and Range Media Partners on the $3.5 million Future Vision film competition. Google 与 XPRIZE、Range Media Partners 合作举办 350 万美元 Future Vision film competition。 Google Blog
2026-05-04 The latest AI news we announced in April 2026 汇总 Google 2026 年 4 月 AI 新闻。 Google Blog
2026-05-04 Reduce friction and latency for long-running jobs with Webhooks in Gemini API Gemini API Webhooks 用于降低长运行任务的摩擦和延迟。 Google Blog

xAI 官方 X

日期 要点 来源
2026-05-14 Grok Build 早期 beta 开放给 SuperGrok Heavy 订阅者;这是用于编码、构建应用和自动化工作流的 agentic CLI。 X
2026-05-08 Grok connectors 可获取邮件、改进幻灯片、整理日历或 Notion,适用于 iOS、Android 和 grok.com 的所有计划。 X
2026-05-07 xAI API 上线 Image Generation Quality Mode;该模型已在 Grok 上生成超过 3 亿张图像,强调更高真实感、更强文字渲染和创意控制。 X
2026-05-05 Grok 4.3 登陆 xAI API,称支持 100 万 token 上下文窗口,价格为输入 $1.25/m、输出 $2.50/m。 X
2026-05-01 xAI API 上线 Voice Cloning,可在 2 分钟内创建自定义声音,或从 28 种语言、80+ 声音库中选择。 X

二、当前 Benchmark 快照

1. SWE-bench Verified

Rank Model Score Captured at
1 live-SWE-agent + Claude 4.5 Opus medium (20251101) 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28

2. SWE-bench Pro Public

Rank Model Score Captured at
1 gpt-5.4 (xHigh)* 59.1 2026-05-15
2 Muse Spark* 55.0 2026-05-15
3 claude-opus-4-6 (thinking)* 51.9 2026-05-15

3. Terminal-Bench 2.0

Rank Model Score Captured at
1 vix / Claude Opus 4.7 90.2 2026-05-15
2 NexAU-AHE / GPT-5.5 84.7 2026-05-14
3 LemonHarness / Multiple 84.5 2026-05-14

三、榜单变化

SWE-bench Verified 变化

Model 变化 Rank Score
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 上升 103 → 76 52.2 → 60.4
Warp 下降 11 → 36 75.6 → 71.0
Nemotron-CORTEXA 下降 50 → 82 68.2 → 58.2
devlo 下降 44 → 83 70.2 → 58.2
devlo 下降 44 → 94 70.2 → 54.2
Solver (2024-09-12) 下降 120 → 126 45.4 → 43.6
EPAM AI/Run Developer Agent + GPT4o 下降 156 → 162 27.0 → 24.0

SWE-bench Pro Public 变化

本期无变动。当前 Top 3 见上文「当前 Benchmark 快照」。

Terminal-Bench 2.0 变化

Model 变化 Rank Score
LemonHarness / Multiple 上升 10 → 3 79.9 → 84.5
little-coder / Qwen3.6-35B-A3B 上升 124 → 119 23.0 → 24.6
Warp / Multiple 下降 44 → 49 61.2 → 59.1
Warp / Multiple 下降 44 → 68 61.2 → 50.1

四、来源状态与注意事项

来源 状态 说明
OpenAI news / Codex changelog 正常 本期有多条 Codex、ChatGPT、安全、企业与语音相关更新。
Anthropic / Claude Code / X 正常 本期有 Claude Code 多版本发布、Gates Foundation 合作、AI 竞争论文等更新。
Google Blog AI 正常 本期主要涉及 AI-powered Google Finance、Gemini API Webhooks、AI 创意与搜索场景。
xAI X 正常 本期包含 Grok Build、Grok connectors、图像质量模式、Grok 4.3 API、语音克隆。
SWE-bench Verified 正常 有榜单变化。
SWE-bench Pro Public 正常 本期无变动。
Terminal-Bench 2.0 正常 有榜单变化。
LM Arena leaderboard 采集失败 本期未纳入 benchmark 快照与变化分析。

Sources