AI 日报 2026-05-15 10:16
2026-05-15 10:16 CST
核心速览
-
【OpenAI】Work with Codex from anywhere
OpenAI 将 Codex 接入 ChatGPT 移动端,可跨设备实时监控、引导和批准编码任务。移动化让远程环境中的 coding agent 更易被持续管理。
https://openai.com/index/work-with-codex-from-anywhere -
【OpenAI】Our response to the TanStack npm supply chain attack
OpenAI 披露应对 TanStack “Mini Shai-Hulud” npm 供应链攻击的措施,并要求 macOS 用户在 2026 年 6 月 12 日前更新应用。该事件凸显 AI 工具链签名证书与依赖安全的重要性。
https://openai.com/index/our-response-to-the-tanstack-npm-supply-chain-attack -
【Anthropic】Gates Foundation partnership
Anthropic 与盖茨基金会合作,承诺投入 2 亿美元的赠款、Claude credits 和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性。该合作显示大模型能力正加速进入公益与发展领域。
https://x.com/AnthropicAI/status/2054941901900611787 -
【xAI】Grok Build early beta
xAI 发布 Grok Build 早期 beta,这是面向编码、应用构建和工作流自动化的 agentic CLI,当前开放给 SuperGrok Heavy 订阅者。该产品强化了 coding agent 在命令行场景的竞争。
https://x.com/xai/status/2054993285152989373 -
【xAI】Grok 4.3 on xAI API
Grok 4.3 登陆 xAI API,支持 100 万 token 上下文,价格为输入 1.25 美元/百万 token、输出 2.50 美元/百万 token。xAI 称其在 agentic tool calling、指令遵循及企业领域榜单领先。
https://x.com/xai/status/2051703217697010103
重大 Benchmark 变化
- SWE-bench Verified:EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 从第 103 升至第 76,分数 52.2→60.4,涨幅约 15.7%。
- SWE-bench Verified:Nemotron-CORTEXA 从第 50 降至第 82,分数 68.2→58.2,降幅约 14.7%。
- SWE-bench Verified:Warp 从第 11 降至第 36,分数 75.6→71.0,排名显著下滑。
- SWE-bench Verified:devlo 从第 44 降至第 83/94,分数由 70.2 降至 58.2/54.2,最大降幅约 22.8%。
- Terminal-Bench 2.0:LemonHarness / Multiple 从第 10 升至第 3,分数 79.9→84.5,涨幅约 5.8%;Warp / Multiple 最多从第 44 降至第 68,分数 61.2→50.1。
快速预览
- OpenAI:5/14 推出 ChatGPT 移动端使用 Codex,并更新敏感对话上下文识别安全能力。
- Anthropic:Claude Code 5/14 发布 v2.1.142,新增
claude agents多项后台会话配置参数;另宣布与 Gates Foundation 2 亿美元合作。 - xAI:5/14 开放 Grok Build 早期 beta,这是面向 SuperGrok Heavy 用户的 agentic CLI。
- Benchmark:SWE-bench Pro Public 当前 Top1 为 gpt-5.4 (xHigh)*,59.1;Terminal-Bench 2.0 Top1 为 vix / Claude Opus 4.7,90.2。
- 来源状态:LM Arena leaderboard 本期采集失败;SWE-bench Pro Public 本期无变动。
AI 行业日报
一、新闻动态
说明:以下仅基于用户提供来源整理;同一厂商/来源内按日期倒序排列。
OpenAI 官方新闻
| 日期 | 标题 | 要点 | 来源 |
|---|---|---|---|
| 2026-05-14 | Work with Codex from anywhere | ChatGPT 移动端可使用 Codex,支持跨设备与远程环境实时监控、引导和审批编码任务。 | OpenAI |
| 2026-05-14 | Helping ChatGPT better recognize context in sensitive conversations | ChatGPT 安全更新提升敏感对话中的上下文识别能力,帮助随时间检测风险并更安全回应。 | OpenAI |
| 2026-05-13 | Building a safe, effective sandbox to enable Codex on Windows | OpenAI 介绍为 Windows 上 Codex 构建安全沙箱,包含受控文件访问与网络限制。 | OpenAI |
| 2026-05-13 | Our response to the TanStack npm supply chain attack | OpenAI 说明对 TanStack “Mini Shai-Hulud” 供应链攻击的响应;macOS 用户需在 2026-06-12 前更新 OpenAI 应用。 | OpenAI |
| 2026-05-12 | How finance teams use Codex | 介绍财务团队用 Codex 生成 MBR、报告包、variance bridge、模型检查与规划场景。 | OpenAI Academy |
| 2026-05-12 | How NVIDIA engineers and researchers build with Codex | NVIDIA 团队用 Codex 与 GPT-5.5 交付生产系统,并将研究想法转为可运行实验。 | OpenAI |
| 2026-05-12 | What Parameter Golf taught us about AI-assisted research | Parameter Golf 有 1,000+ 参与者、2,000+ 提交,探索 AI 辅助机器学习研究、编码代理、量化和新模型设计。 | OpenAI |
| 2026-05-12 | AutoScout24 scales engineering with AI-powered workflows | AutoScout24 Group 使用 Codex 与 ChatGPT 加速开发周期、提升代码质量并扩大 AI 采用。 | OpenAI |
| 2026-05-11 | How ChatGPT adoption broadened in early 2026 | 2026 Q1 ChatGPT 采用率上升,35 岁以上用户增长最快,性别使用更均衡。 | OpenAI Signals |
| 2026-05-11 | OpenAI Campus Network: Student club interest form | OpenAI Campus Network 面向全球学生社团,提供 AI 工具、活动与校园社区连接。 | OpenAI |
| 2026-05-11 | How enterprises are scaling AI | 讨论企业从实验到规模化 AI 影响的路径:信任、治理、工作流设计与质量。 | OpenAI Business |
| 2026-05-11 | OpenAI launches DeployCo to help businesses build around intelligence | OpenAI 推出 DeployCo,帮助企业将前沿 AI 投入生产并形成可衡量业务影响。 | OpenAI |
| 2026-05-08 | Running Codex safely at OpenAI | 介绍 OpenAI 内部安全运行 Codex 的机制:沙箱、审批、网络策略与 agent-native telemetry。 | OpenAI |
| 2026-05-07 | Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber | 扩展 Trusted Access for Cyber,向经验证防御者提供 GPT-5.5 和 GPT-5.5-Cyber。 | OpenAI |
| 2026-05-07 | Parloa builds service agents customers want to talk to | Parloa 使用 OpenAI 模型构建可扩展语音驱动 AI 客服代理。 | OpenAI |
| 2026-05-07 | Advancing voice intelligence with new models in the API | OpenAI API 推出新的实时语音模型,支持推理、翻译与转录。 | OpenAI |
| 2026-05-07 | Testing ads in ChatGPT | OpenAI 开始在 ChatGPT 中测试广告,强调清晰标注、答案独立、隐私保护与用户控制。 | OpenAI |
| 2026-05-07 | Introducing Trusted Contact in ChatGPT | ChatGPT 推出可选安全功能 Trusted Contact,在检测严重自伤风险时通知可信联系人。 | OpenAI |
| 2026-05-07 | Simplex rethinks software development with Codex | Simplex 使用 ChatGPT Enterprise 与 Codex 缩短设计、构建和测试时间。 | OpenAI |
| 2026-05-06 | How ChatGPT learns about the world while protecting privacy | 介绍 ChatGPT 如何保护隐私、减少训练中的个人数据,并提供是否用于改进模型的控制。 | OpenAI |
| 2026-05-06 | Introducing ChatGPT Futures: Class of 2026 | 发布 ChatGPT Futures Class of 2026,介绍 26 名使用 AI 进行构建、研究和影响实践的学生。 | OpenAI |
| 2026-05-06 | Uber uses OpenAI to help people earn smarter and book faster | Uber 使用 OpenAI 支持 AI 助手与语音功能,帮助司机与乘客提升体验。 | OpenAI |
| 2026-05-06 | Singular Bank helps bankers move fast with ChatGPT and Codex | Singular Bank 内部助手 Singularity 使用 ChatGPT 与 Codex,帮助银行人员每天节省 60–90 分钟。 | OpenAI |
| 2026-05-06 | How frontier firms are pulling ahead | OpenAI B2B Signals 研究讨论前沿企业如何深化 AI 采用与 Codex agentic workflows。 | OpenAI |
| 2026-05-05 | GPT-5.5 Instant System Card | 发布 GPT-5.5 Instant System Card。 | OpenAI |
| 2026-05-05 | GPT-5.5 Instant: smarter, clearer, and more personalized | GPT-5.5 Instant 更新 ChatGPT 默认模型,提升准确性、降低幻觉并改进个性化控制。 | OpenAI |
| 2026-05-05 | Unlocking large scale AI training networks with MRC | OpenAI 介绍 MRC 网络协议,并通过 OCP 发布,用于提升大规模 AI 训练集群韧性与性能。 | OpenAI |
| 2026-05-05 | New ways to buy ChatGPT ads | ChatGPT 广告扩展 beta 自助 Ads Manager、CPC 出价和增强衡量工具。 | OpenAI |
| 2026-05-05 | Advancing youth safety and wellbeing in EMEA | 发布欧洲青少年安全蓝图与 EMEA Youth & Wellbeing Grants。 | OpenAI |
| 2026-05-04 | OpenAI and PwC collaborate to reimagine the office of the CFO | OpenAI 与 PwC 合作,帮助企业用 AI agents 自动化财务流程、改进预测与控制。 | OpenAI |
| 2026-05-04 | How OpenAI delivers low-latency voice AI at scale | 介绍 OpenAI 如何重构 WebRTC stack,以支持低延迟、全球规模的实时语音 AI。 | OpenAI |
OpenAI Codex Changelog
| 日期 | 更新 | 要点 | 来源 |
|---|---|---|---|
| 2026-05-13 | Codex mobile documentation | 增加 ChatGPT 移动端使用 Codex 文档,涵盖设置、connected-host 行为、安全要求和连接故障排查。 | Changelog |
| 2026-05-11 | Expanded Auto-review documentation | 新增 Auto-review 专页,覆盖 reviewer 生命周期、触发条件、失败行为和配置。 | Changelog |
| 2026-05-07 | Codex for Chrome | 新 Chrome 扩展使 Codex 可在浏览器中与应用和网站协作,并由用户控制可访问网站。 | Changelog |
| 2026-05-06 | Codex analytics governance docs update | Codex 企业治理指南更新 Analytics dashboard、数据导出与企业 Analytics API 端点说明。 | Changelog |
| 2026-05-05 | Create Codex access tokens | ChatGPT Enterprise workspace 管理员可允许成员创建 Codex access tokens,用于可信非交互本地工作流。 | Changelog |
Anthropic / Claude Code
| 日期 | 来源 | 更新 | 要点 | 链接 |
|---|---|---|---|---|
| 2026-05-14 | Claude Code Releases | v2.1.142 | 新增 claude agents 参数:--add-dir、--settings、--mcp-config、--plugin-dir、--permission-mode、--model、--effort、--dangerously-skip-permissions。 |
GitHub |
| 2026-05-13 | Claude Code Releases | v2.1.141 | Hook JSON 输出新增 terminalSequence 字段,可发出桌面通知、窗口标题和铃声。 |
GitHub |
| 2026-05-12 | Claude Code Releases | v2.1.140 | 改进 Agent tool 的 subagent_type 匹配,支持大小写和分隔符不敏感。 |
GitHub |
| 2026-05-11 | Claude Code Releases | v2.1.139 | 新增 agent view 研究预览:以单列表查看运行中、阻塞中或已完成的 Claude Code session。 | GitHub |
| 2026-05-09 | Claude Code Releases | v2.1.138 | Internal fixes。 | GitHub |
| unknown | Claude Code Changelog | 2.1.142 / 2.1.141 / 2.1.140 | Changelog 与对应 release 要点一致:agents flags、terminalSequence、subagent_type 匹配改进。 |
CHANGELOG.md |
Anthropic 官方 X
| 日期 | 要点 | 来源 |
|---|---|---|
| 2026-05-14 | 发布关于美中 AI 竞争观点的论文,称美国及民主盟友目前在前沿 AI 领先,并讨论保持领先所需条件。 | X |
| 2026-05-14 | 与 Gates Foundation 合作,承诺 2 亿美元的 grants、Claude credits 和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性项目。 | X |
| 2026-05-11 | Claude's Constitution 推出有声书,由 Amanda Askell 和 Joe Carlsmith 朗读,并包含写作过程与哲学背景 Q&A。 | X |
| 2026-05-07 | Anthropic 将开源 alignment 工具 Petri 捐赠给 Meridian Labs,并发布重大更新。 | X |
| 2026-05-07 | Anthropic 安全漏洞赏金计划在 HackerOne 上公开。 | X |
Google AI / Google Blog
| 日期 | 标题 | 要点 | 来源 |
|---|---|---|---|
| 2026-05-11 | The new AI-powered Google Finance is expanding to Europe. | AI-powered Google Finance 扩展至欧洲。 | Google Blog |
| 2026-05-08 | See what happens when creative legends use AI to make ads for small businesses. | 展示创意人士使用 AI 为小企业制作广告。 | Google Blog |
| 2026-05-06 | 5 gardening tips you can try right in Search | 在 Search 中提供可尝试的园艺技巧。 | Google Blog |
| 2026-05-05 | Google is partnering with XPRIZE and Range Media Partners on the $3.5 million Future Vision film competition. | Google 与 XPRIZE、Range Media Partners 合作举办 350 万美元 Future Vision film competition。 | Google Blog |
| 2026-05-04 | The latest AI news we announced in April 2026 | 汇总 Google 2026 年 4 月 AI 新闻。 | Google Blog |
| 2026-05-04 | Reduce friction and latency for long-running jobs with Webhooks in Gemini API | Gemini API Webhooks 用于降低长运行任务的摩擦和延迟。 | Google Blog |
xAI 官方 X
| 日期 | 要点 | 来源 |
|---|---|---|
| 2026-05-14 | Grok Build 早期 beta 开放给 SuperGrok Heavy 订阅者;这是用于编码、构建应用和自动化工作流的 agentic CLI。 | X |
| 2026-05-08 | Grok connectors 可获取邮件、改进幻灯片、整理日历或 Notion,适用于 iOS、Android 和 grok.com 的所有计划。 | X |
| 2026-05-07 | xAI API 上线 Image Generation Quality Mode;该模型已在 Grok 上生成超过 3 亿张图像,强调更高真实感、更强文字渲染和创意控制。 | X |
| 2026-05-05 | Grok 4.3 登陆 xAI API,称支持 100 万 token 上下文窗口,价格为输入 $1.25/m、输出 $2.50/m。 | X |
| 2026-05-01 | xAI API 上线 Voice Cloning,可在 2 分钟内创建自定义声音,或从 28 种语言、80+ 声音库中选择。 | X |
二、当前 Benchmark 快照
1. SWE-bench Verified
- 来源:
swebench-verified - 类别:Verified
- 关键链接:Top 3 来源分别来自 OpenAutoCoder/live-swe-agent、SonarSource、bytedance/trae-agent
| Rank | Model | Score | Captured at |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium (20251101) | 79.2 | 2025-12-15 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | 2025-12-05 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | 2025-09-28 |
2. SWE-bench Pro Public
- 来源:
swebench-pro-public - 类别:Public
- 来源链接:Scale Labs SWE-bench Pro Public Leaderboard
- 本期无变动。
| Rank | Model | Score | Captured at |
|---|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 | 2026-05-15 |
| 2 | Muse Spark* | 55.0 | 2026-05-15 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 | 2026-05-15 |
3. Terminal-Bench 2.0
- 来源:
terminal-bench-2 - 类别:[email protected]
- 来源链接:Terminal-Bench 2.0 Leaderboard
| Rank | Model | Score | Captured at |
|---|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 | 2026-05-15 |
| 2 | NexAU-AHE / GPT-5.5 | 84.7 | 2026-05-14 |
| 3 | LemonHarness / Multiple | 84.5 | 2026-05-14 |
三、榜单变化
SWE-bench Verified 变化
| Model | 变化 | Rank | Score |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct | 上升 | 103 → 76 | 52.2 → 60.4 |
| Warp | 下降 | 11 → 36 | 75.6 → 71.0 |
| Nemotron-CORTEXA | 下降 | 50 → 82 | 68.2 → 58.2 |
| devlo | 下降 | 44 → 83 | 70.2 → 58.2 |
| devlo | 下降 | 44 → 94 | 70.2 → 54.2 |
| Solver (2024-09-12) | 下降 | 120 → 126 | 45.4 → 43.6 |
| EPAM AI/Run Developer Agent + GPT4o | 下降 | 156 → 162 | 27.0 → 24.0 |
SWE-bench Pro Public 变化
本期无变动。当前 Top 3 见上文「当前 Benchmark 快照」。
Terminal-Bench 2.0 变化
| Model | 变化 | Rank | Score |
|---|---|---|---|
| LemonHarness / Multiple | 上升 | 10 → 3 | 79.9 → 84.5 |
| little-coder / Qwen3.6-35B-A3B | 上升 | 124 → 119 | 23.0 → 24.6 |
| Warp / Multiple | 下降 | 44 → 49 | 61.2 → 59.1 |
| Warp / Multiple | 下降 | 44 → 68 | 61.2 → 50.1 |
四、来源状态与注意事项
| 来源 | 状态 | 说明 |
|---|---|---|
| OpenAI news / Codex changelog | 正常 | 本期有多条 Codex、ChatGPT、安全、企业与语音相关更新。 |
| Anthropic / Claude Code / X | 正常 | 本期有 Claude Code 多版本发布、Gates Foundation 合作、AI 竞争论文等更新。 |
| Google Blog AI | 正常 | 本期主要涉及 AI-powered Google Finance、Gemini API Webhooks、AI 创意与搜索场景。 |
| xAI X | 正常 | 本期包含 Grok Build、Grok connectors、图像质量模式、Grok 4.3 API、语音克隆。 |
| SWE-bench Verified | 正常 | 有榜单变化。 |
| SWE-bench Pro Public | 正常 | 本期无变动。 |
| Terminal-Bench 2.0 | 正常 | 有榜单变化。 |
| LM Arena leaderboard | 采集失败 | 本期未纳入 benchmark 快照与变化分析。 |