AI 日报 2026-05-18 08:46

2026-05-18 08:46 CST

核心速览

【OpenAI】GPT-5.5 Instant 更新 ChatGPT 默认模型 OpenAI 推出 GPT-5.5 Instant,作为 ChatGPT 新默认模型。该模型在准确性、减少幻觉和个性化控制方面均有提升。这是 GPT-5.5 系列面向大众用户的关键落地。 原文链接

【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中测试广告投放以支撑免费用户访问,同时推出自服务平台 Ads Manager、CPC 竞价及效果衡量工具。广告与对话内容隔离,明确标注,标志 ChatGPT 商业模式重大转向。 原文链接

【OpenAI】成立 DeployCo 企业部署公司 OpenAI 成立新子公司 DeployCo,专门帮助企业将前沿 AI 落地生产环境并转化为可衡量的商业价值,信号明确:从模型研发走向企业深度服务。 原文链接

【xAI】Grok 4.3 发布,登顶多项榜单 xAI 发布 Grok 4.3,在 Artificial Analysis 智能体工具调用和指令遵循排行榜排名第一,在 ValsAI 企业场景(判例法、企业金融)中同样位列榜首。支持 100 万 token 上下文,定价 $1.25/$2.50 每百万 token。 原文链接

【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作,投入 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的拨款、Claude 额度及技术支持。 原文链接


重大 Benchmark 变化

SWE-bench Verified(排名变动≥5 或分数变动≥5%)

模型 排名变动 分数变动 说明
EntroPO + R2E + Qwen3-Coder-30B 103→76 (↑27) 52.2→60.4 (+15.7%) 大幅跃升,30B 代码模型表现抢眼
devlo 44→83/94 (↓39~50) 70.2→54.2~58.2 (-17%~23%) 排名断崖下跌,疑为评估配置变更
Nemotron-CORTEXA 50→82 (↓32) 68.2→58.2 (-14.7%) NVIDIA 系模型排名大幅下滑
Warp 11→36 (↓25) 75.6→71.0 (-6.1%) 跌出 Top 10,但分数降幅较小
EPAM AI/Run + GPT4o 156→162 (↓6) 27.0→24.0 (-11.1%) 分数下降明显

Terminal-bench 2.0(分数变动≥5%)

模型 排名变动 分数变动 说明
LemonHarness / Multiple 11→4 (↑7) 79.9→84.5 (+5.8%) 冲入 Top 5,本周最大赢家
Warp / Multiple 45→66 (↓21) 61.2→50.1 (-18.1%) 排名和分数双降,与 SWE-bench 走势一致

快速预览

  • OpenAI × 马耳他:向全体公民免费提供 ChatGPT Plus,推进国家级 AI 普及
  • xAI Grok 4.3 发布,登顶 ArtificialAnlys agentic tool calling 与 ValsAI 企业榜单;Grok Build CLI 开启 Beta
  • GPT-5.5 登陆 Databricks 企业 agent 工作流;SWE-bench Pro Public Top 3 不变(gpt-5.4 59.1 / Muse Spark 55.0 / claude-opus-4-6 51.9)
  • LM Arena 总榜:Claude Opus 4.6 Thinking (1501.5) 稳居第一,Claude 系列包揽前四
  • Anthropic 与盖茨基金会合作捐赠 2 亿美元;发布中美 AI 竞争立场论文;安全 Bug Bounty 公开上线 HackerOne

一、新闻

OpenAI(按日期倒序)

日期 标题 摘要
05-16 马耳他 ChatGPT Plus 合作 向全体公民提供 ChatGPT Plus 及培训
05-15 Codex 应用于商业运营团队 演示 Codex 在策略简报、决策材料等场景的用法
05-15 Databricks 引入 GPT-5.5 GPT-5.5 在 OfficeQA Pro benchmark 刷新 SOTA 后进入企业 agent 工作流
05-15 Codex 应用于数据科学团队 根因分析、KPI 备忘录等场景演示
05-15 ChatGPT 个人理财功能 美国 Pro 用户可安全关联金融账户获取 AI 理财建议
05-15 Codex 应用于销售团队 Pipeline 简报、会议准备等场景
05-14 Sea Limited 部署 Codex 东南亚 Sea 在工程团队全面部署 Codex
05-14 Codex 移动端 通过 ChatGPT 手机 App 连接 Mac 运行 Codex
05-14 ChatGPT 敏感对话安全更新 提升上下文感知,更好检测风险
05-13 Codex Windows 沙盒 为 Codex 构建安全 Windows 沙盒环境
05-13 TanStack 供应链攻击响应 macOS 用户须在 6 月 12 日前更新 OpenAI 应用
05-12 NVIDIA 工程师使用 Codex NVIDIA 团队用 GPT-5.5 + Codex 交付生产系统
05-12 AutoScout24 AI 工程实践 加速开发周期、提升代码质量
05-12 Codex 应用于财务团队 MBR、方差分析等场景
05-12 Parameter Golf 赛事总结 1000+ 参与者探索 AI 辅助 ML 研究
05-11 ChatGPT Q1 2026 采用趋势 35 岁以上用户增长最快,性别分布更均衡
05-11 DeployCo 企业部署公司 帮助企业将前沿 AI 落地为可量化的业务成果
05-11 校园网络计划 全球学生俱乐部接入 AI 工具与活动
05-11 企业 AI 规模化指南 信任、治理、工作流设计等维度
05-08 Codex 安全运行 沙盒、审批、网络策略及 agent 原生遥测
05-07 Trusted Access for Cyber GPT-5.5 / GPT-5.5-Cyber 助力网络安全防御
05-07 语音智能新模型 实时语音推理、翻译、转录 API 上线
05-07 ChatGPT 广告测试 明确标注、隐私保护、用户可控
05-07 Trusted Contact 安全功能 检测到严重自伤风险时通知信任联系人
05-07 Simplex 与 Codex 减少设计、构建和测试时间
05-07 Parloa AI 客服 语音驱动的可扩展 AI 客服 agent
05-06 ChatGPT 隐私保护 减少训练中的个人数据,用户可控制是否参与模型改进
05-06 ChatGPT Futures 2026 26 位学生创新者
05-06 前沿企业研究报告 深度采用 Codex agent 工作流的前沿企业案例
05-06 Singular Bank 银行家每日节省 60-90 分钟
05-06 Uber AI 助手 司机端智能接单、乘客端快速叫车
05-05 GPT-5.5 Instant ChatGPT 默认模型升级,减少幻觉、增强个性化
05-05 MRC 网络协议 新超算网络协议提升大规模 AI 训练的弹性和性能
05-05 EMEA 青少年安全 欧洲青少年安全蓝图与资助
05-05 ChatGPT 广告管理器 Beta 自助广告、CPC 竞价、增强测量工具
05-04 OpenAI × PwC CFO 合作 AI agent 自动化财务工作流、预测和控制

OpenAI Codex Changelog(按日期倒序)

日期 内容
05-14 移动端 Codex — 通过 ChatGPT App 连接 Mac 主机运行
05-11 Auto-review 文档扩展 — 专用页面覆盖 reviewer 生命周期等
05-08 Codex CLI 0.130.0 — 插件详情展示 bundled hooks
05-07 Codex for Chrome — Chrome 扩展,跨 Tab 后台并行工作
05-07 Codex CLI 0.129.0 — TUI 支持 Vim 编辑模式

Anthropic / x-anthropic(按日期倒序)

日期 内容 链接
05-14 发布中美 AI 竞争立场论文 x
05-14 与盖茨基金会合作,承诺 2 亿美元捐赠 x
05-11 Claude's Constitution 有声书上线 x
05-07 Petri 对齐工具捐赠给 Meridian Labs x
05-07 安全 Bug Bounty 公开上线 HackerOne x

Claude Code Releases(按日期倒序)

日期 版本 要点
05-15 v2.1.143 插件依赖强制执行
05-14 v2.1.142 claude agents 新增 8 个配置 flag
05-13 v2.1.141 Hook JSON 输出新增 terminalSequence 字段
05-12 v2.1.140 Agent tool subagent_type 匹配优化
05-11 v2.1.139 Agent View Research Preview 上线

Google(按日期倒序)

日期 内容 链接
05-11 AI 驱动的 Google Finance 扩展至欧洲 blog
05-08 创意大师用 AI 为小企业制作广告 blog
05-06 Search 园艺 AI 提示 blog
05-05 XPRIZE $350 万未来影像大赛 blog
05-04 Gemini API Webhooks blog

xAI(按日期倒序)

日期 内容 链接
05-15 Grok 订阅集成 NousResearch Hermes Agent x
05-14 Grok Build CLI Beta 发布(SuperGrok Heavy 订阅者) x
05-08 Grok connectors:邮件、日历、Notion 等全平台 x
05-07 Image Generation Quality Mode 上线 API,累计生成 3 亿+ 图片 x
05-05 Grok 4.3 发布:登顶 ArtificialAnlys agentic tool calling 榜单与 ValsAI 企业领域(case law, corporate finance);100 万 token 上下文,$1.25/$2.50 定价 x

二、Benchmark 快照与变化

SWE-bench Verified(来源:GitHub

当前 Top 10:

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8
4 live-SWE-agent + Gemini 3 Pro Preview 77.4
5 Atlassian Rovo Dev 76.8
6 EPAM AI/Run + Claude 4 Sonnet 76.8
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8
8 ACoder 76.4
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8

本期变化(显著项):

模型 排名变化 分数变化
EntroPO + R2E + Qwen3-Coder-30B 103 → 76 52.2 → 60.4 (↑)
Warp 11 → 36 75.6 → 71.0 (↓)
devlo 44 → 83/94 70.2 → 58.2/54.2 (↓)
Nemotron-CORTEXA 50 → 82 68.2 → 58.2 (↓)
EPAM AI/Run + GPT4o 156 → 162 27.0 → 24.0 (↓)
Solver (2024-09-12) 120 → 126 45.4 → 43.6 (↓)

SWE-bench Pro Public(来源:Scale AI,快照 05-18)

当前 Top 5:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89

本期无重大变动。

Terminal-Bench 2.0(来源:tbench.ai,快照 05-15)

当前 Top 5:

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7
4 LemonHarness / Multiple 84.5
5 Capy / GPT-5.5 83.1

显著变化:

模型 排名变化 分数变化
LemonHarness / Multiple 11 → 4 79.9 → 84.5 (↑)
Warp / Multiple(多条提交) 45 → 42/48/66 61.2 → 59.1/50.1 (↓)
little-coder / Qwen3.6-35B-A3B 125 → 117 23.0 → 24.6 (↑)

其余大量条目因新提交者插入产生纯 rank 位移(分数不变),未逐一列出。

LM Arena 总榜(来源:HuggingFace / lmarena-ai,快照 05-14)

当前 Top 5:

排名 模型 ELO
1 claude-opus-4-6-thinking 1501.5
2 claude-opus-4-7-thinking 1500.4
3 claude-opus-4-6 1497.7
4 claude-opus-4-7 1492.1
5 muse-spark 1490.1

本期无变动。Claude 系列持续占据前四。


三、需要关注

  • OpenAI TanStack 供应链攻击:macOS 用户需在 2026-06-12 前更新 OpenAI 应用
  • Anthropic Bug Bounty 已公开,任何人可在 HackerOne 报告漏洞:hackerone.com/anthropic
  • xAI Grok Build CLI 处于早期 Beta,仅限 SuperGrok Heavy 订阅者:x.ai/cli
  • SWE-bench Verified 中 Warp 排名大幅下滑(11→36),devlo 同样显著下降(44→83+)

Sources