AI 日报 2026-05-18 08:46
2026-05-18 08:46 CST
核心速览
【OpenAI】GPT-5.5 Instant 更新 ChatGPT 默认模型 OpenAI 推出 GPT-5.5 Instant,作为 ChatGPT 新默认模型。该模型在准确性、减少幻觉和个性化控制方面均有提升。这是 GPT-5.5 系列面向大众用户的关键落地。 原文链接
【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中测试广告投放以支撑免费用户访问,同时推出自服务平台 Ads Manager、CPC 竞价及效果衡量工具。广告与对话内容隔离,明确标注,标志 ChatGPT 商业模式重大转向。 原文链接
【OpenAI】成立 DeployCo 企业部署公司 OpenAI 成立新子公司 DeployCo,专门帮助企业将前沿 AI 落地生产环境并转化为可衡量的商业价值,信号明确:从模型研发走向企业深度服务。 原文链接
【xAI】Grok 4.3 发布,登顶多项榜单 xAI 发布 Grok 4.3,在 Artificial Analysis 智能体工具调用和指令遵循排行榜排名第一,在 ValsAI 企业场景(判例法、企业金融)中同样位列榜首。支持 100 万 token 上下文,定价 $1.25/$2.50 每百万 token。 原文链接
【Anthropic】与盖茨基金会合作,承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作,投入 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的拨款、Claude 额度及技术支持。 原文链接
重大 Benchmark 变化
SWE-bench Verified(排名变动≥5 或分数变动≥5%)
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103→76 (↑27) | 52.2→60.4 (+15.7%) | 大幅跃升,30B 代码模型表现抢眼 |
| devlo | 44→83/94 (↓39~50) | 70.2→54.2~58.2 (-17%~23%) | 排名断崖下跌,疑为评估配置变更 |
| Nemotron-CORTEXA | 50→82 (↓32) | 68.2→58.2 (-14.7%) | NVIDIA 系模型排名大幅下滑 |
| Warp | 11→36 (↓25) | 75.6→71.0 (-6.1%) | 跌出 Top 10,但分数降幅较小 |
| EPAM AI/Run + GPT4o | 156→162 (↓6) | 27.0→24.0 (-11.1%) | 分数下降明显 |
Terminal-bench 2.0(分数变动≥5%)
| 模型 | 排名变动 | 分数变动 | 说明 |
|---|---|---|---|
| LemonHarness / Multiple | 11→4 (↑7) | 79.9→84.5 (+5.8%) | 冲入 Top 5,本周最大赢家 |
| Warp / Multiple | 45→66 (↓21) | 61.2→50.1 (-18.1%) | 排名和分数双降,与 SWE-bench 走势一致 |
快速预览
- OpenAI × 马耳他:向全体公民免费提供 ChatGPT Plus,推进国家级 AI 普及
- xAI Grok 4.3 发布,登顶 ArtificialAnlys agentic tool calling 与 ValsAI 企业榜单;Grok Build CLI 开启 Beta
- GPT-5.5 登陆 Databricks 企业 agent 工作流;SWE-bench Pro Public Top 3 不变(gpt-5.4 59.1 / Muse Spark 55.0 / claude-opus-4-6 51.9)
- LM Arena 总榜:Claude Opus 4.6 Thinking (1501.5) 稳居第一,Claude 系列包揽前四
- Anthropic 与盖茨基金会合作捐赠 2 亿美元;发布中美 AI 竞争立场论文;安全 Bug Bounty 公开上线 HackerOne
一、新闻
OpenAI(按日期倒序)
| 日期 | 标题 | 摘要 |
|---|---|---|
| 05-16 | 马耳他 ChatGPT Plus 合作 | 向全体公民提供 ChatGPT Plus 及培训 |
| 05-15 | Codex 应用于商业运营团队 | 演示 Codex 在策略简报、决策材料等场景的用法 |
| 05-15 | Databricks 引入 GPT-5.5 | GPT-5.5 在 OfficeQA Pro benchmark 刷新 SOTA 后进入企业 agent 工作流 |
| 05-15 | Codex 应用于数据科学团队 | 根因分析、KPI 备忘录等场景演示 |
| 05-15 | ChatGPT 个人理财功能 | 美国 Pro 用户可安全关联金融账户获取 AI 理财建议 |
| 05-15 | Codex 应用于销售团队 | Pipeline 简报、会议准备等场景 |
| 05-14 | Sea Limited 部署 Codex | 东南亚 Sea 在工程团队全面部署 Codex |
| 05-14 | Codex 移动端 | 通过 ChatGPT 手机 App 连接 Mac 运行 Codex |
| 05-14 | ChatGPT 敏感对话安全更新 | 提升上下文感知,更好检测风险 |
| 05-13 | Codex Windows 沙盒 | 为 Codex 构建安全 Windows 沙盒环境 |
| 05-13 | TanStack 供应链攻击响应 | macOS 用户须在 6 月 12 日前更新 OpenAI 应用 |
| 05-12 | NVIDIA 工程师使用 Codex | NVIDIA 团队用 GPT-5.5 + Codex 交付生产系统 |
| 05-12 | AutoScout24 AI 工程实践 | 加速开发周期、提升代码质量 |
| 05-12 | Codex 应用于财务团队 | MBR、方差分析等场景 |
| 05-12 | Parameter Golf 赛事总结 | 1000+ 参与者探索 AI 辅助 ML 研究 |
| 05-11 | ChatGPT Q1 2026 采用趋势 | 35 岁以上用户增长最快,性别分布更均衡 |
| 05-11 | DeployCo 企业部署公司 | 帮助企业将前沿 AI 落地为可量化的业务成果 |
| 05-11 | 校园网络计划 | 全球学生俱乐部接入 AI 工具与活动 |
| 05-11 | 企业 AI 规模化指南 | 信任、治理、工作流设计等维度 |
| 05-08 | Codex 安全运行 | 沙盒、审批、网络策略及 agent 原生遥测 |
| 05-07 | Trusted Access for Cyber | GPT-5.5 / GPT-5.5-Cyber 助力网络安全防御 |
| 05-07 | 语音智能新模型 | 实时语音推理、翻译、转录 API 上线 |
| 05-07 | ChatGPT 广告测试 | 明确标注、隐私保护、用户可控 |
| 05-07 | Trusted Contact 安全功能 | 检测到严重自伤风险时通知信任联系人 |
| 05-07 | Simplex 与 Codex | 减少设计、构建和测试时间 |
| 05-07 | Parloa AI 客服 | 语音驱动的可扩展 AI 客服 agent |
| 05-06 | ChatGPT 隐私保护 | 减少训练中的个人数据,用户可控制是否参与模型改进 |
| 05-06 | ChatGPT Futures 2026 | 26 位学生创新者 |
| 05-06 | 前沿企业研究报告 | 深度采用 Codex agent 工作流的前沿企业案例 |
| 05-06 | Singular Bank | 银行家每日节省 60-90 分钟 |
| 05-06 | Uber AI 助手 | 司机端智能接单、乘客端快速叫车 |
| 05-05 | GPT-5.5 Instant | ChatGPT 默认模型升级,减少幻觉、增强个性化 |
| 05-05 | MRC 网络协议 | 新超算网络协议提升大规模 AI 训练的弹性和性能 |
| 05-05 | EMEA 青少年安全 | 欧洲青少年安全蓝图与资助 |
| 05-05 | ChatGPT 广告管理器 Beta | 自助广告、CPC 竞价、增强测量工具 |
| 05-04 | OpenAI × PwC CFO 合作 | AI agent 自动化财务工作流、预测和控制 |
OpenAI Codex Changelog(按日期倒序)
| 日期 | 内容 |
|---|---|
| 05-14 | 移动端 Codex — 通过 ChatGPT App 连接 Mac 主机运行 |
| 05-11 | Auto-review 文档扩展 — 专用页面覆盖 reviewer 生命周期等 |
| 05-08 | Codex CLI 0.130.0 — 插件详情展示 bundled hooks |
| 05-07 | Codex for Chrome — Chrome 扩展,跨 Tab 后台并行工作 |
| 05-07 | Codex CLI 0.129.0 — TUI 支持 Vim 编辑模式 |
Anthropic / x-anthropic(按日期倒序)
| 日期 | 内容 | 链接 |
|---|---|---|
| 05-14 | 发布中美 AI 竞争立场论文 | x |
| 05-14 | 与盖茨基金会合作,承诺 2 亿美元捐赠 | x |
| 05-11 | Claude's Constitution 有声书上线 | x |
| 05-07 | Petri 对齐工具捐赠给 Meridian Labs | x |
| 05-07 | 安全 Bug Bounty 公开上线 HackerOne | x |
Claude Code Releases(按日期倒序)
| 日期 | 版本 | 要点 |
|---|---|---|
| 05-15 | v2.1.143 | 插件依赖强制执行 |
| 05-14 | v2.1.142 | claude agents 新增 8 个配置 flag |
| 05-13 | v2.1.141 | Hook JSON 输出新增 terminalSequence 字段 |
| 05-12 | v2.1.140 | Agent tool subagent_type 匹配优化 |
| 05-11 | v2.1.139 | Agent View Research Preview 上线 |
Google(按日期倒序)
| 日期 | 内容 | 链接 |
|---|---|---|
| 05-11 | AI 驱动的 Google Finance 扩展至欧洲 | blog |
| 05-08 | 创意大师用 AI 为小企业制作广告 | blog |
| 05-06 | Search 园艺 AI 提示 | blog |
| 05-05 | XPRIZE $350 万未来影像大赛 | blog |
| 05-04 | Gemini API Webhooks | blog |
xAI(按日期倒序)
| 日期 | 内容 | 链接 |
|---|---|---|
| 05-15 | Grok 订阅集成 NousResearch Hermes Agent | x |
| 05-14 | Grok Build CLI Beta 发布(SuperGrok Heavy 订阅者) | x |
| 05-08 | Grok connectors:邮件、日历、Notion 等全平台 | x |
| 05-07 | Image Generation Quality Mode 上线 API,累计生成 3 亿+ 图片 | x |
| 05-05 | Grok 4.3 发布:登顶 ArtificialAnlys agentic tool calling 榜单与 ValsAI 企业领域(case law, corporate finance);100 万 token 上下文,$1.25/$2.50 定价 | x |
二、Benchmark 快照与变化
SWE-bench Verified(来源:GitHub)
当前 Top 10:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 |
| 5 | Atlassian Rovo Dev | 76.8 |
| 6 | EPAM AI/Run + Claude 4 Sonnet | 76.8 |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high) | 76.8 |
| 8 | ACoder | 76.4 |
| 9 | mini-SWE-agent + Gemini 3 Flash (high) | 75.8 |
| 10 | mini-SWE-agent + MiniMax M2.5 (high) | 75.8 |
本期变化(显著项):
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | 103 → 76 | 52.2 → 60.4 (↑) |
| Warp | 11 → 36 | 75.6 → 71.0 (↓) |
| devlo | 44 → 83/94 | 70.2 → 58.2/54.2 (↓) |
| Nemotron-CORTEXA | 50 → 82 | 68.2 → 58.2 (↓) |
| EPAM AI/Run + GPT4o | 156 → 162 | 27.0 → 24.0 (↓) |
| Solver (2024-09-12) | 120 → 126 | 45.4 → 43.6 (↓) |
SWE-bench Pro Public(来源:Scale AI,快照 05-18)
当前 Top 5:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 |
| 5 | claude-opus-4-5-20251101 | 45.89 |
本期无重大变动。
Terminal-Bench 2.0(来源:tbench.ai,快照 05-15)
当前 Top 5:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
| 4 | LemonHarness / Multiple | 84.5 |
| 5 | Capy / GPT-5.5 | 83.1 |
显著变化:
| 模型 | 排名变化 | 分数变化 |
|---|---|---|
| LemonHarness / Multiple | 11 → 4 | 79.9 → 84.5 (↑) |
| Warp / Multiple(多条提交) | 45 → 42/48/66 | 61.2 → 59.1/50.1 (↓) |
| little-coder / Qwen3.6-35B-A3B | 125 → 117 | 23.0 → 24.6 (↑) |
其余大量条目因新提交者插入产生纯 rank 位移(分数不变),未逐一列出。
LM Arena 总榜(来源:HuggingFace / lmarena-ai,快照 05-14)
当前 Top 5:
| 排名 | 模型 | ELO |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1501.5 |
| 2 | claude-opus-4-7-thinking | 1500.4 |
| 3 | claude-opus-4-6 | 1497.7 |
| 4 | claude-opus-4-7 | 1492.1 |
| 5 | muse-spark | 1490.1 |
本期无变动。Claude 系列持续占据前四。
三、需要关注
- OpenAI TanStack 供应链攻击:macOS 用户需在 2026-06-12 前更新 OpenAI 应用
- Anthropic Bug Bounty 已公开,任何人可在 HackerOne 报告漏洞:hackerone.com/anthropic
- xAI Grok Build CLI 处于早期 Beta,仅限 SuperGrok Heavy 订阅者:x.ai/cli
- SWE-bench Verified 中 Warp 排名大幅下滑(11→36),devlo 同样显著下降(44→83+)