AI 日报 2026-05-18 08:46

核心速览

【OpenAI】GPT-5.5 Instant 更新 ChatGPT 默认模型 OpenAI 推出 GPT-5.5 Instant，作为 ChatGPT 新默认模型。该模型在准确性、减少幻觉和个性化控制方面均有提升。这是 GPT-5.5 系列面向大众用户的关键落地。原文链接

【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中测试广告投放以支撑免费用户访问，同时推出自服务平台 Ads Manager、CPC 竞价及效果衡量工具。广告与对话内容隔离，明确标注，标志 ChatGPT 商业模式重大转向。原文链接

【OpenAI】成立 DeployCo 企业部署公司 OpenAI 成立新子公司 DeployCo，专门帮助企业将前沿 AI 落地生产环境并转化为可衡量的商业价值，信号明确：从模型研发走向企业深度服务。原文链接

【xAI】Grok 4.3 发布，登顶多项榜单 xAI 发布 Grok 4.3，在 Artificial Analysis 智能体工具调用和指令遵循排行榜排名第一，在 ValsAI 企业场景（判例法、企业金融）中同样位列榜首。支持 100 万 token 上下文，定价 $1.25/$2.50 每百万 token。原文链接

【Anthropic】与盖茨基金会合作，承诺 2 亿美元投入 Anthropic 与盖茨基金会达成合作，投入 2 亿美元用于全球健康、生命科学、教育、农业和经济流动性领域的拨款、Claude 额度及技术支持。原文链接

重大 Benchmark 变化

SWE-bench Verified（排名变动≥5 或分数变动≥5%）

模型	排名变动	分数变动	说明
EntroPO + R2E + Qwen3-Coder-30B	103→76 (↑27)	52.2→60.4 (+15.7%)	大幅跃升，30B 代码模型表现抢眼
devlo	44→83/94 (↓39~50)	70.2→54.2~58.2 (-17%~23%)	排名断崖下跌，疑为评估配置变更
Nemotron-CORTEXA	50→82 (↓32)	68.2→58.2 (-14.7%)	NVIDIA 系模型排名大幅下滑
Warp	11→36 (↓25)	75.6→71.0 (-6.1%)	跌出 Top 10，但分数降幅较小
EPAM AI/Run + GPT4o	156→162 (↓6)	27.0→24.0 (-11.1%)	分数下降明显

Terminal-bench 2.0（分数变动≥5%）

模型	排名变动	分数变动	说明
LemonHarness / Multiple	11→4 (↑7)	79.9→84.5 (+5.8%)	冲入 Top 5，本周最大赢家
Warp / Multiple	45→66 (↓21)	61.2→50.1 (-18.1%)	排名和分数双降，与 SWE-bench 走势一致

快速预览

OpenAI × 马耳他：向全体公民免费提供 ChatGPT Plus，推进国家级 AI 普及
xAI Grok 4.3 发布，登顶 ArtificialAnlys agentic tool calling 与 ValsAI 企业榜单；Grok Build CLI 开启 Beta
GPT-5.5 登陆 Databricks 企业 agent 工作流；SWE-bench Pro Public Top 3 不变（gpt-5.4 59.1 / Muse Spark 55.0 / claude-opus-4-6 51.9）
LM Arena 总榜：Claude Opus 4.6 Thinking (1501.5) 稳居第一，Claude 系列包揽前四
Anthropic 与盖茨基金会合作捐赠 2 亿美元；发布中美 AI 竞争立场论文；安全 Bug Bounty 公开上线 HackerOne

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
05-16	马耳他 ChatGPT Plus 合作	向全体公民提供 ChatGPT Plus 及培训
05-15	Codex 应用于商业运营团队	演示 Codex 在策略简报、决策材料等场景的用法
05-15	Databricks 引入 GPT-5.5	GPT-5.5 在 OfficeQA Pro benchmark 刷新 SOTA 后进入企业 agent 工作流
05-15	Codex 应用于数据科学团队	根因分析、KPI 备忘录等场景演示
05-15	ChatGPT 个人理财功能	美国 Pro 用户可安全关联金融账户获取 AI 理财建议
05-15	Codex 应用于销售团队	Pipeline 简报、会议准备等场景
05-14	Sea Limited 部署 Codex	东南亚 Sea 在工程团队全面部署 Codex
05-14	Codex 移动端	通过 ChatGPT 手机 App 连接 Mac 运行 Codex
05-14	ChatGPT 敏感对话安全更新	提升上下文感知，更好检测风险
05-13	Codex Windows 沙盒	为 Codex 构建安全 Windows 沙盒环境
05-13	TanStack 供应链攻击响应	macOS 用户须在 6 月 12 日前更新 OpenAI 应用
05-12	NVIDIA 工程师使用 Codex	NVIDIA 团队用 GPT-5.5 + Codex 交付生产系统
05-12	AutoScout24 AI 工程实践	加速开发周期、提升代码质量
05-12	Codex 应用于财务团队	MBR、方差分析等场景
05-12	Parameter Golf 赛事总结	1000+ 参与者探索 AI 辅助 ML 研究
05-11	ChatGPT Q1 2026 采用趋势	35 岁以上用户增长最快，性别分布更均衡
05-11	DeployCo 企业部署公司	帮助企业将前沿 AI 落地为可量化的业务成果
05-11	校园网络计划	全球学生俱乐部接入 AI 工具与活动
05-11	企业 AI 规模化指南	信任、治理、工作流设计等维度
05-08	Codex 安全运行	沙盒、审批、网络策略及 agent 原生遥测
05-07	Trusted Access for Cyber	GPT-5.5 / GPT-5.5-Cyber 助力网络安全防御
05-07	语音智能新模型	实时语音推理、翻译、转录 API 上线
05-07	ChatGPT 广告测试	明确标注、隐私保护、用户可控
05-07	Trusted Contact 安全功能	检测到严重自伤风险时通知信任联系人
05-07	Simplex 与 Codex	减少设计、构建和测试时间
05-07	Parloa AI 客服	语音驱动的可扩展 AI 客服 agent
05-06	ChatGPT 隐私保护	减少训练中的个人数据，用户可控制是否参与模型改进
05-06	ChatGPT Futures 2026	26 位学生创新者
05-06	前沿企业研究报告	深度采用 Codex agent 工作流的前沿企业案例
05-06	Singular Bank	银行家每日节省 60-90 分钟
05-06	Uber AI 助手	司机端智能接单、乘客端快速叫车
05-05	GPT-5.5 Instant	ChatGPT 默认模型升级，减少幻觉、增强个性化
05-05	MRC 网络协议	新超算网络协议提升大规模 AI 训练的弹性和性能
05-05	EMEA 青少年安全	欧洲青少年安全蓝图与资助
05-05	ChatGPT 广告管理器 Beta	自助广告、CPC 竞价、增强测量工具
05-04	OpenAI × PwC CFO 合作	AI agent 自动化财务工作流、预测和控制

OpenAI Codex Changelog（按日期倒序）

日期	内容
05-14	移动端 Codex — 通过 ChatGPT App 连接 Mac 主机运行
05-11	Auto-review 文档扩展 — 专用页面覆盖 reviewer 生命周期等
05-08	Codex CLI 0.130.0 — 插件详情展示 bundled hooks
05-07	Codex for Chrome — Chrome 扩展，跨 Tab 后台并行工作
05-07	Codex CLI 0.129.0 — TUI 支持 Vim 编辑模式

Anthropic / x-anthropic（按日期倒序）

日期	内容	链接
05-14	发布中美 AI 竞争立场论文	x
05-14	与盖茨基金会合作，承诺 2 亿美元捐赠	x
05-11	Claude's Constitution 有声书上线	x
05-07	Petri 对齐工具捐赠给 Meridian Labs	x
05-07	安全 Bug Bounty 公开上线 HackerOne	x

Claude Code Releases（按日期倒序）

日期	版本	要点
05-15	v2.1.143	插件依赖强制执行
05-14	v2.1.142	`claude agents` 新增 8 个配置 flag
05-13	v2.1.141	Hook JSON 输出新增 `terminalSequence` 字段
05-12	v2.1.140	Agent tool `subagent_type` 匹配优化
05-11	v2.1.139	Agent View Research Preview 上线

Google（按日期倒序）

日期	内容	链接
05-11	AI 驱动的 Google Finance 扩展至欧洲	blog
05-08	创意大师用 AI 为小企业制作广告	blog
05-06	Search 园艺 AI 提示	blog
05-05	XPRIZE $350 万未来影像大赛	blog
05-04	Gemini API Webhooks	blog

xAI（按日期倒序）

日期	内容	链接
05-15	Grok 订阅集成 NousResearch Hermes Agent	x
05-14	Grok Build CLI Beta 发布（SuperGrok Heavy 订阅者）	x
05-08	Grok connectors：邮件、日历、Notion 等全平台	x
05-07	Image Generation Quality Mode 上线 API，累计生成 3 亿+ 图片	x
05-05	Grok 4.3 发布：登顶 ArtificialAnlys agentic tool calling 榜单与 ValsAI 企业领域（case law, corporate finance）；100 万 token 上下文，$1.25/$2.50 定价	x

二、Benchmark 快照与变化

SWE-bench Verified（来源：GitHub）

当前 Top 10：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8
6	EPAM AI/Run + Claude 4 Sonnet	76.8
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8
8	ACoder	76.4
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8

本期变化（显著项）：

模型	排名变化	分数变化
EntroPO + R2E + Qwen3-Coder-30B	103 → 76	52.2 → 60.4 (↑)
Warp	11 → 36	75.6 → 71.0 (↓)
devlo	44 → 83/94	70.2 → 58.2/54.2 (↓)
Nemotron-CORTEXA	50 → 82	68.2 → 58.2 (↓)
EPAM AI/Run + GPT4o	156 → 162	27.0 → 24.0 (↓)
Solver (2024-09-12)	120 → 126	45.4 → 43.6 (↓)

SWE-bench Pro Public（来源：Scale AI，快照 05-18）

当前 Top 5：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89

本期无重大变动。

Terminal-Bench 2.0（来源：tbench.ai，快照 05-15）

当前 Top 5：

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7
4	LemonHarness / Multiple	84.5
5	Capy / GPT-5.5	83.1

显著变化：

模型	排名变化	分数变化
LemonHarness / Multiple	11 → 4	79.9 → 84.5 (↑)
Warp / Multiple（多条提交）	45 → 42/48/66	61.2 → 59.1/50.1 (↓)
little-coder / Qwen3.6-35B-A3B	125 → 117	23.0 → 24.6 (↑)

其余大量条目因新提交者插入产生纯 rank 位移（分数不变），未逐一列出。

LM Arena 总榜（来源：HuggingFace / lmarena-ai，快照 05-14）

当前 Top 5：

排名	模型	ELO
1	claude-opus-4-6-thinking	1501.5
2	claude-opus-4-7-thinking	1500.4
3	claude-opus-4-6	1497.7
4	claude-opus-4-7	1492.1
5	muse-spark	1490.1

本期无变动。Claude 系列持续占据前四。

三、需要关注

OpenAI TanStack 供应链攻击：macOS 用户需在 2026-06-12 前更新 OpenAI 应用
Anthropic Bug Bounty 已公开，任何人可在 HackerOne 报告漏洞：hackerone.com/anthropic
xAI Grok Build CLI 处于早期 Beta，仅限 SuperGrok Heavy 订阅者：x.ai/cli
SWE-bench Verified 中 Warp 排名大幅下滑（11→36），devlo 同样显著下降（44→83+）

来源 · 66 条

openai.com ×37 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×5 blog.google ×6 @xai ×5