AI 日报 2026-05-12 08:58

核心速览

2026年5月11日 | AI 行业日报快速版

1.【OpenAI】发布 GPT-5.5 Instant，ChatGPT 默认模型升级 GPT-5.5 Instant 更新 ChatGPT 默认模型，带来更准确的回答、更低的幻觉率和改进的个性化控制。同日发布系统安全卡（System Card）。这是继 GPT-5.5 后的又一次重要迭代。 🔗 原文

2.【OpenAI】正式测试 ChatGPT 广告，拓展商业模式 OpenAI 开始在 ChatGPT 中测试广告，以支持免费用户访问。广告将明确标注、与回答内容独立，并提供用户控制选项。同步推出自助式 Ads Manager 及 CPC 竞价功能，标志着 AI 聊天产品商业化新阶段。 🔗 原文

3.【xAI】Grok 4.3 上线 API，登顶多项排行榜 xAI 发布 Grok 4.3，宣称是最快、最智能的模型。在 Artificial Analysis 排行榜上拿下 agentic tool calling 和指令跟随两项第一，在 ValsAI 企业领域（判例法、企业金融）也排名第一。支持 100 万 token 上下文，定价 $1.25/M 输入、$2.50/M 输出。 🔗 原文

4.【OpenAI】推出 DeployCo，成立企业部署新公司 OpenAI 成立 DeployCo，专注于帮助组织将前沿 AI 带入生产环境，转化为可衡量的业务价值。这是 OpenAI 企业战略的重大布局，从模型供应走向深度企业服务。 🔗 原文

5.【Anthropic】Claude Code v2.1.139 发布 Agent View 功能 Claude Code 新增 Agent View（研究预览），以单一列表展示所有 Claude Code 会话状态——运行中、等待用户操作或已完成。通过 claude agents 命令即可使用，提升了多任务并行管理体验。 🔗 原文

重大 Benchmark 变化

以下为 SWE-bench Verified 及 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目：

模型	基准	排名变化	分数变化	变动幅度
devlo	SWE-bench Verified	#44 → #94	70.2 → 54.2	🔻 排名 -50，分数 -22.8%
Warp	SWE-bench Verified	#11 → #36	75.6 → 71.0	🔻 排名 -25，分数 -6.1%
Nemotron-CORTEXA	SWE-bench Verified	#50 → #82	68.2 → 58.2	🔻 排名 -32，分数 -14.7%
EntroPO + R2E + Qwen3-Coder-30B	SWE-bench Verified	#103 → #76	52.2 → 60.4	🔺 排名 +27，分数 +15.7%
Warp / Multiple	Terminal-Bench 2.0	#32 → #54	61.2 → 50.1	🔻 排名 -22，分数 -18.1%
EPAM AI/Run + GPT4o	SWE-bench Verified	#156 → #162	27.0 → 24.0	🔻 排名 -6，分数 -11.1%

要点：devlo 和 Warp 在 SWE-bench 上大幅下滑；EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型，30B 参数量级表现亮眼。

快速预览

OpenAI 发布 DeployCo 企业部署公司，帮助组织将前沿 AI 落地生产并产生可衡量的商业价值
Grok 4.3 上线 xAI API，称霸 ArtificialAnlys agentic tool calling 与 instruction following 榜单，1M 上下文窗口，定价 $1.25/$2.50 per million tokens
LM Arena 整体榜单 Top 3 均为 Claude 系列：claude-opus-4-7-thinking (1502.65) > claude-opus-4-6-thinking (1502.04) > claude-opus-4-6 (1497.10)
SWE-bench Verified 本期多模型排名大幅变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/94
Claude Code v2.1.139 发布，新增 Agent View (Research Preview)，可统一查看所有会话状态

一、新闻

OpenAI（来源：openai-news、openai-codex-changelog）

日期	标题	要点
05-11	How ChatGPT adoption broadened in early 2026	Q1 2026 ChatGPT 采纳率飙升，35 岁以上用户增长最快，性别使用趋于均衡
05-11	How enterprises are scaling AI	企业 AI 规模化路径：从实验到信任、治理、工作流设计的复合影响
05-11	OpenAI Campus Network	全球学生俱乐部计划，提供 AI 工具和活动支持
05-11	DeployCo 正式发布	新企业部署公司，帮助组织将前沿 AI 带入生产环境
05-08	Running Codex safely	Codex 安全运行方案：沙箱、审批、网络策略与 agent 遥测
05-08	Codex CLI 0.130.0	插件详情显示 bundled hooks，分享新增链接元数据与可发现性控制
05-07	GPT-5.5 / GPT-5.5-Cyber Trusted Access for Cyber	扩展网络安全可信访问，帮助验证防御者加速漏洞研究
05-07	Advancing voice intelligence with new models	新实时语音模型支持推理、翻译与转录
05-07	Testing ads in ChatGPT	开始在 ChatGPT 中测试广告，保持答案独立性和隐私保护
05-07	Introducing Trusted Contact in ChatGPT	可选安全功能：检测到严重自伤风险时通知可信联系人
05-07	Codex for Chrome	Chrome 扩展：Codex 可跨标签页并行后台工作
05-07	Codex CLI 0.129.0	TUI 支持 Vim 编辑模式（/vim 命令、默认模式配置）
05-06	How ChatGPT learns about the world while protecting privacy	隐私保护机制：减少训练中的个人数据，用户可控制是否用于改进模型
05-06	How frontier firms are pulling ahead	B2B Signals 研究：前沿企业深化 AI 采纳，规模化 Codex agentic 工作流
05-06	Singular Bank 案例	内部助手每天帮银行家节省 60–90 分钟
05-06	Uber 案例	AI 助手与语音功能帮助司机和乘客提升体验
05-06	ChatGPT Futures Class of 2026	26 名学生创新者计划
05-05	GPT-5.5 Instant 发布	ChatGPT 默认模型升级：更智能、更准确、减少幻觉、改进个性化
05-05	GPT-5.5 Instant System Card	GPT-5.5 Instant 系统卡（安全文档）
05-05	MRC 网络协议发布	新超算网络协议，通过 OCP 开放，提升大规模 AI 训练的弹性和性能
05-05	New ways to buy ChatGPT ads	推出自助 Ads Manager、CPC 竞价和增强测量工具
05-04	OpenAI × PwC CFO 合作	AI agent 自动化财务工作流，改善预测和控制
05-04	Low-latency voice AI at scale	重构 WebRTC 堆栈，实现低延迟全球规模语音 AI
04-30	Advanced Account Security	防钓鱼登录、更强恢复能力
04-30	Codex CLI 0.128.0	持久化 /goal 工作流，支持暂停/恢复/清除
04-29	Where the goblins came from	GPT-5 行为中"哥布林"输出的根因分析与修复
04-29	Building compute infrastructure	Stargate 扩建算力基础设施以支撑 AGI
04-29	Cybersecurity in the Intelligence Age	五部分网络安全行动计划

Anthropic（来源：claude-code-releases、claude-code-changelog、x-anthropic）

日期	标题	要点
05-11	Claude's Constitution 有声书	Amanda Askell 和 Joe Carlsmith 朗读，含写作过程 Q&A
05-11	Claude Code v2.1.139	新增 Agent View (Research Preview)：`claude agents` 查看所有会话状态
05-09	Claude Code v2.1.138	内部修复
05-09	Claude Code v2.1.137	修复 VSCode 扩展在 Windows 上无法激活的问题
05-08	Claude Code v2.1.136	新增 `CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL`，企业可通过 OTEL 重新启用会话质量调查
05-07	捐赠 Petri 给 Meridian Labs	开源对齐工具 Petri 独立运营，发布重大更新提升测试适应性和深度
05-07	Bug Bounty 公开	HackerOne 安全漏洞赏金计划面向公众开放
05-07	Claude Code v2.1.133	新增 `worktree.baseRef` 设置，可选 `fresh` 或 `head` 作为 worktree 分支基础

Google（来源：google-blog-ai）

日期	标题	要点
05-11	AI-powered Google Finance 扩展至欧洲	AI 驱动的 Google Finance 产品进入欧洲市场
05-08	创意大师用 AI 为小企业做广告	Susan Credle 等创意领袖使用 AI 工具为小企业制作广告
05-06	Search 中的 5 个园艺技巧	AI 增强搜索园艺功能
05-05	XPRIZE Future Vision 电影竞赛	Google 联合 XPRIZE 举办 350 万美元 AI 电影竞赛
05-04	April 2026 AI 月度汇总	四月 AI 更新盘点
05-04	Gemini API Webhooks	事件驱动 Webhooks 减少长时间运行任务的延迟
04-28	Google Translate 20 周年	庆祝 20 周年，推出新功能

xAI（来源：xai-x）

日期	标题	要点
05-08	Grok 连接器扩展	Grok 可连接邮箱、日历、Notion 等，支持全平台
05-07	Image Generation Quality Mode	已生成超过 3 亿张图像；更强的写实、文字渲染和创意控制
05-05	Grok 4.3 发布	最快最强模型，ArtificialAnlys agentic tool calling / instruction following 榜首，ValsAI 企业领域（案例法、企业金融）第一；1M 上下文，$1.25/$2.50 per M tokens
05-01	Voice Cloning API	2 分钟创建自定义语音，80+ 语音库覆盖 28 种语言

DeepSeek（来源：deepseek-x）

日期	标题	要点
04-29	DeepSeek-V4-Pro 优惠延期	API 75% 折扣延至 2026 年 5 月 31 日；支持 Claude Code / OpenCode / OpenClaw 集成

二、Benchmark 快照

LM Arena — Overall（采集日期：2026-05-01）

本期无变动。当前 Top 3：

排名	模型	分数 (ELO)
1	claude-opus-4-7-thinking	1502.65
2	claude-opus-4-6-thinking	1502.04
3	claude-opus-4-6	1497.10

来源：LM Arena Leaderboard

SWE-bench Verified（Top 10）

本期无排名变动（Top 10 稳定）。当前 Top 3：

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

来源：GitHub OpenAutoCoder / SonarSource / ByteDance Trae Agent

本期榜单变动详情

模型	排名变化	分数变化	备注
EntroPO + R2E + Qwen3-Coder-30B	#103 → #76 ↑	52.2 → 60.4	大幅上升，Qwen3-Coder 系列表现抢眼
Warp	#11 → #36 ↓	75.6 → 71.0	显著下滑
devlo	#44 → #83 / #94 ↓	70.2 → 58.2 / 54.2	出现两次分数条目，均有大幅下降
Nemotron-CORTEXA	#50 → #82 ↓	68.2 → 58.2	下滑明显
EPAM AI/Run + GPT4o	#156 → #162 ↓	27.0 → 24.0	小幅下滑
Solver (2024-09-12)	#120 → #126 ↓	45.4 → 43.6	小幅下滑

SWE-bench Pro Public（采集日期：2026-05-12）

本期无变动。当前 Top 3：

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

来源：Scale AI Leaderboard

Terminal-Bench 2.0（Top 10）

本期无排名变动（Top 10 稳定）。当前 Top 3：

排名	模型	分数
1	Codex CLI / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2

来源：tbench.ai

本期榜单变动详情

模型	排名变化	分数变化	备注
Warp / Multiple	#32 → #37 / #54 ↓	61.2 → 59.1 / 50.1	两条分数记录均下滑

三、来源状态

所有新闻源和 benchmark 源均采集成功，无失败项。

来源 · 55 条

openai.com ×27 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×3 blog.google ×7 @xai ×4 @deepseek_ai