AI 日报 2026-05-12 08:58

2026-05-12 08:58 CST

核心速览

2026年5月11日 | AI 行业日报快速版


1.【OpenAI】发布 GPT-5.5 Instant,ChatGPT 默认模型升级 GPT-5.5 Instant 更新 ChatGPT 默认模型,带来更准确的回答、更低的幻觉率和改进的个性化控制。同日发布系统安全卡(System Card)。这是继 GPT-5.5 后的又一次重要迭代。 🔗 原文

2.【OpenAI】正式测试 ChatGPT 广告,拓展商业模式 OpenAI 开始在 ChatGPT 中测试广告,以支持免费用户访问。广告将明确标注、与回答内容独立,并提供用户控制选项。同步推出自助式 Ads Manager 及 CPC 竞价功能,标志着 AI 聊天产品商业化新阶段。 🔗 原文

3.【xAI】Grok 4.3 上线 API,登顶多项排行榜 xAI 发布 Grok 4.3,宣称是最快、最智能的模型。在 Artificial Analysis 排行榜上拿下 agentic tool calling 和指令跟随两项第一,在 ValsAI 企业领域(判例法、企业金融)也排名第一。支持 100 万 token 上下文,定价 $1.25/M 输入、$2.50/M 输出。 🔗 原文

4.【OpenAI】推出 DeployCo,成立企业部署新公司 OpenAI 成立 DeployCo,专注于帮助组织将前沿 AI 带入生产环境,转化为可衡量的业务价值。这是 OpenAI 企业战略的重大布局,从模型供应走向深度企业服务。 🔗 原文

5.【Anthropic】Claude Code v2.1.139 发布 Agent View 功能 Claude Code 新增 Agent View(研究预览),以单一列表展示所有 Claude Code 会话状态——运行中、等待用户操作或已完成。通过 claude agents 命令即可使用,提升了多任务并行管理体验。 🔗 原文


重大 Benchmark 变化

以下为 SWE-bench Verified 及 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:

模型 基准 排名变化 分数变化 变动幅度
devlo SWE-bench Verified #44 → #94 70.2 → 54.2 🔻 排名 -50,分数 -22.8%
Warp SWE-bench Verified #11 → #36 75.6 → 71.0 🔻 排名 -25,分数 -6.1%
Nemotron-CORTEXA SWE-bench Verified #50 → #82 68.2 → 58.2 🔻 排名 -32,分数 -14.7%
EntroPO + R2E + Qwen3-Coder-30B SWE-bench Verified #103 → #76 52.2 → 60.4 🔺 排名 +27,分数 +15.7%
Warp / Multiple Terminal-Bench 2.0 #32 → #54 61.2 → 50.1 🔻 排名 -22,分数 -18.1%
EPAM AI/Run + GPT4o SWE-bench Verified #156 → #162 27.0 → 24.0 🔻 排名 -6,分数 -11.1%

要点:devlo 和 Warp 在 SWE-bench 上大幅下滑;EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型,30B 参数量级表现亮眼。

快速预览

  • OpenAI 发布 DeployCo 企业部署公司,帮助组织将前沿 AI 落地生产并产生可衡量的商业价值
  • Grok 4.3 上线 xAI API,称霸 ArtificialAnlys agentic tool calling 与 instruction following 榜单,1M 上下文窗口,定价 $1.25/$2.50 per million tokens
  • LM Arena 整体榜单 Top 3 均为 Claude 系列:claude-opus-4-7-thinking (1502.65) > claude-opus-4-6-thinking (1502.04) > claude-opus-4-6 (1497.10)
  • SWE-bench Verified 本期多模型排名大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/94
  • Claude Code v2.1.139 发布,新增 Agent View (Research Preview),可统一查看所有会话状态

一、新闻

OpenAI(来源:openai-news、openai-codex-changelog)

日期 标题 要点
05-11 How ChatGPT adoption broadened in early 2026 Q1 2026 ChatGPT 采纳率飙升,35 岁以上用户增长最快,性别使用趋于均衡
05-11 How enterprises are scaling AI 企业 AI 规模化路径:从实验到信任、治理、工作流设计的复合影响
05-11 OpenAI Campus Network 全球学生俱乐部计划,提供 AI 工具和活动支持
05-11 DeployCo 正式发布 新企业部署公司,帮助组织将前沿 AI 带入生产环境
05-08 Running Codex safely Codex 安全运行方案:沙箱、审批、网络策略与 agent 遥测
05-08 Codex CLI 0.130.0 插件详情显示 bundled hooks,分享新增链接元数据与可发现性控制
05-07 GPT-5.5 / GPT-5.5-Cyber Trusted Access for Cyber 扩展网络安全可信访问,帮助验证防御者加速漏洞研究
05-07 Advancing voice intelligence with new models 新实时语音模型支持推理、翻译与转录
05-07 Testing ads in ChatGPT 开始在 ChatGPT 中测试广告,保持答案独立性和隐私保护
05-07 Introducing Trusted Contact in ChatGPT 可选安全功能:检测到严重自伤风险时通知可信联系人
05-07 Codex for Chrome Chrome 扩展:Codex 可跨标签页并行后台工作
05-07 Codex CLI 0.129.0 TUI 支持 Vim 编辑模式(/vim 命令、默认模式配置)
05-06 How ChatGPT learns about the world while protecting privacy 隐私保护机制:减少训练中的个人数据,用户可控制是否用于改进模型
05-06 How frontier firms are pulling ahead B2B Signals 研究:前沿企业深化 AI 采纳,规模化 Codex agentic 工作流
05-06 Singular Bank 案例 内部助手每天帮银行家节省 60–90 分钟
05-06 Uber 案例 AI 助手与语音功能帮助司机和乘客提升体验
05-06 ChatGPT Futures Class of 2026 26 名学生创新者计划
05-05 GPT-5.5 Instant 发布 ChatGPT 默认模型升级:更智能、更准确、减少幻觉、改进个性化
05-05 GPT-5.5 Instant System Card GPT-5.5 Instant 系统卡(安全文档)
05-05 MRC 网络协议发布 新超算网络协议,通过 OCP 开放,提升大规模 AI 训练的弹性和性能
05-05 New ways to buy ChatGPT ads 推出自助 Ads Manager、CPC 竞价和增强测量工具
05-04 OpenAI × PwC CFO 合作 AI agent 自动化财务工作流,改善预测和控制
05-04 Low-latency voice AI at scale 重构 WebRTC 堆栈,实现低延迟全球规模语音 AI
04-30 Advanced Account Security 防钓鱼登录、更强恢复能力
04-30 Codex CLI 0.128.0 持久化 /goal 工作流,支持暂停/恢复/清除
04-29 Where the goblins came from GPT-5 行为中"哥布林"输出的根因分析与修复
04-29 Building compute infrastructure Stargate 扩建算力基础设施以支撑 AGI
04-29 Cybersecurity in the Intelligence Age 五部分网络安全行动计划

Anthropic(来源:claude-code-releases、claude-code-changelog、x-anthropic)

日期 标题 要点
05-11 Claude's Constitution 有声书 Amanda Askell 和 Joe Carlsmith 朗读,含写作过程 Q&A
05-11 Claude Code v2.1.139 新增 Agent View (Research Preview)claude agents 查看所有会话状态
05-09 Claude Code v2.1.138 内部修复
05-09 Claude Code v2.1.137 修复 VSCode 扩展在 Windows 上无法激活的问题
05-08 Claude Code v2.1.136 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL,企业可通过 OTEL 重新启用会话质量调查
05-07 捐赠 Petri 给 Meridian Labs 开源对齐工具 Petri 独立运营,发布重大更新提升测试适应性和深度
05-07 Bug Bounty 公开 HackerOne 安全漏洞赏金计划面向公众开放
05-07 Claude Code v2.1.133 新增 worktree.baseRef 设置,可选 freshhead 作为 worktree 分支基础

Google(来源:google-blog-ai)

日期 标题 要点
05-11 AI-powered Google Finance 扩展至欧洲 AI 驱动的 Google Finance 产品进入欧洲市场
05-08 创意大师用 AI 为小企业做广告 Susan Credle 等创意领袖使用 AI 工具为小企业制作广告
05-06 Search 中的 5 个园艺技巧 AI 增强搜索园艺功能
05-05 XPRIZE Future Vision 电影竞赛 Google 联合 XPRIZE 举办 350 万美元 AI 电影竞赛
05-04 April 2026 AI 月度汇总 四月 AI 更新盘点
05-04 Gemini API Webhooks 事件驱动 Webhooks 减少长时间运行任务的延迟
04-28 Google Translate 20 周年 庆祝 20 周年,推出新功能

xAI(来源:xai-x)

日期 标题 要点
05-08 Grok 连接器扩展 Grok 可连接邮箱、日历、Notion 等,支持全平台
05-07 Image Generation Quality Mode 已生成超过 3 亿张图像;更强的写实、文字渲染和创意控制
05-05 Grok 4.3 发布 最快最强模型,ArtificialAnlys agentic tool calling / instruction following 榜首,ValsAI 企业领域(案例法、企业金融)第一;1M 上下文,$1.25/$2.50 per M tokens
05-01 Voice Cloning API 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言

DeepSeek(来源:deepseek-x)

日期 标题 要点
04-29 DeepSeek-V4-Pro 优惠延期 API 75% 折扣延至 2026 年 5 月 31 日;支持 Claude Code / OpenCode / OpenClaw 集成

二、Benchmark 快照

LM Arena — Overall(采集日期:2026-05-01)

本期无变动。当前 Top 3:

排名 模型 分数 (ELO)
1 claude-opus-4-7-thinking 1502.65
2 claude-opus-4-6-thinking 1502.04
3 claude-opus-4-6 1497.10

来源:LM Arena Leaderboard


SWE-bench Verified(Top 10)

本期无排名变动(Top 10 稳定)。当前 Top 3:

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

来源:GitHub OpenAutoCoder / SonarSource / ByteDance Trae Agent

本期榜单变动详情

模型 排名变化 分数变化 备注
EntroPO + R2E + Qwen3-Coder-30B #103 → #76 52.2 → 60.4 大幅上升,Qwen3-Coder 系列表现抢眼
Warp #11 → #36 75.6 → 71.0 显著下滑
devlo #44 → #83 / #94 70.2 → 58.2 / 54.2 出现两次分数条目,均有大幅下降
Nemotron-CORTEXA #50 → #82 68.2 → 58.2 下滑明显
EPAM AI/Run + GPT4o #156 → #162 ↓ 27.0 → 24.0 小幅下滑
Solver (2024-09-12) #120 → #126 ↓ 45.4 → 43.6 小幅下滑

SWE-bench Pro Public(采集日期:2026-05-12)

本期无变动。当前 Top 3:

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

来源:Scale AI Leaderboard


Terminal-Bench 2.0(Top 10)

本期无排名变动(Top 10 稳定)。当前 Top 3:

排名 模型 分数
1 Codex CLI / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2

来源:tbench.ai

本期榜单变动详情

模型 排名变化 分数变化 备注
Warp / Multiple #32 → #37 / #54 61.2 → 59.1 / 50.1 两条分数记录均下滑

三、来源状态

所有新闻源和 benchmark 源均采集成功,无失败项。

Sources