AI 日报 2026-05-12 08:58
2026-05-12 08:58 CST
核心速览
2026年5月11日 | AI 行业日报快速版
1.【OpenAI】发布 GPT-5.5 Instant,ChatGPT 默认模型升级 GPT-5.5 Instant 更新 ChatGPT 默认模型,带来更准确的回答、更低的幻觉率和改进的个性化控制。同日发布系统安全卡(System Card)。这是继 GPT-5.5 后的又一次重要迭代。 🔗 原文
2.【OpenAI】正式测试 ChatGPT 广告,拓展商业模式 OpenAI 开始在 ChatGPT 中测试广告,以支持免费用户访问。广告将明确标注、与回答内容独立,并提供用户控制选项。同步推出自助式 Ads Manager 及 CPC 竞价功能,标志着 AI 聊天产品商业化新阶段。 🔗 原文
3.【xAI】Grok 4.3 上线 API,登顶多项排行榜 xAI 发布 Grok 4.3,宣称是最快、最智能的模型。在 Artificial Analysis 排行榜上拿下 agentic tool calling 和指令跟随两项第一,在 ValsAI 企业领域(判例法、企业金融)也排名第一。支持 100 万 token 上下文,定价 $1.25/M 输入、$2.50/M 输出。 🔗 原文
4.【OpenAI】推出 DeployCo,成立企业部署新公司 OpenAI 成立 DeployCo,专注于帮助组织将前沿 AI 带入生产环境,转化为可衡量的业务价值。这是 OpenAI 企业战略的重大布局,从模型供应走向深度企业服务。 🔗 原文
5.【Anthropic】Claude Code v2.1.139 发布 Agent View 功能
Claude Code 新增 Agent View(研究预览),以单一列表展示所有 Claude Code 会话状态——运行中、等待用户操作或已完成。通过 claude agents 命令即可使用,提升了多任务并行管理体验。
🔗 原文
重大 Benchmark 变化
以下为 SWE-bench Verified 及 Terminal-Bench 2.0 中排名变动 ≥5 或分数变动 ≥5% 的条目:
| 模型 | 基准 | 排名变化 | 分数变化 | 变动幅度 |
|---|---|---|---|---|
| devlo | SWE-bench Verified | #44 → #94 | 70.2 → 54.2 | 🔻 排名 -50,分数 -22.8% |
| Warp | SWE-bench Verified | #11 → #36 | 75.6 → 71.0 | 🔻 排名 -25,分数 -6.1% |
| Nemotron-CORTEXA | SWE-bench Verified | #50 → #82 | 68.2 → 58.2 | 🔻 排名 -32,分数 -14.7% |
| EntroPO + R2E + Qwen3-Coder-30B | SWE-bench Verified | #103 → #76 | 52.2 → 60.4 | 🔺 排名 +27,分数 +15.7% |
| Warp / Multiple | Terminal-Bench 2.0 | #32 → #54 | 61.2 → 50.1 | 🔻 排名 -22,分数 -18.1% |
| EPAM AI/Run + GPT4o | SWE-bench Verified | #156 → #162 | 27.0 → 24.0 | 🔻 排名 -6,分数 -11.1% |
要点:devlo 和 Warp 在 SWE-bench 上大幅下滑;EntroPO + R2E + Qwen3-Coder-30B 是唯一显著上升的模型,30B 参数量级表现亮眼。
快速预览
- OpenAI 发布 DeployCo 企业部署公司,帮助组织将前沿 AI 落地生产并产生可衡量的商业价值
- Grok 4.3 上线 xAI API,称霸 ArtificialAnlys agentic tool calling 与 instruction following 榜单,1M 上下文窗口,定价 $1.25/$2.50 per million tokens
- LM Arena 整体榜单 Top 3 均为 Claude 系列:claude-opus-4-7-thinking (1502.65) > claude-opus-4-6-thinking (1502.04) > claude-opus-4-6 (1497.10)
- SWE-bench Verified 本期多模型排名大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/94
- Claude Code v2.1.139 发布,新增 Agent View (Research Preview),可统一查看所有会话状态
一、新闻
OpenAI(来源:openai-news、openai-codex-changelog)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-11 | How ChatGPT adoption broadened in early 2026 | Q1 2026 ChatGPT 采纳率飙升,35 岁以上用户增长最快,性别使用趋于均衡 |
| 05-11 | How enterprises are scaling AI | 企业 AI 规模化路径:从实验到信任、治理、工作流设计的复合影响 |
| 05-11 | OpenAI Campus Network | 全球学生俱乐部计划,提供 AI 工具和活动支持 |
| 05-11 | DeployCo 正式发布 | 新企业部署公司,帮助组织将前沿 AI 带入生产环境 |
| 05-08 | Running Codex safely | Codex 安全运行方案:沙箱、审批、网络策略与 agent 遥测 |
| 05-08 | Codex CLI 0.130.0 | 插件详情显示 bundled hooks,分享新增链接元数据与可发现性控制 |
| 05-07 | GPT-5.5 / GPT-5.5-Cyber Trusted Access for Cyber | 扩展网络安全可信访问,帮助验证防御者加速漏洞研究 |
| 05-07 | Advancing voice intelligence with new models | 新实时语音模型支持推理、翻译与转录 |
| 05-07 | Testing ads in ChatGPT | 开始在 ChatGPT 中测试广告,保持答案独立性和隐私保护 |
| 05-07 | Introducing Trusted Contact in ChatGPT | 可选安全功能:检测到严重自伤风险时通知可信联系人 |
| 05-07 | Codex for Chrome | Chrome 扩展:Codex 可跨标签页并行后台工作 |
| 05-07 | Codex CLI 0.129.0 | TUI 支持 Vim 编辑模式(/vim 命令、默认模式配置) |
| 05-06 | How ChatGPT learns about the world while protecting privacy | 隐私保护机制:减少训练中的个人数据,用户可控制是否用于改进模型 |
| 05-06 | How frontier firms are pulling ahead | B2B Signals 研究:前沿企业深化 AI 采纳,规模化 Codex agentic 工作流 |
| 05-06 | Singular Bank 案例 | 内部助手每天帮银行家节省 60–90 分钟 |
| 05-06 | Uber 案例 | AI 助手与语音功能帮助司机和乘客提升体验 |
| 05-06 | ChatGPT Futures Class of 2026 | 26 名学生创新者计划 |
| 05-05 | GPT-5.5 Instant 发布 | ChatGPT 默认模型升级:更智能、更准确、减少幻觉、改进个性化 |
| 05-05 | GPT-5.5 Instant System Card | GPT-5.5 Instant 系统卡(安全文档) |
| 05-05 | MRC 网络协议发布 | 新超算网络协议,通过 OCP 开放,提升大规模 AI 训练的弹性和性能 |
| 05-05 | New ways to buy ChatGPT ads | 推出自助 Ads Manager、CPC 竞价和增强测量工具 |
| 05-04 | OpenAI × PwC CFO 合作 | AI agent 自动化财务工作流,改善预测和控制 |
| 05-04 | Low-latency voice AI at scale | 重构 WebRTC 堆栈,实现低延迟全球规模语音 AI |
| 04-30 | Advanced Account Security | 防钓鱼登录、更强恢复能力 |
| 04-30 | Codex CLI 0.128.0 | 持久化 /goal 工作流,支持暂停/恢复/清除 |
| 04-29 | Where the goblins came from | GPT-5 行为中"哥布林"输出的根因分析与修复 |
| 04-29 | Building compute infrastructure | Stargate 扩建算力基础设施以支撑 AGI |
| 04-29 | Cybersecurity in the Intelligence Age | 五部分网络安全行动计划 |
Anthropic(来源:claude-code-releases、claude-code-changelog、x-anthropic)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-11 | Claude's Constitution 有声书 | Amanda Askell 和 Joe Carlsmith 朗读,含写作过程 Q&A |
| 05-11 | Claude Code v2.1.139 | 新增 Agent View (Research Preview):claude agents 查看所有会话状态 |
| 05-09 | Claude Code v2.1.138 | 内部修复 |
| 05-09 | Claude Code v2.1.137 | 修复 VSCode 扩展在 Windows 上无法激活的问题 |
| 05-08 | Claude Code v2.1.136 | 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL,企业可通过 OTEL 重新启用会话质量调查 |
| 05-07 | 捐赠 Petri 给 Meridian Labs | 开源对齐工具 Petri 独立运营,发布重大更新提升测试适应性和深度 |
| 05-07 | Bug Bounty 公开 | HackerOne 安全漏洞赏金计划面向公众开放 |
| 05-07 | Claude Code v2.1.133 | 新增 worktree.baseRef 设置,可选 fresh 或 head 作为 worktree 分支基础 |
Google(来源:google-blog-ai)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-11 | AI-powered Google Finance 扩展至欧洲 | AI 驱动的 Google Finance 产品进入欧洲市场 |
| 05-08 | 创意大师用 AI 为小企业做广告 | Susan Credle 等创意领袖使用 AI 工具为小企业制作广告 |
| 05-06 | Search 中的 5 个园艺技巧 | AI 增强搜索园艺功能 |
| 05-05 | XPRIZE Future Vision 电影竞赛 | Google 联合 XPRIZE 举办 350 万美元 AI 电影竞赛 |
| 05-04 | April 2026 AI 月度汇总 | 四月 AI 更新盘点 |
| 05-04 | Gemini API Webhooks | 事件驱动 Webhooks 减少长时间运行任务的延迟 |
| 04-28 | Google Translate 20 周年 | 庆祝 20 周年,推出新功能 |
xAI(来源:xai-x)
| 日期 | 标题 | 要点 |
|---|---|---|
| 05-08 | Grok 连接器扩展 | Grok 可连接邮箱、日历、Notion 等,支持全平台 |
| 05-07 | Image Generation Quality Mode | 已生成超过 3 亿张图像;更强的写实、文字渲染和创意控制 |
| 05-05 | Grok 4.3 发布 | 最快最强模型,ArtificialAnlys agentic tool calling / instruction following 榜首,ValsAI 企业领域(案例法、企业金融)第一;1M 上下文,$1.25/$2.50 per M tokens |
| 05-01 | Voice Cloning API | 2 分钟创建自定义语音,80+ 语音库覆盖 28 种语言 |
DeepSeek(来源:deepseek-x)
| 日期 | 标题 | 要点 |
|---|---|---|
| 04-29 | DeepSeek-V4-Pro 优惠延期 | API 75% 折扣延至 2026 年 5 月 31 日;支持 Claude Code / OpenCode / OpenClaw 集成 |
二、Benchmark 快照
LM Arena — Overall(采集日期:2026-05-01)
本期无变动。当前 Top 3:
| 排名 | 模型 | 分数 (ELO) |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 |
| 2 | claude-opus-4-6-thinking | 1502.04 |
| 3 | claude-opus-4-6 | 1497.10 |
SWE-bench Verified(Top 10)
本期无排名变动(Top 10 稳定)。当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
来源:GitHub OpenAutoCoder / SonarSource / ByteDance Trae Agent
本期榜单变动详情
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| EntroPO + R2E + Qwen3-Coder-30B | #103 → #76 ↑ | 52.2 → 60.4 | 大幅上升,Qwen3-Coder 系列表现抢眼 |
| Warp | #11 → #36 ↓ | 75.6 → 71.0 | 显著下滑 |
| devlo | #44 → #83 / #94 ↓ | 70.2 → 58.2 / 54.2 | 出现两次分数条目,均有大幅下降 |
| Nemotron-CORTEXA | #50 → #82 ↓ | 68.2 → 58.2 | 下滑明显 |
| EPAM AI/Run + GPT4o | #156 → #162 ↓ | 27.0 → 24.0 | 小幅下滑 |
| Solver (2024-09-12) | #120 → #126 ↓ | 45.4 → 43.6 | 小幅下滑 |
SWE-bench Pro Public(采集日期:2026-05-12)
本期无变动。当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
Terminal-Bench 2.0(Top 10)
本期无排名变动(Top 10 稳定)。当前 Top 3:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 |
| 2 | ForgeCode / GPT-5.4 | 81.8 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 |
来源:tbench.ai
本期榜单变动详情
| 模型 | 排名变化 | 分数变化 | 备注 |
|---|---|---|---|
| Warp / Multiple | #32 → #37 / #54 ↓ | 61.2 → 59.1 / 50.1 | 两条分数记录均下滑 |
三、来源状态
所有新闻源和 benchmark 源均采集成功,无失败项。