AI 日报 2026-05-11 08:47
2026-05-11 08:47 CST
核心速览
1.【OpenAI】GPT-5.5 Instant 发布:更智能、更个性化 GPT-5.5 Instant 成为 ChatGPT 默认模型,在准确性、减少幻觉和个性化控制方面均有显著提升。同时发布 GPT-5.5-Cyber 专用于网络安全领域。这是 OpenAI 旗舰模型的又一次重要迭代。 原文链接
2.【OpenAI】ChatGPT 开始测试广告 OpenAI 在 ChatGPT 中启动广告测试,以支持免费用户访问。广告将明确标注、独立于回答内容,并承诺强隐私保护和用户控制权。这是 ChatGPT 商业模式的重大转变,同时上线了自助广告管理器和 CPC 竞价。 原文链接
3.【xAI】Grok 4.3 上线 API Grok 4.3 是 xAI 迄今最快、最智能的模型,在 Artificial Analysis 榜单的 agentic tool calling 和指令跟随领域排名第一,在 ValsAI 企业领域(案例法、企业金融)也排名第一。支持 100 万 token 上下文,定价 $1.25/m 输入、$2.50/m 输出。 原文链接
4.【Anthropic】将开源对齐工具 Petri 捐赠给 Meridian Labs Anthropic 将开源 AI 对齐工具 Petri 捐赠给独立机构 Meridian Labs,以推动其独立发展。同步发布重大更新,提升测试的适应性、真实性和深度。此举体现了 Anthropic 在 AI 安全领域的开放策略。 原文链接
5.【OpenAI】发布 MRC 超算网络协议 OpenAI 发布 MRC(Multipath Reliable Connection)新型超算网络协议,通过 OCP 开源,旨在提升大规模 AI 训练集群的网络弹性和性能。这是 OpenAI 在基础设施层面的重要技术贡献。 原文链接
重大 Benchmark 变化
| 模型 | Benchmark | 排名变动 | 分数变动 |
|---|---|---|---|
| devlo | SWE-bench Verified | #44 → #83/94 | 70.2 → 54.2(-22.8%) |
| Nemotron-CORTEXA | SWE-bench Verified | #50 → #82 | 68.2 → 58.2(-14.7%) |
| Warp | SWE-bench Verified | #11 → #36 | 75.6 → 71.0(-6.1%) |
| EntroPO + R2E + Qwen3-Coder-30B | SWE-bench Verified | #103 → #76 | 52.2 → 60.4(+15.7%) |
| Warp / Multiple | Terminal-bench 2.0 | #32 → #54 | 61.2 → 50.1(-18.1%) |
要点: devlo 和 Warp 在 SWE-bench 上排名大幅下滑,Warp 同时在 Terminal-bench 也出现显著下降。EntroPO + R2E + Qwen3-Coder-30B 是唯一上升项,排名提升 27 位、分数增长 15.7%,值得关注。
快速预览
- OpenAI 发布 Codex 安全运行白皮书:详述沙箱、审批、网络策略及 agent-native 可观测性方案。
- GPT-5.5 Instant 上线:成为 ChatGPT 默认模型,减少幻觉、提升个性化;同步发布系统安全卡。
- xAI Grok 4.3 发布:在 Artificial Analys agentic tool calling 及 ValsAI 企业领域排名 #1,支持 100 万 token 上下文。
- SWE-bench Verified 多项大幅变动:devlo 从 #44 跌至 #83/#94,Warp 从 #11 跌至 #36,Nemotron-CORTEXA 从 #50 跌至 #82。
- LM Arena / SWE-bench Pro Public / Terminal-bench 2 Top 榜本期无变动;Terminal-bench 中 Warp/Multiple 排名下滑。
一、新闻
OpenAI
| 日期 | 标题 | 摘要 | 来源 |
|---|---|---|---|
| 2026-05-08 | Running Codex safely at OpenAI | Codex 安全运行:沙箱、审批、网络策略、agent-native 遥测 | 链接 |
| 2026-05-07 | Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber | GPT-5.5 及 GPT-5.5-Cyber 扩展网络安全可信访问,加速漏洞研究 | 链接 |
| 2026-05-07 | Advancing voice intelligence with new models in the API | 新实时语音模型:推理、翻译、转录,支持更自然的语音交互 | 链接 |
| 2026-05-07 | Testing ads in ChatGPT | 开始在 ChatGPT 中测试广告,支持免费用户访问,明确标注 | 链接 |
| 2026-05-07 | Introducing Trusted Contact in ChatGPT | 新增可信联系人功能:检测到严重自伤风险时通知指定联系人 | 链接 |
| 2026-05-07 | Parloa builds service agents customers want to talk to | Parloa 利用 OpenAI 模型构建语音客服代理 | 链接 |
| 2026-05-07 | Simplex rethinks software development with Codex | Simplex 用 Codex 缩短设计、构建和测试时间 | 链接 |
| 2026-05-06 | How ChatGPT learns about the world while protecting privacy | ChatGPT 隐私保护机制:减少训练中的个人数据使用 | 链接 |
| 2026-05-06 | Uber uses OpenAI to help people earn smarter and book faster | Uber 集成 OpenAI 驱动的 AI 助手与语音功能 | 链接 |
| 2026-05-06 | How frontier firms are pulling ahead | B2B Signals 研究:前沿企业如何深化 AI 采纳与 Codex agentic 工作流 | 链接 |
| 2026-05-06 | Introducing ChatGPT Futures: Class of 2026 | ChatGPT Futures 2026 届学员计划 | 链接 |
| 2026-05-06 | Singular Bank helps bankers move fast with ChatGPT and Codex | Singular Bank 内部助手每日为银行家节省 60-90 分钟 | 链接 |
| 2026-05-05 | GPT-5.5 Instant: smarter, clearer, and more personalized | GPT-5.5 Instant 成为 ChatGPT 默认模型,减少幻觉、提升准确性 | 链接 |
| 2026-05-05 | GPT-5.5 Instant System Card | GPT-5.5 Instant 系统安全卡发布 | 链接 |
| 2026-05-05 | Unlocking large scale AI training networks with MRC | MRC(多路径可靠连接)新协议通过 OCP 发布,改善大规模训练集群的韧性和性能 | 链接 |
| 2026-05-05 | Advancing youth safety and wellbeing in EMEA | 欧洲青少年安全蓝图及 EMEA 青少年与福祉资助计划 | 链接 |
| 2026-05-05 | New ways to buy ChatGPT ads | ChatGPT 广告自服务平台 beta、CPC 竞价、增强衡量工具 | 链接 |
| 2026-05-04 | OpenAI and PwC collaborate to reimagine the office of the CFO | OpenAI 与 PwC 合作推动 CFO 职能的 AI 自动化 | 链接 |
| 2026-05-04 | How OpenAI delivers low-latency voice AI at scale | WebRTC 栈重建以支撑低延迟全球实时语音 AI | 链接 |
| 2026-04-30 | Introducing Advanced Account Security | 防钓鱼登录、更强恢复机制、防账户接管 | 链接 |
| 2026-04-29 | Where the goblins came from | GPT-5 性格驱动怪异输出的根因分析与修复 | 链接 |
| 2026-04-29 | Building the compute infrastructure for the Intelligence Age | Stargate 扩展以支撑 AGI 算力基础设施 | 链接 |
| 2026-04-29 | Cybersecurity in the Intelligence Age | 五项网络安全行动计划 | 链接 |
| 2026-04-28 | OpenAI models, Codex, and Managed Agents come to AWS | OpenAI 模型、Codex 和 Managed Agents 登陆 AWS | 链接 |
| 2026-04-28 | Our commitment to community safety | ChatGPT 社区安全:模型防护、滥用检测、政策执行 | 链接 |
| 2026-04-27 | OpenAI available at FedRAMP Moderate | ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权 | 链接 |
| 2026-04-27 | The next phase of the Microsoft OpenAI partnership | OpenAI 与微软修订合作协议,简化伙伴关系并增加长期确定性 | 链接 |
OpenAI Codex Changelog
| 日期 | 版本/标题 | 摘要 | 来源 |
|---|---|---|---|
| 2026-05-08 | Codex CLI 0.130.0 | 插件详情显示 bundled hooks;插件分享支持链接元数据与可发现性控制 | 链接 |
| 2026-05-07 | Codex for Chrome | Chrome 扩展:跨标签页后台并行工作,用户控制可访问网站 | 链接 |
| 2026-05-07 | Codex CLI 0.129.0 | TUI composer 支持 Vim 编辑模式 | 链接 |
| 2026-05-06 | Codex analytics governance docs | 企业治理指南更新:Analytics 仪表盘、数据导出及 API 端点 | 链接 |
| 2026-04-30 | Codex CLI 0.128.0 | 持久化 /goal 工作流:app-server API、模型工具、运行时续接、TUI 控制 | 链接 |
Anthropic
| 日期 | 标题 | 摘要 | 来源 |
|---|---|---|---|
| 2026-05-09 | Claude Code v2.1.138 | 内部修复 | 链接 |
| 2026-05-09 | Claude Code v2.1.137 | VSCode 扩展在 Windows 上无法激活的问题已修复 | 链接 |
| 2026-05-08 | Claude Code v2.1.136 | 新增 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL 环境变量 |
链接 |
| 2026-05-07 | Claude Code v2.1.133 | 新增 worktree.baseRef 设置(fresh / head),默认值变更 |
链接 |
| 2026-05-07 | Anthropic 捐赠 Petri 对齐工具 | 将开源对齐工具 Petri 捐赠给 Meridian Labs 并发布重大更新 | 链接 |
| 2026-05-07 | 安全 Bug Bounty 公开上线 HackerOne | 安全漏洞赏金计划从私有转为公开 | 链接 |
| 2026-05-06 | Claude Code v2.1.132 | 新增 CLAUDE_CODE_SESSION_ID 环境变量到 Bash 工具子进程 |
链接 |
xAI
| 日期 | 标题 | 摘要 | 来源 |
|---|---|---|---|
| 2026-05-08 | Grok 新增连接器 | 支持邮件、幻灯片、日历、Notion 等连接器,覆盖所有计划 | 链接 |
| 2026-05-07 | Image Generation Quality Mode 上线 API | 已驱动超 3 亿张图像生成;更高真实感、更强文字渲染 | 链接 |
| 2026-05-05 | Grok 4.3 发布 | 最快最智能模型;Artificial Analys agentic tool calling 及 instruction following 排名 #1;ValsAI 企业领域(case law、corporate finance)排名 #1;100 万 token 上下文;定价 $1.25/M 输入、$2.50/M 输出 | 链接 |
| 2026-05-01 | Voice Cloning 上线 API | 2 分钟创建自定义语音;80+ 语音库覆盖 28 种语言 | 链接 |
| 日期 | 标题 | 摘要 | 来源 |
|---|---|---|---|
| 2026-05-08 | The Small Brief: Creative legends use AI to make ads | 创意行业领袖用 AI 为小企业制作广告 | 链接 |
| 2026-05-06 | 5 gardening tips you can try right in Search | Search 新增园艺 AI 功能 | 链接 |
| 2026-05-05 | Google + XPRIZE Future Vision film competition | 联合 XPRIZE 和 Range Media Partners 推出 350 万美元 Future Vision 电影竞赛 | 链接 |
| 2026-05-04 | Webhooks in Gemini API | Gemini API Webhooks:减少长时任务的摩擦与延迟 | 链接 |
| 2026-05-04 | The latest AI news announced in April 2026 | Google 2026 年 4 月 AI 动态汇总 | 链接 |
| 2026-04-28 | Celebrating 20 years of Google Translate | Google Translate 20 周年 | 链接 |
| 2026-04-27 | AI Agents Vibe Coding Course from Google and Kaggle | Google 与 Kaggle 合作推出 AI Agents Vibe Coding 课程 | 链接 |
DeepSeek
| 日期 | 标题 | 摘要 | 来源 |
|---|---|---|---|
| 2026-04-29 | DeepSeek-V4-Pro 折扣延期 | V4-Pro API 75% 折扣延长至 2026-05-31;支持 Claude Code、OpenCode、OpenClaw 集成 | 链接 |
二、Benchmark 快照与变化
SWE-bench Verified — 当前 Top 10
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium | 79.2 | GitHub |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 | sonarsource.com |
| 3 | TRAE + Doubao-Seed-Code | 78.8 | GitHub |
| 4 | live-SWE-agent + Gemini 3 Pro Preview | 77.4 | GitHub |
| 5 | Atlassian Rovo Dev | 76.8 | atlassian.com |
| 6 | EPAM AI/Run Developer Agent + Claude 4 Sonnet | 76.8 | epam.com |
| 7 | mini-SWE-agent + Claude 4.5 Opus (high reasoning) | 76.8 | mini-swe-agent.com |
| 8 | ACoder | 76.4 | GitHub |
| 9 | mini-SWE-agent + Gemini 3 Flash (high reasoning) | 75.8 | mini-swe-agent.com |
| 10 | mini-SWE-agent + MiniMax M2.5 (high reasoning) | 75.8 | mini-swe-agent.com |
SWE-bench Verified 变化明细:
| 模型 | 变化 | 旧排名 → 新排名 | 旧分数 → 新分数 |
|---|---|---|---|
| devlo | 排名↓ + 分数↓ | #44 → #83 / #94 | 70.2 → 58.2 / 54.2 |
| Warp | 排名↓ + 分数↓ | #11 → #36 | 75.6 → 71.0 |
| Nemotron-CORTEXA | 排名↓ + 分数↓ | #50 → #82 | 68.2 → 58.2 |
| EntroPO + R2E + Qwen3-Coder-30B | 排名↑ + 分数↑ | #103 → #76 | 52.2 → 60.4 |
| EPAM AI/Run + GPT4o | 排名↓ + 分数↓ | #156 → #162 | 27.0 → 24.0 |
| Solver (2024-09-12) | 排名↓ + 分数↓ | #120 → #126 | 45.4 → 43.6 |
最显著变动:devlo 分数从 70.2 骤降至 54.2(排名 #44 → #94),Warp 从 Top 10 边缘跌出至 #36。
SWE-bench Pro Public — 当前 Top 10
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 | Scale Leaderboard |
| 2 | Muse Spark* | 55.0 | 同上 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 | 同上 |
| 4 | gemini-3.1-pro (thinking)* | 46.1 | 同上 |
| 5 | claude-opus-4-5-20251101 | 45.89 | 同上 |
| 6 | claude-4-5-Sonnet | 43.6 | 同上 |
| 7 | gemini-3-pro-preview | 43.3 | 同上 |
| 8 | claude-4-Sonnet | 42.7 | 同上 |
| 9 | gpt-5-2025-08-07 (High) | 41.78 | 同上 |
| 10 | gpt-5.2-codex | 41.04 | 同上 |
本期无变动。 快照时间:2026-05-11。
Terminal-Bench 2.0 — 当前 Top 10
| 排名 | 模型 | 分数 | 来源 |
|---|---|---|---|
| 1 | Codex CLI / GPT-5.5 | 82.0 | tbench.ai |
| 2 | ForgeCode / GPT-5.4 | 81.8 | 同上 |
| 3 | TongAgents / Gemini 3.1 Pro | 80.2 | 同上 |
| 4 | ForgeCode / Claude Opus 4.6 | 79.8 | 同上 |
| 5 | SageAgent / GPT-5.3-Codex | 78.4 | 同上 |
| 6 | ForgeCode / Gemini 3.1 Pro | 78.4 | 同上 |
| 7 | Droid / GPT-5.3-Codex | 77.3 | 同上 |
| 8 | Capy / Claude Opus 4.6 | 75.3 | 同上 |
| 9 | Simple Codex / GPT-5.3-Codex | 75.1 | 同上 |
| 10 | Terminus-KIRA / Gemini 3.1 Pro | 74.8 | 同上 |
Terminal-Bench 2.0 变化明细:
| 模型 | 变化 | 旧排名 → 新排名 | 旧分数 → 新分数 |
|---|---|---|---|
| Warp / Multiple | 排名↓ + 分数↓ | #32 → #37 / #54 | 61.2 → 59.1 / 50.1 |
Top 10 无变动;Warp/Multiple 在中后段出现下滑。
LM Arena (Overall) — 当前 Top 10
| 排名 | 模型 | ELO 分数 | 来源 |
|---|---|---|---|
| 1 | claude-opus-4-7-thinking | 1502.65 | HuggingFace Dataset |
| 2 | claude-opus-4-6-thinking | 1502.04 | 同上 |
| 3 | claude-opus-4-6 | 1497.10 | 同上 |
| 4 | gemini-3.1-pro-preview | 1492.56 | 同上 |
| 5 | claude-opus-4-7 | 1491.27 | 同上 |
| 6 | muse-spark | 1491.21 | 同上 |
| 7 | gpt-5.5-high | 1487.59 | 同上 |
| 8 | gemini-3-pro | 1485.68 | 同上 |
| 9 | grok-4.20-beta1 | 1479.62 | 同上 |
| 10 | grok-4.20-beta-0309-reasoning | 1477.23 | 同上 |
本期无变动。 Anthropic Claude 包揽前三,Google Gemini 和 xAI Grok 紧随其后。
三、来源采集状态
| 来源 | 状态 |
|---|---|
| OpenAI News | 正常 |
| OpenAI Codex Changelog | 正常 |
| Claude Code Releases | 正常 |
| Anthropic (X) | 正常 |
| Google Blog AI | 正常 |
| xAI (X) | 正常 |
| DeepSeek (X) | 正常 |
| 所有 Benchmark | 正常 |
本期无采集失败来源。