AI 日报 2026-04-30 17:14

2026-04-30 17:14 CST

快速预览

  • OpenAI 发布 GPT-5.5:最快最强模型,支持编码/研究/数据分析,同步推出 Bio Bug Bounty(最高 $25,000)
  • DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5 月 31 日,支持 Claude Code 1M 上下文
  • xAI 发布 Grok Voice Think Fast 1.0:登顶 Tau Voice Bench,支持 25 语言 STT API
  • SWE-bench Verified 榜单变动显著:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94,EntroPO+Qwen3-Coder 从 #103 跃升至 #76
  • Anthropic 发布"内省适配器"研究:让模型自我报告训练中学到的潜在错位行为

一、行业新闻

OpenAI(4/21–4/29)

日期 事件 要点
4/29 Where the goblins came from GPT-5 人格化怪癖(goblin outputs)的根因分析与修复时间线
4/29 Building the compute infrastructure Stargate 扩建数据中心,为 AGI 提供算力基础
4/29 Cybersecurity in the Intelligence Age 五项行动计划:AI 驱动的网络安全防御民主化
4/28 OpenAI on AWS GPT 模型、Codex、Managed Agents 登陆 AWS
4/28 Community safety ChatGPT 安全保障:模型防护、滥用检测、政策执行
4/27 FedRAMP Moderate ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
4/27 Microsoft 合作新阶段 修订协议简化合作关系,增加长期确定性
4/27 Symphony 开源编排规范 将 issue tracker 转为 always-on agent 系统
4/23 Introducing GPT-5.5 新旗舰模型,更快更强,面向编码/研究/数据分析
4/23 GPT-5.5 System Card 安全评估报告
4/23 GPT-5.5 Bio Bug Bounty 红队挑战:寻找生物安全通用越狱,奖金最高 $25,000
4/22 ChatGPT for Clinicians 免费 面向美国执业医师、NP、药剂师免费开放
4/22 Workspace Agents Codex 驱动的 ChatGPT 工作区代理,自动化复杂工作流
4/22 Privacy Filter 开源权重 PII 检测与脱敏模型
4/21 ChatGPT Images 2.0 新一代图像生成,改进文字渲染与多语言支持
4/21 Codex 企业扩展 Codex Labs 成立,与 Accenture/PwC/Infosys 合作,WAU 达 400 万

Codex CLI 更新:v0.122→v0.125,新增 Unix socket 传输、Amazon Bedrock 模型提供者、TUI 推理快捷键等。详见 changelog

Anthropic

日期 事件 要点
4/29 Introspection Adapters 研究 训练模型自我报告学到的行为(含潜在错位、后门、安全移除)
4/20 STEM Fellows Program 招募科学/工程专家与研究团队合作

Claude Code 更新:v2.1.118→v2.1.123,新增 vim visual mode、MCP alwaysLoad 选项、Bedrock service tier 选择、OAuth 401 修复等。详见 releases

xAI

日期 事件 要点
4/23 Grok Voice Think Fast 1.0 语音模型,登顶 Tau Voice Bench,支持复杂多步工作流
4/21 SpaceX AI × Cursor SpaceX AI 与 Cursor 深度合作,Colossus 超算 + Cursor 产品分发;Cursor 可被 $600 亿收购
4/18 Grok STT API 25 语言语音转文字 API 上线

DeepSeek

日期 事件 要点
4/24 DeepSeek-V4 发布 V4-Pro / V4-Flash 上线,旧名称 deepseek-chat/deepseek-reasoner 三个月后停用
4/29 V4-Pro 折扣延期 75% OFF 延至 5 月 31 日;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文

Google

日期 事件 要点
4/28 Google Translate 20 周年 新功能与回顾
4/27 AI Agents Vibe Coding Course Google × Kaggle 联合课程,2026 年 6 月
4/22 TPU v8t / v8i 第八代 TPU,两款专用芯片面向 agentic 时代
4/23 奥地利首个数据中心 Google 在阿尔卑斯山区投资建设
4/16 AI Mode in Chrome Chrome 浏览器内置 AI 探索模式

二、Benchmark 快照

SWE-bench Verified — 当前 Top 10

排名 模型 分数 采集日期
1 live-SWE-agent + Claude 4.5 Opus medium 79.2 2025-12-15
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2 2025-12-05
3 TRAE + Doubao-Seed-Code 78.8 2025-09-28
4 live-SWE-agent + Gemini 3 Pro Preview 77.4 2025-11-20
5 Atlassian Rovo Dev 76.8 2025-09-02
6 EPAM AI/Run + Claude 4 Sonnet 76.8 2025-08-04
7 mini-SWE-agent + Claude 4.5 Opus (high) 76.8 2026-02-17
8 ACoder 76.4 2025-08-19
9 mini-SWE-agent + Gemini 3 Flash (high) 75.8 2026-02-17
10 mini-SWE-agent + MiniMax M2.5 (high) 75.8 2026-02-17

来源:SWE-bench Verified

Terminal Bench 2.0 — 本期无变动

Top 3 数据未在本次快照中提供具体排名条目,但 Warp / Multiple 出现在变化列表中(见下节)。


三、Benchmark 变化

SWE-bench Verified

模型 变化 旧排名 → 新排名 旧分 → 新分
Warp 排名+分数下降 #11 → #36 75.6 → 71.0
devlo 排名+分数大幅下降 #44 → #83 / #94 70.2 → 58.2 / 54.2
Nemotron-CORTEXA 排名+分数下降 #50 → #82 68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B 排名+分数上升 #103 → #76 52.2 → 60.4
Solver (2024-09-12) 排名+分数下降 #120 → #126 45.4 → 43.6
EPAM AI/Run + GPT4o 排名+分数下降 #156 → #162 27.0 → 24.0

来源:SWE-bench Verified

Terminal Bench 2.0

模型 变化 旧排名 → 新排名 旧分 → 新分
Warp / Multiple 排名+分数下降 #32 → #37 / #54 61.2 → 59.1 / 50.1

来源:Terminal Bench 2.0


四、来源状态

所有新闻来源和 benchmark 数据均采集成功,无失败记录。

Sources