AI 日报 2026-04-30 17:14

快速预览

OpenAI 发布 GPT-5.5：最快最强模型，支持编码/研究/数据分析，同步推出 Bio Bug Bounty（最高 $25,000）
DeepSeek-V4 上线：V4-Pro / V4-Flash 可用，API 75% 折扣延至 5 月 31 日，支持 Claude Code 1M 上下文
xAI 发布 Grok Voice Think Fast 1.0：登顶 Tau Voice Bench，支持 25 语言 STT API
SWE-bench Verified 榜单变动显著：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94，EntroPO+Qwen3-Coder 从 #103 跃升至 #76
Anthropic 发布"内省适配器"研究：让模型自我报告训练中学到的潜在错位行为

日期	事件	要点
4/29	Where the goblins came from	GPT-5 人格化怪癖（goblin outputs）的根因分析与修复时间线
4/29	Building the compute infrastructure	Stargate 扩建数据中心，为 AGI 提供算力基础
4/29	Cybersecurity in the Intelligence Age	五项行动计划：AI 驱动的网络安全防御民主化
4/28	OpenAI on AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/28	Community safety	ChatGPT 安全保障：模型防护、滥用检测、政策执行
4/27	FedRAMP Moderate	ChatGPT Enterprise 和 API 获 FedRAMP Moderate 授权
4/27	Microsoft 合作新阶段	修订协议简化合作关系，增加长期确定性
4/27	Symphony 开源编排规范	将 issue tracker 转为 always-on agent 系统
4/23	Introducing GPT-5.5	新旗舰模型，更快更强，面向编码/研究/数据分析
4/23	GPT-5.5 System Card	安全评估报告
4/23	GPT-5.5 Bio Bug Bounty	红队挑战：寻找生物安全通用越狱，奖金最高 $25,000
4/22	ChatGPT for Clinicians 免费	面向美国执业医师、NP、药剂师免费开放
4/22	Workspace Agents	Codex 驱动的 ChatGPT 工作区代理，自动化复杂工作流
4/22	Privacy Filter	开源权重 PII 检测与脱敏模型
4/21	ChatGPT Images 2.0	新一代图像生成，改进文字渲染与多语言支持
4/21	Codex 企业扩展	Codex Labs 成立，与 Accenture/PwC/Infosys 合作，WAU 达 400 万

Codex CLI 更新：v0.122→v0.125，新增 Unix socket 传输、Amazon Bedrock 模型提供者、TUI 推理快捷键等。详见 changelog。

日期	事件	要点
4/29	Introspection Adapters 研究	训练模型自我报告学到的行为（含潜在错位、后门、安全移除）
4/20	STEM Fellows Program	招募科学/工程专家与研究团队合作

Claude Code 更新：v2.1.118→v2.1.123，新增 vim visual mode、MCP alwaysLoad 选项、Bedrock service tier 选择、OAuth 401 修复等。详见 releases。

日期	事件	要点
4/23	Grok Voice Think Fast 1.0	语音模型，登顶 Tau Voice Bench，支持复杂多步工作流
4/21	SpaceX AI × Cursor	SpaceX AI 与 Cursor 深度合作，Colossus 超算 + Cursor 产品分发；Cursor 可被 $600 亿收购
4/18	Grok STT API	25 语言语音转文字 API 上线

日期	事件	要点
4/24	DeepSeek-V4 发布	V4-Pro / V4-Flash 上线，旧名称 `deepseek-chat`/`deepseek-reasoner` 三个月后停用
4/29	V4-Pro 折扣延期	75% OFF 延至 5 月 31 日；Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文

排名	模型	分数	采集日期
1	live-SWE-agent + Claude 4.5 Opus medium	79.2	2025-12-15
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2	2025-12-05
3	TRAE + Doubao-Seed-Code	78.8	2025-09-28
4	live-SWE-agent + Gemini 3 Pro Preview	77.4	2025-11-20
5	Atlassian Rovo Dev	76.8	2025-09-02
6	EPAM AI/Run + Claude 4 Sonnet	76.8	2025-08-04
7	mini-SWE-agent + Claude 4.5 Opus (high)	76.8	2026-02-17
8	ACoder	76.4	2025-08-19
9	mini-SWE-agent + Gemini 3 Flash (high)	75.8	2026-02-17
10	mini-SWE-agent + MiniMax M2.5 (high)	75.8	2026-02-17

来源：SWE-bench Verified 等

Top 3 数据未在本次快照中提供具体排名条目，但 Warp / Multiple 出现在变化列表中（见下节）。

模型	变化	旧排名 → 新排名	旧分 → 新分
Warp	排名+分数下降	#11 → #36	75.6 → 71.0
devlo	排名+分数大幅下降	#44 → #83 / #94	70.2 → 58.2 / 54.2
Nemotron-CORTEXA	排名+分数下降	#50 → #82	68.2 → 58.2
EntroPO + R2E + Qwen3-Coder-30B	排名+分数上升	#103 → #76	52.2 → 60.4
Solver (2024-09-12)	排名+分数下降	#120 → #126	45.4 → 43.6
EPAM AI/Run + GPT4o	排名+分数下降	#156 → #162	27.0 → 24.0

来源：SWE-bench Verified

模型	变化	旧排名 → 新排名	旧分 → 新分
Warp / Multiple	排名+分数下降	#32 → #37 / #54	61.2 → 59.1 / 50.1

来源：Terminal Bench 2.0

所有新闻来源和 benchmark 数据均采集成功，无失败记录。

来源 · 61 条