AI 日报 2026-04-30 17:58

快速预览

OpenAI 发布 GPT-5.5：4/23 发布，登顶 Terminal-Bench 2.0（82.0），LM Arena 排名第 7（1488.0）
DeepSeek-V4 上线：V4-Pro / V4-Flash 可用，API 75% 折扣延至 5/31，支持 Claude Code 1M 上下文
Anthropic 发布"内省适配器"研究：让模型自我报告训练中学到的不良行为，含潜在错位与后门检测
LM Arena 前三均为 Claude：Opus 4.7 thinking（1502.9）、Opus 4.6 thinking（1502.1）、Opus 4.6（1496.5）
SWE-bench Verified 大幅变动：Warp 从 #11 跌至 #36，devlo 从 #44 跌至 #83/#94，EntroPO+Qwen3-Coder 从 #103 升至 #76

一、新闻

OpenAI（按日期倒序）

日期	标题	摘要
4/29	Where the goblins came from	GPT-5 行为中"人格化怪癖"的根因、时间线与修复方案
4/29	Building the compute infrastructure for the Intelligence Age	Stargate 扩容，新增数据中心算力以支撑 AGI 需求
4/29	Cybersecurity in the Intelligence Age	五项行动计划：AI 驱动的网络安全防御民主化
4/28	Our commitment to community safety	ChatGPT 社区安全：模型保障、滥用检测、政策执行
4/28	OpenAI models, Codex, and Managed Agents come to AWS	GPT 模型、Codex、Managed Agents 登陆 AWS
4/27	OpenAI available at FedRAMP Moderate	ChatGPT Enterprise 与 API 获 FedRAMP Moderate 授权
4/27	The next phase of the Microsoft OpenAI partnership	修订合作协议，简化伙伴关系并增加长期确定性
4/27	An open-source spec for orchestration: Symphony	开源 Codex 编排规范，将 issue tracker 变为 always-on agent 系统
4/27	Choco automates food distribution with AI agents	客户案例：Choco 使用 OpenAI API 优化食品分销
4/26	Our principles	Sam Altman 分享指导 OpenAI 工作的五项原则
4/23	Introducing GPT-5.5	新旗舰模型发布：更快、更强，面向编码/研究/数据分析
4/23	GPT-5.5 System Card	GPT-5.5 系统安全卡
4/23	GPT-5.5 Bio Bug Bounty	生物安全红队挑战，最高 $25,000 奖励
4/23	Codex Academy 系列（What is Codex / How to start / Settings / Automations / Working with Codex / Top 10 uses / Plugins and skills）	Codex 使用教程全集
4/22	Making ChatGPT better for clinicians	ChatGPT for Clinicians 对美国执业医师免费
4/22	Introducing workspace agents in ChatGPT	Codex 驱动的 Workspace Agents，自动化复杂工作流
4/22	Speeding up agentic workflows with WebSockets	WebSocket + 连接级缓存降低 API 开销与延迟
4/22	Introducing OpenAI Privacy Filter	开源 PII 检测与脱敏模型
4/21	Introducing ChatGPT Images 2.0	新一代图像生成模型，改进文字渲染与多语言支持
4/21	Scaling Codex to enterprises worldwide	Codex Labs 成立，与 Accenture/PwC/Infosys 合作，WAU 达 400 万
4/20	Hyatt advances AI with ChatGPT Enterprise	Hyatt 全球部署 ChatGPT Enterprise
4/16	Codex for (almost) everything	Codex 桌面端新增 computer use、浏览器、图像生成、记忆与插件

OpenAI Codex Changelog（按日期倒序）

日期	版本	要点
4/24	CLI 0.125.0	Unix socket 传输、分页恢复/分叉、sticky 环境、远程线程配置
4/23	GPT-5.5 + Codex app 更新	GPT-5.5 在 Codex 中可用
4/23	CLI 0.124.0	TUI 快速推理控制（Alt+,/Alt+.），模型升级时重置推理设置
4/23	CLI 0.123.0	内置 Amazon Bedrock 模型提供者，支持 AWS profile
4/20	CLI 0.122.0	独立安装更自包含，Windows/Intel Mac 桌面端修复

Anthropic（按日期倒序）

日期	标题	摘要
4/29	Introspection Adapters 研究	训练模型自我报告学到的不良行为，可泛化检测隐藏错位、后门与安全移除
4/20	Anthropic STEM Fellows Program	招募 STEM 领域专家与研究团队合作数月

Claude Code Releases（按日期倒序）

日期	版本	要点
4/29	v2.1.123	修复 `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1` 时 OAuth 401 重试循环
4/28	v2.1.122	新增 `ANTHROPIC_BEDROCK_SERVICE_TIER` 环境变量（default/flex/priority）
4/28	v2.1.121	MCP server 配置新增 `alwaysLoad` 选项，跳过工具搜索延迟
4/23	v2.1.119	`/config` 设置持久化至 `~/.claude/settings.json`，参与覆盖优先级
4/23	v2.1.118	新增 vim visual mode（`v`）和 visual-line mode（`V`）

Google（按日期倒序）

日期	标题	摘要
4/28	Google Translate 20 周年	新功能与使用技巧
4/27	AI Agents Vibe Coding Course	Google × Kaggle 联合 AI Agent 编程课程
4/24	8 Gemini tips for organizing	Gemini 整理空间与生活技巧
4/23	TPU 如何驱动 AI 工作负载	TPU 技术视频解读
4/23	Google 奥地利首个数据中心	阿尔卑斯山区数据中心投资
4/22	第八代 TPU：TPU 8t 与 8i	两款专用芯片面向 agentic 时代
4/21	Ads Advisor 三项新功能	Google Ads 更安全更快
4/17	AI Mode in Chrome	Chrome 浏览器中新增 AI Mode 探索网页
4/16	Gemini 个性化图像生成	Gemini app 新增个性化图像创建方式

xAI（按日期倒序）

日期	标题	摘要
4/23	Grok Voice Think Fast 1.0	语音模型，Tau Voice Bench 第一，抗噪/口音/打断能力领先
4/23	Voice Agent 免费试用	xAI console 语音代理免费开放
4/21	SpaceX AI × Cursor 合作	SpaceX 百万 H100 Colossus 超算 + Cursor 产品分发，$600 亿收购权
4/18	Grok Speech-to-Text API	25 语言即时多说话人转录，市场最低价

DeepSeek（按日期倒序）

日期	标题	摘要
4/29	V4-Pro 折扣延至 5/31	75% OFF 延期；Claude Code 可设 `deepseek-v4-pro[1m]` 解锁 1M 上下文
4/25	V4-Pro 75% OFF	截止 5/5，集成 Claude Code / OpenCode / OpenClaw
4/24	DeepSeek-V4 发布	V4-Pro 与 V4-Flash 上线，支持 OpenAI 与 Anthropic 接口；旧名称 `deepseek-chat`/`deepseek-reasoner` 三个月后停用

二、Benchmark 快照

SWE-bench Verified — Top 10（截至 2025-12-15）

#	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8
4	live-SWE-agent + Gemini 3 Pro Preview	77.4
5	Atlassian Rovo Dev	76.8
6	EPAM AI/Run + Claude 4 Sonnet	76.8
7	mini-SWE-agent + Claude 4.5 Opus (high reasoning)	76.8
8	ACoder	76.4
9	mini-SWE-agent + Gemini 3 Flash (high reasoning)	75.8
10	mini-SWE-agent + MiniMax M2.5 (high reasoning)	75.8

SWE-bench Pro Public — Top 10（截至 2026-04-30）

#	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9
4	gemini-3.1-pro (thinking)*	46.1
5	claude-opus-4-5-20251101	45.89
6	claude-4-5-Sonnet	43.6
7	gemini-3-pro-preview	43.3
8	claude-4-Sonnet	42.7
9	gpt-5-2025-08-07 (High)	41.78
10	gpt-5.2-codex	41.04

Terminal-Bench 2.0 — Top 10（截至 2026-04-23）

#	Agent / 模型	分数
1	Codex / GPT-5.5	82.0
2	ForgeCode / GPT-5.4	81.8
3	TongAgents / Gemini 3.1 Pro	80.2
4	ForgeCode / Claude Opus 4.6	79.8
5	SageAgent / GPT-5.3-Codex	78.4
6	ForgeCode / Gemini 3.1 Pro	78.4
7	Droid / GPT-5.3-Codex	77.3
8	Capy / Claude Opus 4.6	75.3
9	Simple Codex / GPT-5.3-Codex	75.1
10	Terminus-KIRA / Gemini 3.1 Pro	74.8

LM Arena Overall — Top 10（截至 2026-04-29）

#	模型	ELO
1	claude-opus-4-7-thinking	1502.9
2	claude-opus-4-6-thinking	1502.1
3	claude-opus-4-6	1496.5
4	claude-opus-4-7	1494.8
5	gemini-3.1-pro-preview	1493.0
6	muse-spark	1489.5
7	gpt-5.5-high	1488.0
8	gemini-3-pro	1485.8
9	grok-4.20-beta1	1479.4
10	gpt-5.4-high	1477.8

三、Benchmark 变化

SWE-bench Verified 变化

模型	变化	旧排名 → 新排名	旧分数 → 新分数
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct	↑ 大幅上升	#103 → #76	52.2 → 60.4
EPAM AI/Run + GPT4o	↓ 下降	#156 → #162	27.0 → 24.0
Nemotron-CORTEXA	↓ 大幅下降	#50 → #82	68.2 → 58.2
Solver (2024-09-12)	↓ 小幅下降	#120 → #126	45.4 → 43.6
Warp	↓ 大幅下降	#11 → #36	75.6 → 71.0
devlo	↓ 大幅下降	#44 → #83/#94	70.2 → 58.2/54.2

Terminal-Bench 2.0 变化

模型	变化	旧排名 → 新排名	旧分数 → 新分数
Warp / Multiple	↓ 下降	#32 → #37/#54	61.2 → 59.1/50.1

注意：devlo 和 Warp / Multiple 各出现两条变化记录（可能对应不同评测配置或提交版本），排名与分数均显著下降，建议关注其评测方法是否调整。

四、采集状态

所有来源均采集成功，无失败记录。

来源 · 61 条

openai.com ×29 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×2 blog.google ×10 @xai ×4 api-docs.deepseek.com @deepseek_ai ×2