AI 日报 2026-04-30 17:58

2026-04-30 17:58 CST

快速预览

  • OpenAI 发布 GPT-5.5:4/23 发布,登顶 Terminal-Bench 2.0(82.0),LM Arena 排名第 7(1488.0)
  • DeepSeek-V4 上线:V4-Pro / V4-Flash 可用,API 75% 折扣延至 5/31,支持 Claude Code 1M 上下文
  • Anthropic 发布"内省适配器"研究:让模型自我报告训练中学到的不良行为,含潜在错位与后门检测
  • LM Arena 前三均为 Claude:Opus 4.7 thinking(1502.9)、Opus 4.6 thinking(1502.1)、Opus 4.6(1496.5)
  • SWE-bench Verified 大幅变动:Warp 从 #11 跌至 #36,devlo 从 #44 跌至 #83/#94,EntroPO+Qwen3-Coder 从 #103 升至 #76

一、新闻

OpenAI(按日期倒序)

日期 标题 摘要
4/29 Where the goblins came from GPT-5 行为中"人格化怪癖"的根因、时间线与修复方案
4/29 Building the compute infrastructure for the Intelligence Age Stargate 扩容,新增数据中心算力以支撑 AGI 需求
4/29 Cybersecurity in the Intelligence Age 五项行动计划:AI 驱动的网络安全防御民主化
4/28 Our commitment to community safety ChatGPT 社区安全:模型保障、滥用检测、政策执行
4/28 OpenAI models, Codex, and Managed Agents come to AWS GPT 模型、Codex、Managed Agents 登陆 AWS
4/27 OpenAI available at FedRAMP Moderate ChatGPT Enterprise 与 API 获 FedRAMP Moderate 授权
4/27 The next phase of the Microsoft OpenAI partnership 修订合作协议,简化伙伴关系并增加长期确定性
4/27 An open-source spec for orchestration: Symphony 开源 Codex 编排规范,将 issue tracker 变为 always-on agent 系统
4/27 Choco automates food distribution with AI agents 客户案例:Choco 使用 OpenAI API 优化食品分销
4/26 Our principles Sam Altman 分享指导 OpenAI 工作的五项原则
4/23 Introducing GPT-5.5 新旗舰模型发布:更快、更强,面向编码/研究/数据分析
4/23 GPT-5.5 System Card GPT-5.5 系统安全卡
4/23 GPT-5.5 Bio Bug Bounty 生物安全红队挑战,最高 $25,000 奖励
4/23 Codex Academy 系列(What is Codex / How to start / Settings / Automations / Working with Codex / Top 10 uses / Plugins and skills Codex 使用教程全集
4/22 Making ChatGPT better for clinicians ChatGPT for Clinicians 对美国执业医师免费
4/22 Introducing workspace agents in ChatGPT Codex 驱动的 Workspace Agents,自动化复杂工作流
4/22 Speeding up agentic workflows with WebSockets WebSocket + 连接级缓存降低 API 开销与延迟
4/22 Introducing OpenAI Privacy Filter 开源 PII 检测与脱敏模型
4/21 Introducing ChatGPT Images 2.0 新一代图像生成模型,改进文字渲染与多语言支持
4/21 Scaling Codex to enterprises worldwide Codex Labs 成立,与 Accenture/PwC/Infosys 合作,WAU 达 400 万
4/20 Hyatt advances AI with ChatGPT Enterprise Hyatt 全球部署 ChatGPT Enterprise
4/16 Codex for (almost) everything Codex 桌面端新增 computer use、浏览器、图像生成、记忆与插件

OpenAI Codex Changelog(按日期倒序)

日期 版本 要点
4/24 CLI 0.125.0 Unix socket 传输、分页恢复/分叉、sticky 环境、远程线程配置
4/23 GPT-5.5 + Codex app 更新 GPT-5.5 在 Codex 中可用
4/23 CLI 0.124.0 TUI 快速推理控制(Alt+,/Alt+.),模型升级时重置推理设置
4/23 CLI 0.123.0 内置 Amazon Bedrock 模型提供者,支持 AWS profile
4/20 CLI 0.122.0 独立安装更自包含,Windows/Intel Mac 桌面端修复

Anthropic(按日期倒序)

日期 标题 摘要
4/29 Introspection Adapters 研究 训练模型自我报告学到的不良行为,可泛化检测隐藏错位、后门与安全移除
4/20 Anthropic STEM Fellows Program 招募 STEM 领域专家与研究团队合作数月

Claude Code Releases(按日期倒序)

日期 版本 要点
4/29 v2.1.123 修复 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 时 OAuth 401 重试循环
4/28 v2.1.122 新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量(default/flex/priority)
4/28 v2.1.121 MCP server 配置新增 alwaysLoad 选项,跳过工具搜索延迟
4/23 v2.1.119 /config 设置持久化至 ~/.claude/settings.json,参与覆盖优先级
4/23 v2.1.118 新增 vim visual mode(v)和 visual-line mode(V

Google(按日期倒序)

日期 标题 摘要
4/28 Google Translate 20 周年 新功能与使用技巧
4/27 AI Agents Vibe Coding Course Google × Kaggle 联合 AI Agent 编程课程
4/24 8 Gemini tips for organizing Gemini 整理空间与生活技巧
4/23 TPU 如何驱动 AI 工作负载 TPU 技术视频解读
4/23 Google 奥地利首个数据中心 阿尔卑斯山区数据中心投资
4/22 第八代 TPU:TPU 8t 与 8i 两款专用芯片面向 agentic 时代
4/21 Ads Advisor 三项新功能 Google Ads 更安全更快
4/17 AI Mode in Chrome Chrome 浏览器中新增 AI Mode 探索网页
4/16 Gemini 个性化图像生成 Gemini app 新增个性化图像创建方式

xAI(按日期倒序)

日期 标题 摘要
4/23 Grok Voice Think Fast 1.0 语音模型,Tau Voice Bench 第一,抗噪/口音/打断能力领先
4/23 Voice Agent 免费试用 xAI console 语音代理免费开放
4/21 SpaceX AI × Cursor 合作 SpaceX 百万 H100 Colossus 超算 + Cursor 产品分发,$600 亿收购权
4/18 Grok Speech-to-Text API 25 语言即时多说话人转录,市场最低价

DeepSeek(按日期倒序)

日期 标题 摘要
4/29 V4-Pro 折扣延至 5/31 75% OFF 延期;Claude Code 可设 deepseek-v4-pro[1m] 解锁 1M 上下文
4/25 V4-Pro 75% OFF 截止 5/5,集成 Claude Code / OpenCode / OpenClaw
4/24 DeepSeek-V4 发布 V4-Pro 与 V4-Flash 上线,支持 OpenAI 与 Anthropic 接口;旧名称 deepseek-chat/deepseek-reasoner 三个月后停用

二、Benchmark 快照

SWE-bench Verified — Top 10(截至 2025-12-15)

# 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8
4 live-SWE-agent + Gemini 3 Pro Preview 77.4
5 Atlassian Rovo Dev 76.8
6 EPAM AI/Run + Claude 4 Sonnet 76.8
7 mini-SWE-agent + Claude 4.5 Opus (high reasoning) 76.8
8 ACoder 76.4
9 mini-SWE-agent + Gemini 3 Flash (high reasoning) 75.8
10 mini-SWE-agent + MiniMax M2.5 (high reasoning) 75.8

SWE-bench Pro Public — Top 10(截至 2026-04-30)

# 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9
4 gemini-3.1-pro (thinking)* 46.1
5 claude-opus-4-5-20251101 45.89
6 claude-4-5-Sonnet 43.6
7 gemini-3-pro-preview 43.3
8 claude-4-Sonnet 42.7
9 gpt-5-2025-08-07 (High) 41.78
10 gpt-5.2-codex 41.04

Terminal-Bench 2.0 — Top 10(截至 2026-04-23)

# Agent / 模型 分数
1 Codex / GPT-5.5 82.0
2 ForgeCode / GPT-5.4 81.8
3 TongAgents / Gemini 3.1 Pro 80.2
4 ForgeCode / Claude Opus 4.6 79.8
5 SageAgent / GPT-5.3-Codex 78.4
6 ForgeCode / Gemini 3.1 Pro 78.4
7 Droid / GPT-5.3-Codex 77.3
8 Capy / Claude Opus 4.6 75.3
9 Simple Codex / GPT-5.3-Codex 75.1
10 Terminus-KIRA / Gemini 3.1 Pro 74.8

LM Arena Overall — Top 10(截至 2026-04-29)

# 模型 ELO
1 claude-opus-4-7-thinking 1502.9
2 claude-opus-4-6-thinking 1502.1
3 claude-opus-4-6 1496.5
4 claude-opus-4-7 1494.8
5 gemini-3.1-pro-preview 1493.0
6 muse-spark 1489.5
7 gpt-5.5-high 1488.0
8 gemini-3-pro 1485.8
9 grok-4.20-beta1 1479.4
10 gpt-5.4-high 1477.8

三、Benchmark 变化

SWE-bench Verified 变化

模型 变化 旧排名 → 新排名 旧分数 → 新分数
EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct ↑ 大幅上升 #103 → #76 52.2 → 60.4
EPAM AI/Run + GPT4o ↓ 下降 #156 → #162 27.0 → 24.0
Nemotron-CORTEXA ↓ 大幅下降 #50 → #82 68.2 → 58.2
Solver (2024-09-12) ↓ 小幅下降 #120 → #126 45.4 → 43.6
Warp ↓ 大幅下降 #11 → #36 75.6 → 71.0
devlo ↓ 大幅下降 #44 → #83/#94 70.2 → 58.2/54.2

Terminal-Bench 2.0 变化

模型 变化 旧排名 → 新排名 旧分数 → 新分数
Warp / Multiple ↓ 下降 #32 → #37/#54 61.2 → 59.1/50.1

注意:devlo 和 Warp / Multiple 各出现两条变化记录(可能对应不同评测配置或提交版本),排名与分数均显著下降,建议关注其评测方法是否调整。


四、采集状态

所有来源均采集成功,无失败记录。

Sources