AI 日报 2026-06-08 08:45

核心速览

【OpenAI】ChatGPT 引入"梦境"记忆系统 ChatGPT 推出新的记忆机制，能更好地记住用户偏好，保持跨对话的上下文新鲜度和相关性。这标志着 AI 助手从单次对话向持续个性化服务演进，可能显著改善长期用户体验。 https://openai.com/index/chatgpt-memory-dreaming

【OpenAI】Codex 登陆 AWS OpenAI 前沿模型和 Codex 正式在 AWS 平台全面可用，企业可通过现有 AWS 环境、权限控制和采购流程使用 OpenAI 服务。这打通了企业级部署的关键通道，降低了从评估到生产的门槛，预计将加速企业 AI 应用落地。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws

【Anthropic】Claude Opus 4.8 发布 新版本在 Opus 4.7 基础上提升了判断力、对自身进度的诚实表达能力，以及更长时间独立工作的能力，价格不变。持续迭代显示 Claude 在代理能力上的快速演进。 https://x.com/AnthropicAI/status/2060042792399770030

【Anthropic】提交 IPO 注册草案 Anthropic 已向 SEC 秘密提交 S-1 注册草案，为可能的首次公开募股做准备。这标志着 AI 头部公司从研究驱动向商业化成熟的关键转折，将受到资本市场密切关注。 https://www.anthropic.com/news/confidential-draft-s1-sec

【Anthropic】递归自我改进研究报告 Anthropic 内部数据显示工程师代码产出较 2021-2025 年提升 8 倍，Claude 正在加速 AI 开发本身——这可能是递归自我改进的路径，即 AI 自主构建更强能力的后继者。这一趋势的发展速度超出预期。 https://www.anthropic.com/institute/recursive-self-improvement

重大 Benchmark 变化

SWE-bench Verified

LemonHarness 在 [email protected] 排名从第 10 跃升至第 4（79.9→84.5 分），提升 4.6%
devlo 排名从第 44 暴跌至第 94（70.2→54.2 分），下降 22.8%
Warp 排名从第 11 降至第 36（75.6→71.0 分），下降 6.1%

快速预览

OpenAI Codex 重大更新：Sites 插件预览发布，可创建和部署网站；AWS 全面可用；ChatGPT 新增邮件直发功能；活动洞察和分享卡片上线
Anthropic 融资与产品：H 轮融资 650 亿美元，估值 9650 亿美元；Claude Opus 4.8 发布；Claude Code 新增 fallbackModel 设置；递归自我改进研究引关注
xAI Grok 生态扩张：Grok Imagine 1.5 Preview 发布；Grok Build Beta 向所有 SuperGrok/X Premium+ 用户开放；集成 Cloudflare AI Gateway、Gopuff、Vapi、Kilocode
Google I/O 2026 焦点：Gemini Omni 和 Gemini 3.5 演示发布；Co-Scientist 多智能体系统助力科研；AI Studio vibe coding 工具推出
Benchmark 动态：SWE-bench Verified 前三无变化（live-SWE-agent + Claude 4.5 Opus 79.2%）；[email protected] 榜首稳定（vix / Claude Opus 4.7 90.2%）；LMArena 整体榜前三均为 Claude Opus 4.6/4.7 系列

新闻动态

OpenAI

2026-06-04

How Endava is redesigning software delivery around AI agents - Endava 使用 AI agents、ChatGPT Enterprise 和 Codex 加速软件交付、自动化工作流并建立 AI 原生文化
Dreaming: Better memory for a more helpful ChatGPT - ChatGPT 推出新记忆系统，更好记住偏好并保持上下文相关性
Biodefense in the Intelligence Age - AI 驱动的生物防御行动计划

2026-06-03

Introducing new capabilities to GPT-Rosalind - GPT-Rosalind 增强生物推理、药物化学专业知识、基因组分析和实验工作流能力
How Wasmer used Codex to build a Node.js runtime for the edge - Wasmer 使用 Codex + GPT-5.5 构建边缘 Node.js 运行时，开发速度提升 10-20 倍
A blueprint for democratic governance of frontier AI - OpenAI 提出美国前沿 AI 治理蓝图
OpenAI public policy agenda - OpenAI 公共政策议程，涵盖安全、青年保护、劳动力转型和全球标准

2026-06-02

Travelers deploys AI-powered claims countrywide with OpenAI - Travelers 使用 OpenAI 构建 AI 理赔助手，提供 24/7 支持
Codex for every role, tool, and workflow - 新 Codex 插件、站点和注释帮助分析师、营销人员、设计师等团队提高效率
Advancing youth safety and opportunity through global leadership - OpenAI 呼吁全球行动加强青年 AI 安全
Codex is becoming a productivity tool for everyone - 《知识工作的下一个时代》报告探讨 Codex 如何通过 AI 驱动的研究、数据分析和工作流自动化转变生产力

2026-06-01

Our views on AI policy and political advocacy - OpenAI 对 AI 政策和政治倡导的立场
Building the infrastructure for the Intelligence Age in Michigan - OpenAI 在密歇根州 Stargate 项目中破土动工建设 1GW 数据中心
OpenAI frontier models and Codex are now available on AWS - OpenAI 前沿模型和 Codex 现已在 AWS 上全面可用

2026-05-29

Boston Children's uses AI to unlock new diagnoses - 波士顿儿童医院使用 OpenAI 技术改善患者护理，帮助诊断 40 多例罕见病病例
How Braintrust turns customer requests into code with Codex - Braintrust 工程师使用 Codex + GPT-5.5 加速实验和编码
Strengthening societal resilience with Rosalind Biodefense - OpenAI 推出 Rosalind Biodefense，扩展 GPT-Rosalind 可信访问
A shared playbook for trustworthy third party evaluations - OpenAI 分享第三方 AI 评估指南

2026-05-28

How Endava builds an agentic organization with Codex - Endava 使用 Codex 构建智能体组织，将需求分析从数周缩短至数小时
MUFG aims to become AI-native with OpenAI - MUFG 使用 ChatGPT Enterprise 构建 AI 原生组织
OpenAI's Frontier Governance Framework - OpenAI 前沿治理框架

2026-05-27

Cisco and OpenAI redefine enterprise engineering with Codex - Cisco 和 OpenAI 使用 Codex 重新定义企业工程
Building self-improving tax agents with Codex - OpenAI、Thrive 和 Crete 使用 Codex 构建自我改进税务智能体
Warp's big bet on building open source with GPT-5.5 - Warp 使用 GPT-5.5 和 OpenAI 模型协调跨本地、云和开源开发工作流的编码智能体
Election information and safeguards in 2026 - 2026 年全球选举前，OpenAI 加强选举信息和保障措施

OpenAI Codex 更新日志

2026-06-04

Codex app updates 26.602 - 个人资料新增活动洞察和分享卡片功能，可查看 Codex 使用亮点并保存个人资料卡片
Codex CLI 0.137.0 - TUI 控件支持 F13-F24 键绑定、可搜索菜单中的粘贴和紧凑的仅推理状态/标题项

2026-06-02

Build and deploy websites with Sites - Sites 插件预览版在 Codex app 中发布，可创建、保存、部署和检查由 OpenAI 托管的网站、仪表板、内部工具、Web 应用和游戏
ChatGPT for iOS 1.2026.146 - 为 Codex 新增可选 Face ID 或密码锁

2026-06-01

Use Codex with Amazon Bedrock - Codex 现可使用通过 Amazon Bedrock 提供的支持 OpenAI 模型

Anthropic

2026-06-06 至 2026-06-04

Claude Code v2.1.168 - bug 修复和可靠性改进
Claude Code v2.1.167 - bug 修复和可靠性改进
Claude Code v2.1.166 - 新增 fallbackModel 设置，可配置最多 3 个后备模型按顺序尝试
Claude Code v2.1.165 - bug 修复和可靠性改进
Claude Code v2.1.163 - 新增 requiredMinimumVersion 和 requiredMaximumVersion 托管设置

社交媒体动态

2026-06-05: Making Claude a chemist - Opus 4.7 在 NMR 光谱分析上匹配甚至超越专用 NMR 软件
2026-06-04: Recursive self-improvement - 内部数据显示 Claude 正在加速 AI 开发，Anthropic 工程师平均每季度交付代码量是 2021-2025 年的 8 倍
2026-06-03: AI-enabled cyber threats mapped to MITRE ATT&CK - 检查 832 个恶意账户并将其活动映射到 MITRE ATT&CK 数据库
2026-06-02: Expanding Project Glasswing - Claude Mythos Preview 访问扩展至约 150 个组织，覆盖 15 个以上国家
2026-06-01: Confidential draft S-1 SEC filing - Anthropic 已向 SEC 机密提交 S-1 注册草案，为可能的 IPO 做准备
2026-05-28: Series H Funding: $65B at $965B valuation - H 轮融资 650 亿美元，投后估值 9650 亿美元，由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia 领投
2026-05-28: Claude Opus 4.8 发布 - 在 Opus 4.7 基础上改进判断力、对自身进度的诚实度和长时间独立工作能力，价格不变
2026-05-26: How we contain Claude - 工程博客介绍通过沙箱限制潜在破坏性操作的范围
2026-05-25: Chris Olah at Pope Leo XIV's encyclical presentation - Anthropic 联合创始人 Chris Olah 应邀在教皇利奥十四世通谕发布会上发言

xAI

2026-06-03

Grok models on Cloudflare AI Gateway - Grok LLM、音频、图像和视频模型现可通过 Cloudflare AI Gateway 使用
Go by Gopuff powered by Grok - Gopuff 和 SpaceXAI 推出个人购物助手 Go，由 Grok 文本、音频和图像模型驱动
Grok Imagine 1.5 Preview - 现已在 API 中提供
Grok STT and TTS on Vapi - Grok STT（最具成本效益）和 TTS（最自然）API 现已在 Vapi 上线

2026-05-28

Grok Build 0.2.7 - 新增 /usage、/login、跨子智能体共享终端和改进的图像理解

2026-05-27

Grok in Kilocode - 可在 Kilocode IDE 扩展或 CLI 中使用 SuperGrok 或 X Premium+ 订阅访问 grok-build-0.1

2026-05-26

Grok Build usage limits reset - 团队发现缓存改进区域并重置所有账户的 Grok Build 使用限制

2026-05-25

Grok Build Beta available - 所有 SuperGrok 和 X Premium+ 用户现可使用 Grok Build Beta，包括计划模式、Imagine 图像和视频创建以及 CLI 自动化

Google

2026-06-05

The latest AI news we announced in May 2026 - 5 月 AI 更新回顾

2026-06-03

5 ways Google Search can level up your thrift and vintage shopping - Google 搜索古着购物技巧

2026-06-01

How we used Gemini to build Google I/O 2026 - Google 使用 Gemini 构建 I/O 2026

2026-05-29

Take our I/O 2026 quiz, vibe coded in Google AI Studio - 使用 Google AI Studio vibe coding 制作 I/O 2026 测验
9 demos of Gemini Omni and Gemini 3.5 in action - Gemini Omni 和 Gemini 3.5 实战演示
Check out real-life AI prototypes from the Futures Lab - 滑铁卢大学学生开发手语导师等 AI 原型

2026-05-28

Catch up on 12 major I/O 2026 moments - I/O 2026 主题演讲 12 个重要时刻

个人社交媒体动态

OpenAI 相关人士

2026-06-07 @thsottiaux: 未来 100 天每天选一人给予 10 倍 Codex 使用限制
2026-06-05 @thsottiaux: Codex 设置现支持搜索功能
2026-06-07 @gdb: Codex 能力范围很大，当前"过剩"感明显
2026-06-06 @gdb: ChatGPT 新增网页端邮件直发功能
2026-05-29 @nickaturley: GPT-5.5 instant 新版本改进阿谀奉承、事实性和多语言性能

Anthropic 相关人士

2026-06-04 @bcherny: 转发 Anthropic 工程师代码产出是 2021-2025 年 8 倍的推文
2026-05-28 @bcherny: 转发 Anthropic H 轮融资推文

Google 相关人士

2026-06-05 @OfficialLoganK: 探索举办 Google Summer of Building 帮助学生和早期建设者
2026-06-05 @OfficialLoganK: 创建优质公开 AI benchmark 机会巨大
2026-06-04 @OfficialLoganK: 正在开发世界最佳 Android 和 iOS vibe coding 应用
2026-06-03 @demishassabis: 转发 DataDIVER 计算模型发现研究
2026-06-02 @demishassabis: 转发 Google DeepMind Co-Scientist 多智能体系统
2026-05-29 @demishassabis: 转发 Gemini Omni 演示

Benchmark 快照与变化

SWE-bench Verified

本期排名前三（无变动）

排名	模型	分数
1	live-SWE-agent + Claude 4.5 Opus medium (20251101)	79.2
2	Sonar Foundation Agent + Claude 4.5 Opus	79.2
3	TRAE + Doubao-Seed-Code	78.8

本期变化

EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct: 排名从 103 升至 76，分数从 52.2 升至 60.4
Warp: 排名从 11 降至 36，分数从 75.6 降至 71.0
devlo: 排名从 44 降至 83/94，分数从 70.2 降至 58.2/54.2
Nemotron-CORTEXA: 排名从 50 降至 82，分数从 68.2 降至 58.2
Solver (2024-09-12): 排名从 120 降至 126，分数从 45.4 降至 43.6
EPAM AI/Run Developer Agent + GPT4o: 排名从 156 降至 162，分数从 27.0 降至 24.0

来源: https://github.com/OpenAutoCoder/live-swe-agent

SWE-bench Pro Public

本期排名前三（无变动）

排名	模型	分数
1	gpt-5.4 (xHigh)*	59.1
2	Muse Spark*	55.0
3	claude-opus-4-6 (thinking)*	51.9

本期无变化

来源: https://labs.scale.com/leaderboard/swe_bench_pro_public

[email protected]

本期排名前三（无变动）

排名	模型	分数
1	vix / Claude Opus 4.7	90.2
2	JJAgent / Multiple	87.1
3	NexAU-AHE / GPT-5.5	84.7

本期变化

LemonHarness / Multiple: 排名从 10 升至 4，分数从 79.9 升至 84.5
Gemini CLI / Gemini 3.1 Pro: 排名从 47 升至 42，分数从 59.4 升至 61.4
little-coder / Qwen3.6-35B-A3B: 排名从 123 升至 118，分数从 23.0 升至 24.6
Warp / Multiple: 排名从 43 降至 49/67，分数从 61.2 降至 59.1/50.1

来源: https://www.tbench.ai/leaderboard/terminal-bench/2.0

LMArena 整体榜

本期排名前三（无变动）

排名	模型	ELO 分数
1	claude-opus-4-6-thinking	1502.17
2	claude-opus-4-7-thinking	1499.70
3	claude-opus-4-6	1498.38

本期无变化 - 前十名模型和分数均保持稳定

来源: https://datasets-server.huggingface.co/rows?dataset=lmarena-ai/leaderboard-dataset&config=text_style_control&split=latest

来源状态

所有新闻来源和 benchmark 来源均正常采集，无失败来源。

来源 · 78 条

openai.com ×25 developers.openai.com ×5 github.com ×5 raw.githubusercontent.com ×3 @AnthropicAI ×9 blog.google ×7 @xai ×8 @thsottiaux ×3 @nickaturley @gdb ×3 @bcherny ×3 @OfficialLoganK ×3 @demishassabis ×3