AI 日报 2026-06-08 08:45
2026-06-08 08:45 CST
核心速览
【OpenAI】ChatGPT 引入"梦境"记忆系统 ChatGPT 推出新的记忆机制,能更好地记住用户偏好,保持跨对话的上下文新鲜度和相关性。这标志着 AI 助手从单次对话向持续个性化服务演进,可能显著改善长期用户体验。 https://openai.com/index/chatgpt-memory-dreaming
【OpenAI】Codex 登陆 AWS OpenAI 前沿模型和 Codex 正式在 AWS 平台全面可用,企业可通过现有 AWS 环境、权限控制和采购流程使用 OpenAI 服务。这打通了企业级部署的关键通道,降低了从评估到生产的门槛,预计将加速企业 AI 应用落地。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws
【Anthropic】Claude Opus 4.8 发布 新版本在 Opus 4.7 基础上提升了判断力、对自身进度的诚实表达能力,以及更长时间独立工作的能力,价格不变。持续迭代显示 Claude 在代理能力上的快速演进。 https://x.com/AnthropicAI/status/2060042792399770030
【Anthropic】提交 IPO 注册草案 Anthropic 已向 SEC 秘密提交 S-1 注册草案,为可能的首次公开募股做准备。这标志着 AI 头部公司从研究驱动向商业化成熟的关键转折,将受到资本市场密切关注。 https://www.anthropic.com/news/confidential-draft-s1-sec
【Anthropic】递归自我改进研究报告 Anthropic 内部数据显示工程师代码产出较 2021-2025 年提升 8 倍,Claude 正在加速 AI 开发本身——这可能是递归自我改进的路径,即 AI 自主构建更强能力的后继者。这一趋势的发展速度超出预期。 https://www.anthropic.com/institute/recursive-self-improvement
重大 Benchmark 变化
SWE-bench Verified
- LemonHarness 在 [email protected] 排名从第 10 跃升至第 4(79.9→84.5 分),提升 4.6%
- devlo 排名从第 44 暴跌至第 94(70.2→54.2 分),下降 22.8%
- Warp 排名从第 11 降至第 36(75.6→71.0 分),下降 6.1%
快速预览
- OpenAI Codex 重大更新:Sites 插件预览发布,可创建和部署网站;AWS 全面可用;ChatGPT 新增邮件直发功能;活动洞察和分享卡片上线
- Anthropic 融资与产品:H 轮融资 650 亿美元,估值 9650 亿美元;Claude Opus 4.8 发布;Claude Code 新增 fallbackModel 设置;递归自我改进研究引关注
- xAI Grok 生态扩张:Grok Imagine 1.5 Preview 发布;Grok Build Beta 向所有 SuperGrok/X Premium+ 用户开放;集成 Cloudflare AI Gateway、Gopuff、Vapi、Kilocode
- Google I/O 2026 焦点:Gemini Omni 和 Gemini 3.5 演示发布;Co-Scientist 多智能体系统助力科研;AI Studio vibe coding 工具推出
- Benchmark 动态:SWE-bench Verified 前三无变化(live-SWE-agent + Claude 4.5 Opus 79.2%);[email protected] 榜首稳定(vix / Claude Opus 4.7 90.2%);LMArena 整体榜前三均为 Claude Opus 4.6/4.7 系列
新闻动态
OpenAI
2026-06-04
- How Endava is redesigning software delivery around AI agents - Endava 使用 AI agents、ChatGPT Enterprise 和 Codex 加速软件交付、自动化工作流并建立 AI 原生文化
- Dreaming: Better memory for a more helpful ChatGPT - ChatGPT 推出新记忆系统,更好记住偏好并保持上下文相关性
- Biodefense in the Intelligence Age - AI 驱动的生物防御行动计划
2026-06-03
- Introducing new capabilities to GPT-Rosalind - GPT-Rosalind 增强生物推理、药物化学专业知识、基因组分析和实验工作流能力
- How Wasmer used Codex to build a Node.js runtime for the edge - Wasmer 使用 Codex + GPT-5.5 构建边缘 Node.js 运行时,开发速度提升 10-20 倍
- A blueprint for democratic governance of frontier AI - OpenAI 提出美国前沿 AI 治理蓝图
- OpenAI public policy agenda - OpenAI 公共政策议程,涵盖安全、青年保护、劳动力转型和全球标准
2026-06-02
- Travelers deploys AI-powered claims countrywide with OpenAI - Travelers 使用 OpenAI 构建 AI 理赔助手,提供 24/7 支持
- Codex for every role, tool, and workflow - 新 Codex 插件、站点和注释帮助分析师、营销人员、设计师等团队提高效率
- Advancing youth safety and opportunity through global leadership - OpenAI 呼吁全球行动加强青年 AI 安全
- Codex is becoming a productivity tool for everyone - 《知识工作的下一个时代》报告探讨 Codex 如何通过 AI 驱动的研究、数据分析和工作流自动化转变生产力
2026-06-01
- Our views on AI policy and political advocacy - OpenAI 对 AI 政策和政治倡导的立场
- Building the infrastructure for the Intelligence Age in Michigan - OpenAI 在密歇根州 Stargate 项目中破土动工建设 1GW 数据中心
- OpenAI frontier models and Codex are now available on AWS - OpenAI 前沿模型和 Codex 现已在 AWS 上全面可用
2026-05-29
- Boston Children's uses AI to unlock new diagnoses - 波士顿儿童医院使用 OpenAI 技术改善患者护理,帮助诊断 40 多例罕见病病例
- How Braintrust turns customer requests into code with Codex - Braintrust 工程师使用 Codex + GPT-5.5 加速实验和编码
- Strengthening societal resilience with Rosalind Biodefense - OpenAI 推出 Rosalind Biodefense,扩展 GPT-Rosalind 可信访问
- A shared playbook for trustworthy third party evaluations - OpenAI 分享第三方 AI 评估指南
2026-05-28
- How Endava builds an agentic organization with Codex - Endava 使用 Codex 构建智能体组织,将需求分析从数周缩短至数小时
- MUFG aims to become AI-native with OpenAI - MUFG 使用 ChatGPT Enterprise 构建 AI 原生组织
- OpenAI's Frontier Governance Framework - OpenAI 前沿治理框架
2026-05-27
- Cisco and OpenAI redefine enterprise engineering with Codex - Cisco 和 OpenAI 使用 Codex 重新定义企业工程
- Building self-improving tax agents with Codex - OpenAI、Thrive 和 Crete 使用 Codex 构建自我改进税务智能体
- Warp's big bet on building open source with GPT-5.5 - Warp 使用 GPT-5.5 和 OpenAI 模型协调跨本地、云和开源开发工作流的编码智能体
- Election information and safeguards in 2026 - 2026 年全球选举前,OpenAI 加强选举信息和保障措施
OpenAI Codex 更新日志
2026-06-04
- Codex app updates 26.602 - 个人资料新增活动洞察和分享卡片功能,可查看 Codex 使用亮点并保存个人资料卡片
- Codex CLI 0.137.0 - TUI 控件支持 F13-F24 键绑定、可搜索菜单中的粘贴和紧凑的仅推理状态/标题项
2026-06-02
- Build and deploy websites with Sites - Sites 插件预览版在 Codex app 中发布,可创建、保存、部署和检查由 OpenAI 托管的网站、仪表板、内部工具、Web 应用和游戏
- ChatGPT for iOS 1.2026.146 - 为 Codex 新增可选 Face ID 或密码锁
2026-06-01
- Use Codex with Amazon Bedrock - Codex 现可使用通过 Amazon Bedrock 提供的支持 OpenAI 模型
Anthropic
2026-06-06 至 2026-06-04
- Claude Code v2.1.168 - bug 修复和可靠性改进
- Claude Code v2.1.167 - bug 修复和可靠性改进
- Claude Code v2.1.166 - 新增
fallbackModel设置,可配置最多 3 个后备模型按顺序尝试 - Claude Code v2.1.165 - bug 修复和可靠性改进
- Claude Code v2.1.163 - 新增
requiredMinimumVersion和requiredMaximumVersion托管设置
社交媒体动态
- 2026-06-05: Making Claude a chemist - Opus 4.7 在 NMR 光谱分析上匹配甚至超越专用 NMR 软件
- 2026-06-04: Recursive self-improvement - 内部数据显示 Claude 正在加速 AI 开发,Anthropic 工程师平均每季度交付代码量是 2021-2025 年的 8 倍
- 2026-06-03: AI-enabled cyber threats mapped to MITRE ATT&CK - 检查 832 个恶意账户并将其活动映射到 MITRE ATT&CK 数据库
- 2026-06-02: Expanding Project Glasswing - Claude Mythos Preview 访问扩展至约 150 个组织,覆盖 15 个以上国家
- 2026-06-01: Confidential draft S-1 SEC filing - Anthropic 已向 SEC 机密提交 S-1 注册草案,为可能的 IPO 做准备
- 2026-05-28: Series H Funding: $65B at $965B valuation - H 轮融资 650 亿美元,投后估值 9650 亿美元,由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia 领投
- 2026-05-28: Claude Opus 4.8 发布 - 在 Opus 4.7 基础上改进判断力、对自身进度的诚实度和长时间独立工作能力,价格不变
- 2026-05-26: How we contain Claude - 工程博客介绍通过沙箱限制潜在破坏性操作的范围
- 2026-05-25: Chris Olah at Pope Leo XIV's encyclical presentation - Anthropic 联合创始人 Chris Olah 应邀在教皇利奥十四世通谕发布会上发言
xAI
2026-06-03
- Grok models on Cloudflare AI Gateway - Grok LLM、音频、图像和视频模型现可通过 Cloudflare AI Gateway 使用
- Go by Gopuff powered by Grok - Gopuff 和 SpaceXAI 推出个人购物助手 Go,由 Grok 文本、音频和图像模型驱动
- Grok Imagine 1.5 Preview - 现已在 API 中提供
- Grok STT and TTS on Vapi - Grok STT(最具成本效益)和 TTS(最自然)API 现已在 Vapi 上线
2026-05-28
- Grok Build 0.2.7 - 新增 /usage、/login、跨子智能体共享终端和改进的图像理解
2026-05-27
- Grok in Kilocode - 可在 Kilocode IDE 扩展或 CLI 中使用 SuperGrok 或 X Premium+ 订阅访问 grok-build-0.1
2026-05-26
- Grok Build usage limits reset - 团队发现缓存改进区域并重置所有账户的 Grok Build 使用限制
2026-05-25
- Grok Build Beta available - 所有 SuperGrok 和 X Premium+ 用户现可使用 Grok Build Beta,包括计划模式、Imagine 图像和视频创建以及 CLI 自动化
2026-06-05
- The latest AI news we announced in May 2026 - 5 月 AI 更新回顾
2026-06-03
- 5 ways Google Search can level up your thrift and vintage shopping - Google 搜索古着购物技巧
2026-06-01
- How we used Gemini to build Google I/O 2026 - Google 使用 Gemini 构建 I/O 2026
2026-05-29
- Take our I/O 2026 quiz, vibe coded in Google AI Studio - 使用 Google AI Studio vibe coding 制作 I/O 2026 测验
- 9 demos of Gemini Omni and Gemini 3.5 in action - Gemini Omni 和 Gemini 3.5 实战演示
- Check out real-life AI prototypes from the Futures Lab - 滑铁卢大学学生开发手语导师等 AI 原型
2026-05-28
- Catch up on 12 major I/O 2026 moments - I/O 2026 主题演讲 12 个重要时刻
个人社交媒体动态
OpenAI 相关人士
- 2026-06-07 @thsottiaux: 未来 100 天每天选一人给予 10 倍 Codex 使用限制
- 2026-06-05 @thsottiaux: Codex 设置现支持搜索功能
- 2026-06-07 @gdb: Codex 能力范围很大,当前"过剩"感明显
- 2026-06-06 @gdb: ChatGPT 新增网页端邮件直发功能
- 2026-05-29 @nickaturley: GPT-5.5 instant 新版本改进阿谀奉承、事实性和多语言性能
Anthropic 相关人士
- 2026-06-04 @bcherny: 转发 Anthropic 工程师代码产出是 2021-2025 年 8 倍的推文
- 2026-05-28 @bcherny: 转发 Anthropic H 轮融资推文
Google 相关人士
- 2026-06-05 @OfficialLoganK: 探索举办 Google Summer of Building 帮助学生和早期建设者
- 2026-06-05 @OfficialLoganK: 创建优质公开 AI benchmark 机会巨大
- 2026-06-04 @OfficialLoganK: 正在开发世界最佳 Android 和 iOS vibe coding 应用
- 2026-06-03 @demishassabis: 转发 DataDIVER 计算模型发现研究
- 2026-06-02 @demishassabis: 转发 Google DeepMind Co-Scientist 多智能体系统
- 2026-05-29 @demishassabis: 转发 Gemini Omni 演示
Benchmark 快照与变化
SWE-bench Verified
本期排名前三(无变动)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | live-SWE-agent + Claude 4.5 Opus medium (20251101) | 79.2 |
| 2 | Sonar Foundation Agent + Claude 4.5 Opus | 79.2 |
| 3 | TRAE + Doubao-Seed-Code | 78.8 |
本期变化
- EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct: 排名从 103 升至 76,分数从 52.2 升至 60.4
- Warp: 排名从 11 降至 36,分数从 75.6 降至 71.0
- devlo: 排名从 44 降至 83/94,分数从 70.2 降至 58.2/54.2
- Nemotron-CORTEXA: 排名从 50 降至 82,分数从 68.2 降至 58.2
- Solver (2024-09-12): 排名从 120 降至 126,分数从 45.4 降至 43.6
- EPAM AI/Run Developer Agent + GPT4o: 排名从 156 降至 162,分数从 27.0 降至 24.0
来源: https://github.com/OpenAutoCoder/live-swe-agent
SWE-bench Pro Public
本期排名前三(无变动)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gpt-5.4 (xHigh)* | 59.1 |
| 2 | Muse Spark* | 55.0 |
| 3 | claude-opus-4-6 (thinking)* | 51.9 |
本期无变化
来源: https://labs.scale.com/leaderboard/swe_bench_pro_public
[email protected]
本期排名前三(无变动)
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | vix / Claude Opus 4.7 | 90.2 |
| 2 | JJAgent / Multiple | 87.1 |
| 3 | NexAU-AHE / GPT-5.5 | 84.7 |
本期变化
- LemonHarness / Multiple: 排名从 10 升至 4,分数从 79.9 升至 84.5
- Gemini CLI / Gemini 3.1 Pro: 排名从 47 升至 42,分数从 59.4 升至 61.4
- little-coder / Qwen3.6-35B-A3B: 排名从 123 升至 118,分数从 23.0 升至 24.6
- Warp / Multiple: 排名从 43 降至 49/67,分数从 61.2 降至 59.1/50.1
来源: https://www.tbench.ai/leaderboard/terminal-bench/2.0
LMArena 整体榜
本期排名前三(无变动)
| 排名 | 模型 | ELO 分数 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1502.17 |
| 2 | claude-opus-4-7-thinking | 1499.70 |
| 3 | claude-opus-4-6 | 1498.38 |
本期无变化 - 前十名模型和分数均保持稳定
来源: https://datasets-server.huggingface.co/rows?dataset=lmarena-ai/leaderboard-dataset&config=text_style_control&split=latest
来源状态
所有新闻来源和 benchmark 来源均正常采集,无失败来源。