AI 日报 2026-06-08 08:45

2026-06-08 08:45 CST

核心速览

【OpenAI】ChatGPT 引入"梦境"记忆系统 ChatGPT 推出新的记忆机制,能更好地记住用户偏好,保持跨对话的上下文新鲜度和相关性。这标志着 AI 助手从单次对话向持续个性化服务演进,可能显著改善长期用户体验。 https://openai.com/index/chatgpt-memory-dreaming

【OpenAI】Codex 登陆 AWS OpenAI 前沿模型和 Codex 正式在 AWS 平台全面可用,企业可通过现有 AWS 环境、权限控制和采购流程使用 OpenAI 服务。这打通了企业级部署的关键通道,降低了从评估到生产的门槛,预计将加速企业 AI 应用落地。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws

【Anthropic】Claude Opus 4.8 发布 新版本在 Opus 4.7 基础上提升了判断力、对自身进度的诚实表达能力,以及更长时间独立工作的能力,价格不变。持续迭代显示 Claude 在代理能力上的快速演进。 https://x.com/AnthropicAI/status/2060042792399770030

【Anthropic】提交 IPO 注册草案 Anthropic 已向 SEC 秘密提交 S-1 注册草案,为可能的首次公开募股做准备。这标志着 AI 头部公司从研究驱动向商业化成熟的关键转折,将受到资本市场密切关注。 https://www.anthropic.com/news/confidential-draft-s1-sec

【Anthropic】递归自我改进研究报告 Anthropic 内部数据显示工程师代码产出较 2021-2025 年提升 8 倍,Claude 正在加速 AI 开发本身——这可能是递归自我改进的路径,即 AI 自主构建更强能力的后继者。这一趋势的发展速度超出预期。 https://www.anthropic.com/institute/recursive-self-improvement

重大 Benchmark 变化

SWE-bench Verified

  • LemonHarness[email protected] 排名从第 10 跃升至第 4(79.9→84.5 分),提升 4.6%
  • devlo 排名从第 44 暴跌至第 94(70.2→54.2 分),下降 22.8%
  • Warp 排名从第 11 降至第 36(75.6→71.0 分),下降 6.1%

快速预览

  • OpenAI Codex 重大更新:Sites 插件预览发布,可创建和部署网站;AWS 全面可用;ChatGPT 新增邮件直发功能;活动洞察和分享卡片上线
  • Anthropic 融资与产品:H 轮融资 650 亿美元,估值 9650 亿美元;Claude Opus 4.8 发布;Claude Code 新增 fallbackModel 设置;递归自我改进研究引关注
  • xAI Grok 生态扩张:Grok Imagine 1.5 Preview 发布;Grok Build Beta 向所有 SuperGrok/X Premium+ 用户开放;集成 Cloudflare AI Gateway、Gopuff、Vapi、Kilocode
  • Google I/O 2026 焦点:Gemini Omni 和 Gemini 3.5 演示发布;Co-Scientist 多智能体系统助力科研;AI Studio vibe coding 工具推出
  • Benchmark 动态:SWE-bench Verified 前三无变化(live-SWE-agent + Claude 4.5 Opus 79.2%);[email protected] 榜首稳定(vix / Claude Opus 4.7 90.2%);LMArena 整体榜前三均为 Claude Opus 4.6/4.7 系列

新闻动态

OpenAI

2026-06-04

2026-06-03

2026-06-02

2026-06-01

2026-05-29

2026-05-28

2026-05-27

OpenAI Codex 更新日志

2026-06-04

  • Codex app updates 26.602 - 个人资料新增活动洞察和分享卡片功能,可查看 Codex 使用亮点并保存个人资料卡片
  • Codex CLI 0.137.0 - TUI 控件支持 F13-F24 键绑定、可搜索菜单中的粘贴和紧凑的仅推理状态/标题项

2026-06-02

2026-06-01

Anthropic

2026-06-06 至 2026-06-04

社交媒体动态

xAI

2026-06-03

2026-05-28

  • Grok Build 0.2.7 - 新增 /usage、/login、跨子智能体共享终端和改进的图像理解

2026-05-27

  • Grok in Kilocode - 可在 Kilocode IDE 扩展或 CLI 中使用 SuperGrok 或 X Premium+ 订阅访问 grok-build-0.1

2026-05-26

2026-05-25

  • Grok Build Beta available - 所有 SuperGrok 和 X Premium+ 用户现可使用 Grok Build Beta,包括计划模式、Imagine 图像和视频创建以及 CLI 自动化

Google

2026-06-05

2026-06-03

2026-06-01

2026-05-29

2026-05-28

个人社交媒体动态

OpenAI 相关人士

  • 2026-06-07 @thsottiaux: 未来 100 天每天选一人给予 10 倍 Codex 使用限制
  • 2026-06-05 @thsottiaux: Codex 设置现支持搜索功能
  • 2026-06-07 @gdb: Codex 能力范围很大,当前"过剩"感明显
  • 2026-06-06 @gdb: ChatGPT 新增网页端邮件直发功能
  • 2026-05-29 @nickaturley: GPT-5.5 instant 新版本改进阿谀奉承、事实性和多语言性能

Anthropic 相关人士

  • 2026-06-04 @bcherny: 转发 Anthropic 工程师代码产出是 2021-2025 年 8 倍的推文
  • 2026-05-28 @bcherny: 转发 Anthropic H 轮融资推文

Google 相关人士

  • 2026-06-05 @OfficialLoganK: 探索举办 Google Summer of Building 帮助学生和早期建设者
  • 2026-06-05 @OfficialLoganK: 创建优质公开 AI benchmark 机会巨大
  • 2026-06-04 @OfficialLoganK: 正在开发世界最佳 Android 和 iOS vibe coding 应用
  • 2026-06-03 @demishassabis: 转发 DataDIVER 计算模型发现研究
  • 2026-06-02 @demishassabis: 转发 Google DeepMind Co-Scientist 多智能体系统
  • 2026-05-29 @demishassabis: 转发 Gemini Omni 演示

Benchmark 快照与变化

SWE-bench Verified

本期排名前三(无变动)

排名 模型 分数
1 live-SWE-agent + Claude 4.5 Opus medium (20251101) 79.2
2 Sonar Foundation Agent + Claude 4.5 Opus 79.2
3 TRAE + Doubao-Seed-Code 78.8

本期变化

  • EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct: 排名从 103 升至 76,分数从 52.2 升至 60.4
  • Warp: 排名从 11 降至 36,分数从 75.6 降至 71.0
  • devlo: 排名从 44 降至 83/94,分数从 70.2 降至 58.2/54.2
  • Nemotron-CORTEXA: 排名从 50 降至 82,分数从 68.2 降至 58.2
  • Solver (2024-09-12): 排名从 120 降至 126,分数从 45.4 降至 43.6
  • EPAM AI/Run Developer Agent + GPT4o: 排名从 156 降至 162,分数从 27.0 降至 24.0

来源: https://github.com/OpenAutoCoder/live-swe-agent

SWE-bench Pro Public

本期排名前三(无变动)

排名 模型 分数
1 gpt-5.4 (xHigh)* 59.1
2 Muse Spark* 55.0
3 claude-opus-4-6 (thinking)* 51.9

本期无变化

来源: https://labs.scale.com/leaderboard/swe_bench_pro_public

[email protected]

本期排名前三(无变动)

排名 模型 分数
1 vix / Claude Opus 4.7 90.2
2 JJAgent / Multiple 87.1
3 NexAU-AHE / GPT-5.5 84.7

本期变化

  • LemonHarness / Multiple: 排名从 10 升至 4,分数从 79.9 升至 84.5
  • Gemini CLI / Gemini 3.1 Pro: 排名从 47 升至 42,分数从 59.4 升至 61.4
  • little-coder / Qwen3.6-35B-A3B: 排名从 123 升至 118,分数从 23.0 升至 24.6
  • Warp / Multiple: 排名从 43 降至 49/67,分数从 61.2 降至 59.1/50.1

来源: https://www.tbench.ai/leaderboard/terminal-bench/2.0

LMArena 整体榜

本期排名前三(无变动)

排名 模型 ELO 分数
1 claude-opus-4-6-thinking 1502.17
2 claude-opus-4-7-thinking 1499.70
3 claude-opus-4-6 1498.38

本期无变化 - 前十名模型和分数均保持稳定

来源: https://datasets-server.huggingface.co/rows?dataset=lmarena-ai/leaderboard-dataset&config=text_style_control&split=latest


来源状态

所有新闻来源和 benchmark 来源均正常采集,无失败来源。

Sources