AI 日报 2026-05-15 10:16

2026-05-15 10:16 CST

核心速览

  • 【OpenAI】Work with Codex from anywhere
    OpenAI 将 Codex 接入 ChatGPT 移动端,可跨设备实时监控、引导和批准编码任务。移动化让远程环境中的 coding agent 更易被持续管理。
    https://openai.com/index/work-with-codex-from-anywhere

  • 【OpenAI】Our response to the TanStack npm supply chain attack
    OpenAI 披露应对 TanStack “Mini Shai-Hulud” npm 供应链攻击的措施,并要求 macOS 用户在 2026 年 6 月 12 日前更新应用。该事件凸显 AI 工具链签名证书与依赖安全的重要性。
    https://openai.com/index/our-response-to-the-tanstack-npm-supply-chain-attack

  • 【Anthropic】Gates Foundation partnership
    Anthropic 与盖茨基金会合作,承诺投入 2 亿美元的赠款、Claude credits 和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性。该合作显示大模型能力正加速进入公益与发展领域。
    https://x.com/AnthropicAI/status/2054941901900611787

  • 【xAI】Grok Build early beta
    xAI 发布 Grok Build 早期 beta,这是面向编码、应用构建和工作流自动化的 agentic CLI,当前开放给 SuperGrok Heavy 订阅者。该产品强化了 coding agent 在命令行场景的竞争。
    https://x.com/xai/status/2054993285152989373

  • 【xAI】Grok 4.3 on xAI API
    Grok 4.3 登陆 xAI API,支持 100 万 token 上下文,价格为输入 1.25 美元/百万 token、输出 2.50 美元/百万 token。xAI 称其在 agentic tool calling、指令遵循及企业领域榜单领先。
    https://x.com/xai/status/2051703217697010103

重大 Benchmark 变化

  • SWE-bench Verified:EntroPO + R2E + Qwen3-Coder-30B-A3B-Instruct 从第 103 升至第 76,分数 52.2→60.4,涨幅约 15.7%。
  • SWE-bench Verified:Nemotron-CORTEXA 从第 50 降至第 82,分数 68.2→58.2,降幅约 14.7%。
  • SWE-bench Verified:Warp 从第 11 降至第 36,分数 75.6→71.0,排名显著下滑。
  • SWE-bench Verified:devlo 从第 44 降至第 83/94,分数由 70.2 降至 58.2/54.2,最大降幅约 22.8%。
  • Terminal-Bench 2.0:LemonHarness / Multiple 从第 10 升至第 3,分数 79.9→84.5,涨幅约 5.8%;Warp / Multiple 最多从第 44 降至第 68,分数 61.2→50.1。

历史日报

邮件订阅

每天一封邮件,随时可退订