AI资讯日报 · 2026年6月18日 | Ciallo～(∠・ω< )⌒☆

GLM 5.2 开源模型获评”匹敌 Opus 4.8/GPT 5.5”引爆社区；Jim Fan 团队实现全球首次物理世界 AutoResearch——8 个 Codex Agent 操控机器人舰队自主科研；OpenAI 发布 LifeSciBench 联手 173 名科学家；Anthropic Project Fetch 展示 Claude 编程机器狗，速度超人类团队 20 倍

具身智能

从 #EmbodiedAI、#Humanoid、#RobotLearning 追踪的最新动态

ENPIRE：全球首次物理世界 AutoResearch——8 个 Codex Agent 操控机器人舰队

Jim Fan（NVIDIA）团队实现全球首次 Physical AutoResearch。ENPIRE 系统赋予 8 个 Codex Agent 一支机器人舰队、GPU 分配和慷慨 token 预算，目标是自主完成物理实验任务。Jim Fan 在幕后分享中强调安全 harness 是第一优先——8 台机器人无人值守运行时需要多层安全防护。4 年前 MineDojo 获 NeurIPS 最佳论文，今年 NitroGen 获 CVPR 荣誉提名，ENPIRE 标志着具身 Agent 从虚拟世界走向物理世界的关键一步。

关键信息: NVIDIA, Jim Fan, ENPIRE, Codex, AutoResearch, 机器人舰队, 具身智能

VinDynamics 与 Skild AI 签署 MOU：联合开发具身 AI 人形机器人

VinDynamics 与 Skild AI 签署谅解备忘录（MOU），共同开发由具身 AI（Embodied AI）驱动的人形机器人。合作目标瞄准全球范围内的制造业、物流和酒店业实际部署。

关键信息: VinDynamics, Skild AI, Humanoid, 制造业, 物流

首个来自真实世界运营的开源机器人 RL 数据集发布：包含失败案例

社区注意到了首个来自真实世界（real world）运营的开源机器人强化学习数据集发布，特点是包含失败案例（failures）而非仅精选成功轨迹。”真实的家庭是唯一重要的训练场”——数据驱动的具身智能正在从仿真走向真实世界。

关键信息: 开源, RobotLearning, RL数据集, Sim2Real, 真实世界

具身智能快讯：LimX Luna 发布、Unitree 进入日本市场、人形机器人赛龙舟

LimX Dynamics 发布 Luna——1.6 米高人形机器人，定位娱乐和互动表演
Unitree 通过 GMO AI & Robotics 商社进入日本市场，正式开启销售
Huayan Robotics 展示双臂协作机器人，用于工业自动化精准协调
中国人形机器人参与端午节龙舟挑战赛——划龙舟、包粽子、打糯米糍、皮影戏表演

关键信息: LimX Dynamics, Unitree, GMO, Huayan Robotics, 人形机器人

模型发布

GLM 5.2 开源发布：社区评测匹敌 Opus 4.8 / GPT 5.5，Jeremy Howard 称”从未体验过这样的开源模型”

Z.ai 的 GLM 5.2 成为本周最受关注的开源发布。@jeremyphoward 评价”GLM 5.2 是个奇迹！至少和 Opus 4.8、GPT 5.5 一样好。超级快、便宜、不啰嗦，处理长上下文非常好。我从未体验过这样的开源权重模型。”@voratiq 的头对头测试显示 GLM 5.2 High 对 Opus 4.8 XHigh 胜率 32%。@natolambert 指出 GLM 5.2 在 Arena 排行榜上位居前列。社区多个独立评测确认：GLM 5.2 是首个真正与闭源前沿模型匹敌的开源模型。

关键信息: Z.ai, GLM 5.2, 开源, Opus 4.8, GPT 5.5, Arena

研究论文

OpenAI 联合 173 位科学家发布 LifeSciBench：750 个真实生命科学任务

OpenAI 联合 173 位来自生物技术和制药研究的科学家，发布了 LifeSciBench——包含 750 个专家编写的任务，覆盖 7 大生物研究工作流。这是生命科学领域迄今最大规模的专家协作 AI 基准。

关键信息: OpenAI, LifeSciBench, 生命科学, 基准, 药物研发

Anthropic Project Fetch Phase 2：Claude 编程机器狗，速度超人类团队 20 倍

Anthropic 发布 Project Fetch Phase 2——测试 Claude 编程控制机器狗（robodog）完成任务。Opus 4.7 独立完成的速度比去年最佳人类团队（借助 Opus 4.1）快约 20 倍。不过机器狗仍然未能成功取回沙滩球（”the robodog, alas, still failed to fetch a beach ball”）。

关键信息: Anthropic, Project Fetch, Opus 4.7, 机器人, 编程

GPT-5.5 Instant 健康问答能力匹敌 Thinking 模型，每周围绕 2.3 亿用户

OpenAI 宣布 GPT-5.5 Instant 在健康相关问题上已达前沿 Thinking 模型水平。每周超 2.3 亿人向 ChatGPT 咨询健康和保健问题。同日，OpenAI 联合波士顿儿童医院和哈佛大学在 NEJM AI 发表研究：o3 Deep Research 帮助临床医生重新审视此前未能解决的罕见儿童遗传病病例，为等待多年的家庭找到答案。

关键信息: OpenAI, GPT-5.5, 医疗AI, NEJM AI, 罕见病

OpenAI 发布部署前行为预测方法：用真实用户请求模拟模型行为

OpenAI 分享了在模型发布前通过模拟部署（simulating deployment）预测模型行为的新方法：使用近期的去标识化用户请求测试候选模型响应，从而提前发现潜在问题。

关键信息: OpenAI, 安全, 部署前测试, 模拟

产品动态

Microsoft Copilot Cowork 全球正式发布：多模型支持 + 长时间运行 Agent

Satya Nadella 宣布 Copilot Cowork 全球 GA（正式发布），新增多模型支持。企业用户可部署长时间运行 Agent（long-running agents），由 Microsoft AI 的多模型矩阵（MAI-Thinking-1 等）提供支持。

关键信息: Microsoft, Copilot Cowork, Agent, GA, 多模型

Google DeepMind 发布 AI Control Roadmap：从”假设 AI 会按意图行事”到”如果它不呢”

Google DeepMind 发布了 AI Control Roadmap——一个在 Google 内部构建和管理部署先进 AI 的框架。核心哲学转变：不再假设 AI 总会按人类的意图行事，而是问”如果它不这样做怎么办？”

关键信息: Google DeepMind, AI控制, 安全, 框架, 治理

Anthropic 发布 Claude Code 经济学研究：追踪规模化过程中的使用模式

Anthropic 发布经济研究，构建追踪 Claude Code 规模化使用的框架——谁在用？用来做什么？任务价值如何变化？领域专业知识多大程度上决定 session 成功与否？

关键信息: Anthropic, Claude Code, 经济学, 使用模式

MagicPath 推出 Skills 功能：可导入或对话式创建 Agent 技能

MagicPath 发布 Skills 功能——预置优化设计的指令集，让 Agent 在排版、设计打磨、动画等操作上表现更好。用户可导入自己的 skills，或直接通过对话让 MagicPath 创建新 skill。

关键信息: MagicPath, Skills, Agent, 设计工具

X平台动态

过去 3 天精选自追踪账号的 8 条重要推文

开源突破

@jeremyphoward：GLM 5.2 是个奇迹！至少和 Opus 4.8、GPT 5.5 一样好，我从未体验过这样的开源权重模型

GLM 5.2 是个奇迹！至少和 Opus 4.8、GPT 5.5 一样好。超级快、便宜、不啰嗦，处理长上下文非常好。我从未体验过这样的开源权重模型。

原文：GLM 5.2 is a marvel! It is at least as good as Opus 4.8 and GPT 5.5. It’s super fast, inexpensive, and not too verbose. It responds with nuance and judgement, & handles long context VERY well. I’ve never experienced an open weights model like this before.

@simonw：期待 Groq 或 Cerebras 等超快定制芯片推理商上线 GLM 5.2

真的期待 Groq 或 Cerebras 这样的超快定制芯片推理提供商上线 GLM 5.2。Cerebras 有 GLM-4.7，Groq 主要还是 Llama 3.x 和 gpt-oss。

原文：Really looking forward to one of the super-fast custom silicon inference providers like @GroqInc or @cerebras getting GLM 5.2 running

具身智能

@DrJimFan：全球首次物理世界 AutoResearch——8 个 Codex Agent 操控机器人舰队，分配 GPU 和 token 预算，自主解决物理任务

今天我们首次在物理世界实现 AutoResearch！ENPIRE：给 8 个 Codex Agent 一支机器人舰队、GPU 分配和慷慨的 token 预算。设定一个简单目标：尽快解决任务，让机器人忙碌但保持安全。

@DrJimFan：ENPIRE 幕后——最难的是按下 Enter 之前需要设置好的一切：安全 harness 是第一位的

我让 Physical AutoResearch 听起来简单（概念上），但实现它需要一个团队和大量的设计思考。最难的部分是在按下 Enter 之前我们需要设置好的一切。安全 harness——让 8 台机器人无人值守运行，这是第一要务。

产品与研究

@OpenAI：联合波士顿儿童医院和哈佛在 NEJM AI 发表研究：o3 Deep Research 帮助重新审视此前未解决的罕见儿童疾病

我们与波士顿儿童医院和哈佛的研究人员联合在 NEJM AI 发表研究，展示 o3 Deep Research 如何帮助临床医生重新审视此前未解决的罕见儿童遗传病病例，为等待数年的家庭找到答案。

@AnthropicAI：Project Fetch Phase 2——Claude 编程机器狗，Opus 4.7 速度超去年最佳人类团队约 20 倍

Project Fetch Phase 2：测试 Claude 为机器狗编程的能力。Opus 4.7 独立完成的速度比去年最佳人类团队（借助 Opus 4.1）快约 20 倍。（机器狗仍未能成功取回沙滩球。）

**@mattshumer_**：Fable 期间为 Alpha School 构建的原型——3D 游戏根据孩子的学习内容和兴趣实时生成

在等待 Fable 5 回归的同时，分享另一个为 Alpha School 构建的疯狂 demo。一个实时自我生成的 3D 游戏，将孩子需要学习的内容与他们真正感兴趣的东西融合在一起。用 Fable 两天完成的首个原型。

@OpenAI：GPT-5.5 Instant 健康问答能力匹敌 Thinking 模型，每周 2.3 亿人用 ChatGPT 咨询健康问题

GPT-5.5 Instant 现在在健康相关问题上与前沿 Thinking 模型持平。每周超过 2.3 亿人向 ChatGPT 咨询健康和保健问题。

关键词

#GLM5_2 #ENPIRE #EmbodiedAI #LifeSciBench #ProjectFetch #OpenSource #Copilot #AgentEra

数据来源: X/Twitter (twitterapi.io) （smol.ai RSS 最新为 6/9，持续未更新） | 生成时间: 2026-06-19 08:00