AI资讯日报 · 2026年6月18日
GLM 5.2 开源模型获评”匹敌 Opus 4.8/GPT 5.5”引爆社区;Jim Fan 团队实现全球首次物理世界 AutoResearch——8 个 Codex Agent 操控机器人舰队自主科研;OpenAI 发布 LifeSciBench 联手 173 名科学家;Anthropic Project Fetch 展示 Claude 编程机器狗,速度超人类团队 20 倍
具身智能
从 #EmbodiedAI、#Humanoid、#RobotLearning 追踪的最新动态
ENPIRE:全球首次物理世界 AutoResearch——8 个 Codex Agent 操控机器人舰队
Jim Fan(NVIDIA)团队实现全球首次 Physical AutoResearch。ENPIRE 系统赋予 8 个 Codex Agent 一支机器人舰队、GPU 分配和慷慨 token 预算,目标是自主完成物理实验任务。Jim Fan 在幕后分享中强调安全 harness 是第一优先——8 台机器人无人值守运行时需要多层安全防护。4 年前 MineDojo 获 NeurIPS 最佳论文,今年 NitroGen 获 CVPR 荣誉提名,ENPIRE 标志着具身 Agent 从虚拟世界走向物理世界的关键一步。
关键信息: NVIDIA, Jim Fan, ENPIRE, Codex, AutoResearch, 机器人舰队, 具身智能
VinDynamics 与 Skild AI 签署 MOU:联合开发具身 AI 人形机器人
VinDynamics 与 Skild AI 签署谅解备忘录(MOU),共同开发由具身 AI(Embodied AI)驱动的人形机器人。合作目标瞄准全球范围内的制造业、物流和酒店业实际部署。
关键信息: VinDynamics, Skild AI, Humanoid, 制造业, 物流
首个来自真实世界运营的开源机器人 RL 数据集发布:包含失败案例
社区注意到了首个来自真实世界(real world)运营的开源机器人强化学习数据集发布,特点是包含失败案例(failures)而非仅精选成功轨迹。”真实的家庭是唯一重要的训练场”——数据驱动的具身智能正在从仿真走向真实世界。
关键信息: 开源, RobotLearning, RL数据集, Sim2Real, 真实世界
具身智能快讯:LimX Luna 发布、Unitree 进入日本市场、人形机器人赛龙舟
- LimX Dynamics 发布 Luna——1.6 米高人形机器人,定位娱乐和互动表演
- Unitree 通过 GMO AI & Robotics 商社进入日本市场,正式开启销售
- Huayan Robotics 展示双臂协作机器人,用于工业自动化精准协调
- 中国人形机器人参与端午节龙舟挑战赛——划龙舟、包粽子、打糯米糍、皮影戏表演
关键信息: LimX Dynamics, Unitree, GMO, Huayan Robotics, 人形机器人
模型发布
GLM 5.2 开源发布:社区评测匹敌 Opus 4.8 / GPT 5.5,Jeremy Howard 称”从未体验过这样的开源模型”
Z.ai 的 GLM 5.2 成为本周最受关注的开源发布。@jeremyphoward 评价”GLM 5.2 是个奇迹!至少和 Opus 4.8、GPT 5.5 一样好。超级快、便宜、不啰嗦,处理长上下文非常好。我从未体验过这样的开源权重模型。”@voratiq 的头对头测试显示 GLM 5.2 High 对 Opus 4.8 XHigh 胜率 32%。@natolambert 指出 GLM 5.2 在 Arena 排行榜上位居前列。社区多个独立评测确认:GLM 5.2 是首个真正与闭源前沿模型匹敌的开源模型。
关键信息: Z.ai, GLM 5.2, 开源, Opus 4.8, GPT 5.5, Arena
研究论文
OpenAI 联合 173 位科学家发布 LifeSciBench:750 个真实生命科学任务
OpenAI 联合 173 位来自生物技术和制药研究的科学家,发布了 LifeSciBench——包含 750 个专家编写的任务,覆盖 7 大生物研究工作流。这是生命科学领域迄今最大规模的专家协作 AI 基准。
关键信息: OpenAI, LifeSciBench, 生命科学, 基准, 药物研发
Anthropic Project Fetch Phase 2:Claude 编程机器狗,速度超人类团队 20 倍
Anthropic 发布 Project Fetch Phase 2——测试 Claude 编程控制机器狗(robodog)完成任务。Opus 4.7 独立完成的速度比去年最佳人类团队(借助 Opus 4.1)快约 20 倍。不过机器狗仍然未能成功取回沙滩球(”the robodog, alas, still failed to fetch a beach ball”)。
关键信息: Anthropic, Project Fetch, Opus 4.7, 机器人, 编程
GPT-5.5 Instant 健康问答能力匹敌 Thinking 模型,每周围绕 2.3 亿用户
OpenAI 宣布 GPT-5.5 Instant 在健康相关问题上已达前沿 Thinking 模型水平。每周超 2.3 亿人向 ChatGPT 咨询健康和保健问题。同日,OpenAI 联合波士顿儿童医院和哈佛大学在 NEJM AI 发表研究:o3 Deep Research 帮助临床医生重新审视此前未能解决的罕见儿童遗传病病例,为等待多年的家庭找到答案。
关键信息: OpenAI, GPT-5.5, 医疗AI, NEJM AI, 罕见病
OpenAI 发布部署前行为预测方法:用真实用户请求模拟模型行为
OpenAI 分享了在模型发布前通过模拟部署(simulating deployment)预测模型行为的新方法:使用近期的去标识化用户请求测试候选模型响应,从而提前发现潜在问题。
关键信息: OpenAI, 安全, 部署前测试, 模拟
产品动态
Microsoft Copilot Cowork 全球正式发布:多模型支持 + 长时间运行 Agent
Satya Nadella 宣布 Copilot Cowork 全球 GA(正式发布),新增多模型支持。企业用户可部署长时间运行 Agent(long-running agents),由 Microsoft AI 的多模型矩阵(MAI-Thinking-1 等)提供支持。
关键信息: Microsoft, Copilot Cowork, Agent, GA, 多模型
Google DeepMind 发布 AI Control Roadmap:从”假设 AI 会按意图行事”到”如果它不呢”
Google DeepMind 发布了 AI Control Roadmap——一个在 Google 内部构建和管理部署先进 AI 的框架。核心哲学转变:不再假设 AI 总会按人类的意图行事,而是问”如果它不这样做怎么办?”
关键信息: Google DeepMind, AI控制, 安全, 框架, 治理
Anthropic 发布 Claude Code 经济学研究:追踪规模化过程中的使用模式
Anthropic 发布经济研究,构建追踪 Claude Code 规模化使用的框架——谁在用?用来做什么?任务价值如何变化?领域专业知识多大程度上决定 session 成功与否?
关键信息: Anthropic, Claude Code, 经济学, 使用模式
MagicPath 推出 Skills 功能:可导入或对话式创建 Agent 技能
MagicPath 发布 Skills 功能——预置优化设计的指令集,让 Agent 在排版、设计打磨、动画等操作上表现更好。用户可导入自己的 skills,或直接通过对话让 MagicPath 创建新 skill。
关键信息: MagicPath, Skills, Agent, 设计工具
X平台动态
过去 3 天精选自追踪账号的 8 条重要推文
开源突破
@jeremyphoward:GLM 5.2 是个奇迹!至少和 Opus 4.8、GPT 5.5 一样好,我从未体验过这样的开源权重模型
GLM 5.2 是个奇迹!至少和 Opus 4.8、GPT 5.5 一样好。超级快、便宜、不啰嗦,处理长上下文非常好。我从未体验过这样的开源权重模型。
原文:GLM 5.2 is a marvel! It is at least as good as Opus 4.8 and GPT 5.5. It’s super fast, inexpensive, and not too verbose. It responds with nuance and judgement, & handles long context VERY well. I’ve never experienced an open weights model like this before.
@simonw:期待 Groq 或 Cerebras 等超快定制芯片推理商上线 GLM 5.2
真的期待 Groq 或 Cerebras 这样的超快定制芯片推理提供商上线 GLM 5.2。Cerebras 有 GLM-4.7,Groq 主要还是 Llama 3.x 和 gpt-oss。
原文:Really looking forward to one of the super-fast custom silicon inference providers like @GroqInc or @cerebras getting GLM 5.2 running
具身智能
@DrJimFan:全球首次物理世界 AutoResearch——8 个 Codex Agent 操控机器人舰队,分配 GPU 和 token 预算,自主解决物理任务
今天我们首次在物理世界实现 AutoResearch!ENPIRE:给 8 个 Codex Agent 一支机器人舰队、GPU 分配和慷慨的 token 预算。设定一个简单目标:尽快解决任务,让机器人忙碌但保持安全。
@DrJimFan:ENPIRE 幕后——最难的是按下 Enter 之前需要设置好的一切:安全 harness 是第一位的
我让 Physical AutoResearch 听起来简单(概念上),但实现它需要一个团队和大量的设计思考。最难的部分是在按下 Enter 之前我们需要设置好的一切。安全 harness——让 8 台机器人无人值守运行,这是第一要务。
产品与研究
@OpenAI:联合波士顿儿童医院和哈佛在 NEJM AI 发表研究:o3 Deep Research 帮助重新审视此前未解决的罕见儿童疾病
我们与波士顿儿童医院和哈佛的研究人员联合在 NEJM AI 发表研究,展示 o3 Deep Research 如何帮助临床医生重新审视此前未解决的罕见儿童遗传病病例,为等待数年的家庭找到答案。
@AnthropicAI:Project Fetch Phase 2——Claude 编程机器狗,Opus 4.7 速度超去年最佳人类团队约 20 倍
Project Fetch Phase 2:测试 Claude 为机器狗编程的能力。Opus 4.7 独立完成的速度比去年最佳人类团队(借助 Opus 4.1)快约 20 倍。(机器狗仍未能成功取回沙滩球。)
**@mattshumer_**:Fable 期间为 Alpha School 构建的原型——3D 游戏根据孩子的学习内容和兴趣实时生成
在等待 Fable 5 回归的同时,分享另一个为 Alpha School 构建的疯狂 demo。一个实时自我生成的 3D 游戏,将孩子需要学习的内容与他们真正感兴趣的东西融合在一起。用 Fable 两天完成的首个原型。
@OpenAI:GPT-5.5 Instant 健康问答能力匹敌 Thinking 模型,每周 2.3 亿人用 ChatGPT 咨询健康问题
GPT-5.5 Instant 现在在健康相关问题上与前沿 Thinking 模型持平。每周超过 2.3 亿人向 ChatGPT 咨询健康和保健问题。
关键词
#GLM5_2 #ENPIRE #EmbodiedAI #LifeSciBench #ProjectFetch #OpenSource #Copilot #AgentEra
数据来源: X/Twitter (twitterapi.io) (smol.ai RSS 最新为 6/9,持续未更新) | 生成时间: 2026-06-19 08:00


