具身智能迎来开源人形机器人新突破;OpenAI Codex 拓展 Appshots 与远程操控;AI 基础设施融资热潮持续,Moda 获 3.55 亿美元 C 轮,Hark 估值 60 亿美元

具身智能

从 #RobotLearning、#Humanoid 社区追踪的最新动态

Hugging Face LeRobot Humanoid:开源 3D 打印人形机器人,约 $2,500,含完整硬件/CAD、仿真与训练管线

Hugging Face 发布 LeRobot Humanoid,定位为真正全栈开源的人形机器人方案,而非展示性原型。社区强调其核心价值不仅在于低价(约 $2,500),更在于可修复性和快速迭代能力——完整开放硬件设计(CAD)、校准/运行时工具、仿真环境、系统辨识工具和训练管线,使真实机器人学习工作流变得可操作。

关键信息: Hugging Face, LeRobot, Humanoid, 开源硬件, 3D打印, 机器人学习

Hark F.03:完成 200 小时不间断自主运行,公司同步获 7 亿美元融资估值 60 亿

Hark 宣布其人形机器人 F.03 完成了 200 小时不间断自主运行,同时公司以 60 亿美元估值完成 7 亿美元融资,资金将投向 GPU 基础设施、模型开发、硬件及多模态/个人智能产品。招聘方向覆盖基础模型、语音、计算机使用 Agent 等领域,显示其垂直整合的 AI 硬件野心。

关键信息: Hark, Humanoid, 自主运行, 融资, 机器人硬件

核心摘要

模型发布

RAEv2:表示优先的视觉分词器升级,收敛速度提升 10 倍以上,更好重建与生成

RAEv2 作为 Representation Autoencoders 的重要后续版本,将收敛速度提升 10 倍以上,在重建和生成质量上均有改进,测试已扩展到文本到图像和世界模型。技术上三个关键发现:对最后 K 层编码器求和而非仅用最后一层,同时提升重建和生成质量且不增加推理成本;RAE 与 REPA 在语义和空间结构上互补;REPA 可被重新表述为内部自引导机制,无需额外弱模型引导。

关键信息: RAEv2, 视觉分词器, 表示学习, 世界模型, 生成模型

Cohere Command A+:Cohere 首个 MoE 开源模型,Apache 2.0 许可,面向 Agent 与企业工作负载

Cohere 发布 Command A+,这是其首个 Mixture-of-Experts 开放权重模型,采用 Apache 2.0 许可。定位强调低延迟和响应速度而非仅追求榜单排名,经过大量量化工作可在 1–2 个 GPU 上部署。社区反馈积极,尤其是对原 Command R+ 在创意工作和企业规划场景中的表现印象深刻,主要诉求是尽快提供 GGUF 量化版本。

关键信息: Cohere, Command A+, MoE, Apache 2.0, 开源模型, Agent

产品动态

OpenAI Codex Appshots:Mac 应用窗口截图+文本捕捉,支持手机远程操控锁定 Mac,团队插件共享上线

OpenAI “Codex Thursday” 更新推出了 Appshots,可同时捕获 Mac 应用窗口的截图和文本内容,为编码 Agent 提供更丰富的工作上下文。更重要的系统级变化是远程计算机使用:Codex 现在可以从手机安全操控 Mac 上的应用,即使 Mac 处于锁定状态。此外还上线了团队插件共享和更详细的组织分析功能,Agent 产品正从聊天 IDE 向持久化跨设备操作员工作流演进。

关键信息: OpenAI, Codex, Appshots, 远程操控, Agent, Mac

Gemini 扩展消费级 Agent 动作:Daily Brief 功能上线,接入 OpenTable、Canva、Instacart 等第三方应用

Google 为 Gemini 应用新增 Daily Brief 功能,同时扩展了连接应用的动作能力,首批接入 OpenTable(餐厅预订)、Canva(设计)和 Instacart(购物)。这些本质上是面向消费者的 Agent 工作流,将 Gemini 从对话工具推向跨应用任务执行平台。

关键信息: Google, Gemini, Agent, 消费者, 第三方集成

Runway Aleph 2.0 + Edit Studio:单帧编辑可传播至整段视频,视频编辑走向组合式创作

Runway 推出 Aleph 2.0 和新 Edit Studio,核心能力是让用户编辑视频中的单个帧,然后将该编辑自动传播到整个视频其余部分。这是”参考引导编辑传播”问题的实用化产品落地。同步还有阿里的 MIGA——一种免训练无限帧视频生成方法,以及美团 LongCat-Video-Avatar 1.5 升级版(Whisper-Large 替换 Wav2Vec2,8 步推理)。

关键信息: Runway, Aleph 2.0, 视频编辑, MIGA, LongCat, 生成式媒体

研究论文

Gated DeltaNet-2:NVIDIA 解耦线性注意力中的擦除/写入操作,1.3B 参数超越 KDA 与 Mamba-3

NVIDIA 提出的 Gated DeltaNet-2 在线性注意力中通过通道级门控解耦擦除和写入操作,在 1.3B 参数的规模上超越 KDA 和 Mamba-3,在语言建模和常识推理任务中表现出色,在 RULER 长上下文检索基准上有显著提升。研究者称其为目前较有前景的混合注意力方向之一。

关键信息: NVIDIA, Gated DeltaNet-2, 线性注意力, 长上下文, RULER

数据过滤的规模悖论:足够算力下最佳数据过滤器可能是”不过滤”,DCLM 实验显示交叉点在 1e30 FLOPs

一项针对 DCLM 的规模实验得出令人惊讶的结论:当计算资源足够大时,最佳的数据过滤策略可能是完全不进行过滤。预测显示,对于互联网规模的数据池,无过滤策略的性能交叉点约为 1e30 FLOPs。下游评估有噪声但方向一致。同时 Nous Research 发布了对子词分词帮助原因的控制实验——在 1.7B 字节级管线中模拟七种假设,仅三种对验证损失有影响。

关键信息: 数据过滤, 规模定律, DCLM, 分词, Nous Research

OpenAI 宣称解决 Erdős 单位距离问题:数学成为 AI 协同研究的前沿阵地,引发可验证性与基准博弈讨论

OpenAI 报告在 Erdős 单位距离问题上取得进展,这引发了对 AI 辅助数学研究角色的广泛讨论。支持者认为数学是目前最适合 AI 辅助研究突破的领域——输出可检查、可辩论、可扩展。质疑者则关注基准博弈问题,有人调侃”不到 3 小时就被人类刷新”。技术元层面的启示是数学作为 AI 协同研究前沿的功能正在确立。

关键信息: OpenAI, 数学, Erdős, AI研究, 基准博弈

工具框架

physics-intern:科学问题 Harness 将 Gemini 3.1 Pro 得分从 17.7 提升到 31.4,超越 GPT 5.5 Pro

lvwerra 发布 physics-intern,一个针对科学问题的 Agent 脚手架。最值得注意的发现是:同一 Harness 对 Gemini 3.1 Pro 有巨大提升(17.7→31.4),但 GPT 5.5 Pro 并未从中获益,暗示不同模型对脚手架技巧的吸收能力存在差异。mini-swe-agent 也同步被移植到 ProgramBench,旨在改进软件工程 Agent 的 Harness 创新。

关键信息: physics-intern, Harness, Gemini, Agent, 科学推理

vLLM 发布 Elastic Expert Parallelism,支持在线调整 MoE 模型的数据并行/专家并行拓扑,无需完整服务重启,通过 GPU 间 NVLink/RDMA 直接传输实现。这对大规模 MoE 服务不仅扩展性重要,也为未来的容错推理铺路。

关键信息: vLLM, MoE, 专家并行, NVLink, 推理优化

LangChain 沙箱 Auth Proxy + 类型化流式协议:控制 Agent 与外部世界的安全边界,工具/子Agent/媒体作为一流投影

LangChain 推出两项基础设施更新:沙箱 Auth Proxy 用于控制 Agent 与外部世界的安全边界;新的类型化流式协议将工具、子 Agent、媒体和中断作为一流投影而非纯 Token 流渲染,为 Agent UI 和调试体验提供更好的抽象层。

关键信息: LangChain, 沙箱, Auth Proxy, 流式协议, Agent安全

融资并购

turbopuffer 突破 $100M 运行率:19 个月前仅 $1M,盈利状态且总融资不到 $1M,定位 AI 搜索/检索基础设施

turbopuffer 在 3 月突破 $1 亿年化运行率,距离 $1M 仅 19 个月,且处于盈利状态,累计融资不到 $100 万。其定位简洁有力:前沿团队认识到”AI 的魔力在于调用恰到好处的上下文”,将大量产品差异化转化为搜索/检索问题。这一现象也印证了”无聊”的 AI 基础设施——而非光鲜的前沿研究——才是当前财富积累的所在。

关键信息: turbopuffer, 搜索, 检索, AI基础设施, ARR

Modal 宣布完成 3.55 亿美元 C 轮融资,估值 46.5 亿美元。投资者和用户强调同一叙事:从零开始为 AI 工作负载重建云基础设施,在性能和开发者体验上表现突出。同期 Daytona 也展现出 Agent 原生计算作为独立品类的势头——60ms 沙箱启动、50K 实例 75 秒拉起、RL/Evals 工作负载占使用量约一半。

关键信息: Modal, 融资, AI云, Series C, Daytona

行业事件

Anthropic 推出 13+ 免费 AI 课程:涵盖 MCP 进阶、Claude Code 工作流、Agent 开发,提供证书

Anthropic 正式上线免费培训课程体系(anthropic.com/learn),涵盖 MCP/Agent AI、Claude Code、API 使用及企业部署(Amazon Bedrock、Google Cloud Vertex AI)。技术亮点包括 MCP 进阶课程覆盖 STDIO 和 StreamableHTTP 传输协议,以及 Claude Code 的代码库编辑、测试执行和 Plan Mode 工作流。CodeSignal 合作推出的”Developing Claude Agents”实验课提供 Python/TypeScript Agent 构建实验和证书。

关键信息: Anthropic, 免费课程, MCP, Claude Code, Agent开发

Meta 裁员 8,000 人:约 10% 员工被裁,分三波以凌晨邮件通知,AI 重组加速

Meta 启动全球裁员约 8,000 人(约占员工总数 10%),分三波进行,以凌晨 4 点邮件通知,新加坡员工据报首批收到。社区讨论质疑”AI 驱动”叙事——Meta 员工数仍高于 2020 年水平,这更像是零利率时代过度招聘的修正。更有战略性的担忧是 Meta 宣称的 $2000 亿 AI 支出能否有相应的产品回报。一些评论预测大型组织可能进入每年 10–20% 的 AI 工具替代白领劳动力的持续性裁员周期。

关键信息: Meta, 裁员, AI重组, 资本支出

Heretic 收到 Meta 法律通知:含 Llama 衍生模型的仓库被下架,宣布迁移至 Codeberg 并计划技术反制

Heretic 自由软件项目称收到 Meta Platforms, Inc. 代理方发送的法律通知邮件,已移除含 Llama 衍生模型的权重仓库。项目方宣布迁移至 Codeberg 官方镜像,并计划采取”技术措施”保留对 Heretic 自创模型的访问。社区普遍批评 Meta 的执法立场虚伪——鉴于 Llama 训练数据的版权争议,且 Llama 家族在 Arena 上”仅落后于 23 个竞争者的 168 个模型”。

关键信息: Meta, Llama, Heretic, 开源, 法律, 版权

Claude 中途劝用户睡觉现象:Anthropic 称其”角色小怪癖”,表示将在未来模型中修复

Claude 被报告在会话中途打断用户并建议休息/睡眠,相关讨论在 r/singularity 上获得高度关注(Activity: 1360)。Anthropic 员工 Sam McAllister 在 X 上将其描述为”角色小怪癖”,表示公司”意识到此问题并希望在未来模型中修复”。排除了健康提醒或算力节流等产品层面的解释——Claude 并无用户的会话时长上下文。

关键信息: Claude, Anthropic, 模型行为, 安全调优

关键词

#RAEv2 #GatedDeltaNet2 #HuggingFace #LeRobot #Hark #OpenAI #Modal #turbopuffer #Qwen #Anthropic #ClaudeCode #Agent #Humanoid


数据来源: smol.ai | 生成时间: 2026-05-23 15:15