UBTECH 发布 Walker C1 人形机器人;Gemini 3.5 Flash 登顶多项 Agent 基准;OpenAI 宣称解决 Erdős 数学难题,Codex 新增远程 Mac 操控;DeepSeek V4-Pro 永久降价 75%

具身智能

从 #EmbodiedAI、#Humanoid、#Sim2Real 标签中精选的具身智能领域最新动态

UBTECH Walker C1:165cm 人形机器人,26 自由度,续航 3 小时,步行速度 4km/h,面向公共服务与商业交互

UBTECH 发布新一代 Walker C1 人形机器人,定位商用服务场景。参数亮点:身高 165cm、26 个自由度、3 小时续航、4km/h 步行速度。Walker C1 将作为首位”硅基发言人”在中国国际供应链促进博览会亮相。X 平台讨论热烈,另一条推文展示了 Unitree 人形机器人仅凭语音指令完成俯卧撑、江南 style 舞蹈和单膝跪地求婚的连续动作。

关键信息: UBTECH, Walker C1, Humanoid, 26DoF, 商业服务, 人形机器人

GigaBrain Challenge 2026:首个大规模真机具身智能竞赛在 CVPR 2026 成功举办

RoboChallenge CVPR 2026 主办的首届 GigaBrain Challenge——首个大规模真实设备具身智能竞赛——已圆满结束。同期,GLN 远程遥操作演示展示了操作员远程实时控制机器人执行移动和交互任务的能力,Physical AI 基础设施投资理论也开始在社区传播,聚焦于具身机器人超级周期中的高利润上游瓶颈环节。

关键信息: CVPR2026, GigaBrain, EmbodiedAI, 遥操作, PhysicalAI, 机器人竞赛

GPS 拒止环境下 Sim2Real 无人机导航:ArduPilot + ROS2 + Gazebo 纯视觉端到端,零 GPS 误差仅 3cm

一项 Sim2Real 实验展示了在完全无 GPS 环境下,通过 ArduPilot SITL + ROS2 + Gazebo 仿真平台实现端到端视觉导航:EKF3 仅依靠视觉完成 9 个航路点飞行并降落,误差仅 3cm。下一步计划融合 LiDAR、Nav2 重规划及物理 Pixhawk 实飞。GENISOM AI 也将在 ICRA 2026(6 月 2-4 日,维也纳)展示其基于 MATRiX 和 Sim2Real 技术的四足机器人。

关键信息: Sim2Real, ArduPilot, ROS2, Gazebo, 无人机, ICRA2026

核心摘要

模型发布

RWKV-7 G1g:世界最强纯 RNN LLM,BlinkDL 发布新一代线性注意力架构

RWKV-7 G1g 正式发布,号称”世界最强纯 RNN LLM”,在同等规模下具有竞争力。有趣的是,BlinkDL 指出 NVIDIA 同日发布的 Gated DeltaNet-2 与其 RWKV-7 的 DPLR 递归结构几乎完全相同,引发社区关于线性注意力架构演进方向和研究归因的讨论。

关键信息: RWKV-7, RNN, 线性注意力, Gated DeltaNet-2, BlinkDL

Cohere Command A+ 与 Hugging Face Carbon:开源模型生态持续扩展,MoE + DNA 双线推进

Cohere 发布首个 MoE 开源模型 Command A+(Apache 2.0),定位 Agent 与企业工作负载,经量化可在 1-2 GPU 部署。Hugging Face Carbon DNA 模型(500M/3B/8B)可在单块 Trainium2 上运行,覆盖序列设计、变异效应预测等生物 AI 场景。RAEv2 视觉表示模型实现 10 倍以上收敛速度提升,已扩展至文本到图像和世界模型。

关键信息: Cohere, Command A+, Carbon, RAEv2, MoE, DNA模型, Trainium2

产品动态

OpenAI Codex 远程 Mac 操控:手机操控锁定中的 Mac,Appshots 提供多模态应用上下文

OpenAI “Codex Thursday” 发布了重要产品更新:Codex 现在可以从手机安全操控 Mac 上的应用,即使 Mac 处于锁定和熄屏状态。Appshots 功能同时捕获截图和文本内容,为编码 Agent 提供更丰富的工作上下文。这标志着 Agent 产品从聊天 IDE 向持久化跨设备操作员工作流的演进。

关键信息: OpenAI, Codex, Appshots, 远程操控, Mac, Agent

Gemini 3.5 Flash 多项基准登顶:APEX-Agents-AA #1,Automation Bench #1,Antigravity 限频再翻 3 倍

Gemini 3.5 Flash 在多项第三方基准中表现突出:APEX-Agents-AA 排名第一(超越更大模型)、Zapier Automation Bench #1、Vending Bench 成本/智能 Pareto 前沿。视觉能力方面,在 Roboflow 等评估中超越 Gemini 3.1 Pro,同时速度快约 6 倍。GDPval 评估显示 Flash 正逼近前沿水平。Antigravity 2.0 前后两次将速率限制提升 3 倍,IDE UI 也获更新。但 Jeremy Howard(fast.ai 创始人)给出了尖锐批评:模型智能和速度出色,但”被训练成最大化评测分数而非对人类有用”。

关键信息: Google, Gemini 3.5 Flash, APEX-Agents, Antigravity, 基准评测

Google AI Studio 推出移动端 App:iOS + Android 原生应用,重构低代码 AI 开发体验

Google AI Studio 正式推出 iOS 和 Android 原生应用,将”vibe coding”体验带到移动端。应用重构了低代码开发流程,让更多人能以直观简单的方式使用 AI 构建工具。Antigravity IDE 也更新了 UI,对开发者反馈做出了回应。

关键信息: Google, AI Studio, 移动端, iOS, Android, 低代码

Google Antigravity Science Skills:整合 30+ 生命科学数据源,加速科研工作流

Google DeepMind 为 Antigravity 推出 Science Skills,整合来自 30 多个主要生命科学数据源的洞察,包括 UniProt 和 AlphaFold 数据库。Google DeepMind 还宣布扩大与新加坡的合作,聚焦加速科学发现、疫情防备和医疗改善。SynthID AI 水印技术也在扩展到更多合作伙伴,并新增在 Gemini App 和 Google 搜索中查询内容是否为 AI 生成的功能。

关键信息: Google, Antigravity, Science Skills, AlphaFold, SynthID, 新加坡

研究论文

OpenAI 解决 Erdős 平面单位距离问题:80 年来首次突破,AI 发现全新点集构造族

OpenAI 报告在 Paul Erdős 1946 年提出的平面单位距离问题上取得突破。近 80 年来,数学家认为最佳解大致呈正方形网格状。OpenAI 模型发现了性能更优的全新构造族,这是 AI 首次自主解决数学核心领域的著名开放问题。Timothy Gowers(菲尔兹奖得主)评论称,如果报告中低人类干预水平的说法成立,这将是一个真正有意义的结果。社区讨论围绕数学作为 AI 协同研究的可验证前沿展开——其输出可被检查、辩论和扩展。

关键信息: OpenAI, Erdős, 数学, AI研究, 单位距离问题

Geoffrey Hinton 联合发表 Science AI 安全论文:多位作者共同呼吁关注前沿 AI 模型安全

Geoffrey Hinton 在 X 上分享了发表在 Science 期刊上的 AI 安全新论文,作者阵容庞大。同期 Yoshua Bengio 参与 UN 科学委员会播客,讨论前沿 AI 模型中的欺骗行为及其全球影响和风险管理需求。

关键信息: Hinton, Bengio, AI安全, Science, 前沿模型, UN

CODA:LLM 训练内存绑定算子重参数化:将内存瓶颈算子转化为等价矩阵乘法

CODA 提出将 LLM 训练中内存绑定的外围算子重参数化为快速矩阵乘法,有望从训练效率的”非 MatMul”部分中挤出更多性能。该方法对大规模预训练的吞吐优化有直接影响。

关键信息: CODA, LLM训练, MatMul, 内存优化, 算子融合

工具框架

Datasette Agent Alpha 发布:SQLite 对话式 AI 助手,支持插件扩展工具和功能

Simon Willison 发布 Datasette Agent 首个 Alpha 版本——面向 Datasette 的对话式 AI 助手,可回答 SQLite 数据库中的数据问题,并通过插件系统扩展工具和功能。这是 Datasette 生态在 AI 时代的重要演化方向。

关键信息: Datasette, Simon Willison, SQLite, Agent, 插件

Libramen:Agent 经济基础设施:无头服务与即买按钮的 Agent 交易协议

Libramen 提出面向 Agent 经济的基础设施:无头服务和即买按钮已不再困难,真正的挑战在于 Agent 间的交易协议与信任机制。这是 Agent 经济从概念走向基础设施的标志性讨论。

关键信息: Libramen, Agent经济, 交易协议, 基础设施

行业事件

DeepSeek V4-Pro 永久降价 75%:成本/性能比大幅改善,对 GPT-5.5 和 Claude Opus 4.7 形成价格压力

DeepSeek 宣布 DeepSeek-V4-Pro 的 75% 折扣永久化,显著改善了与 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.7 的性价比对比。这一举措对中国 AI 模型出海及全球 API 定价格局有深远影响。

关键信息: DeepSeek, V4-Pro, 降价, API定价, 性价比

Anthropic Project Glasswing:AI 网络安全协作发现上万个高危漏洞

Anthropic 公布了 Project Glasswing(AI 协作网络安全项目)的最新进展:与合作伙伴一起,已在基础软件中发现超过一万个高危或严重级别的漏洞。这是 AI 在网络安全防御领域规模最大的应用案例之一。

关键信息: Anthropic, Glasswing, 网络安全, 漏洞发现, AI安全

Stanford 举办 2026 物理与 AI 大会:与 APS、NeurIPS 联合,连接物理学与机器学习

Stanford HAI 的”解码宇宙中心”与 APS 物理学会数据科学组、NeurIPS 机器学习与物理科学研讨会联合举办 2026 年物理与 AI 大会(PAI26),聚焦物理学与 AI 的交叉研究前沿。

关键信息: Stanford, APS, NeurIPS, 物理AI, 交叉学科

Google DeepMind 与新加坡扩大合作:聚焦科学发现、疫情防备与医疗 AI

Google DeepMind 宣布扩大与新加坡的合作伙伴关系,新项目将聚焦加速科学发现、推进疫情防备和改善医疗保健。同日,Google 还展示了 Project Genie 与 Google Maps Street View 的整合——可将真实美国地点转化为可交互的虚拟世界。

关键信息: Google, Singapore, 科学发现, 医疗AI, Project Genie

X平台动态

从追踪账号中精选的 5 月 21-23 日最有价值推文,双语展示

Gemini 3.5 Flash:好评与争议

@OfficialLoganKGemini 3.5 Flash 登顶 APEX-Agents-AA 基准,超越更大模型 🫧0

Gemini 3.5 Flash 在 APEX-Agents-AA 基准测试中排名第一,性能超越了比它大一个量级的模型。

原文:Gemini 3.5 Flash ranks #1 on the APEX-Agents-AA benchmark, outperforming much larger models a whole size above it.

@jeremyphoward(fast.ai 创始人):Gemini Flash 3.5 令人失望——智能和速度很棒,但被训练成最大化评测分数而非对人类有用 🫧0

Gemini Flash 3.5 是个令人失望的模型。它的智能和速度都很出色,绝对令人惊叹。但它被训练成最大化评测(evals)分数,而非对人类有用。它总是”替我”做一些随机的事情,而不是按我要求的做。

原文:Gemini Flash 3.5 is such a disappointing model. It’s intelligence and speed is awesome. Absolutely amazing. But it’s been trained to max evals, not to be helpful to humans. It goes off and does random crap “for me” rather than just doing what I asked.

Agent 与开发工具

@OpenAICodex 现在可以从手机安全操控 Mac 上的应用,即使 Mac 处于锁定和熄屏状态 🫧0

Codex 现在可以在 Mac 锁屏熄屏状态下,从你的手机安全地操控 Mac 上的应用。

原文:Codex can now securely use apps on your Mac from your phone, even when your Mac is locked and the screen is off.

@simonwDatasette Agent Alpha 发布——面向 SQLite 数据库的对话式 AI 助手,支持插件扩展 🫧0

Datasette Agent 首个 Alpha 版本发布——一个面向 Datasette 的对话式 AI 助手,可以回答 SQLite 数据库中的数据问题,并可通过插件系统添加额外的工具和功能。

原文:I released the first alpha of Datasette Agent - a conversational AI assistant for Datasette that can answer questions about data in SQLite databases, and can be extended with plugins to add extra tools and features.

AI 研究与安全

@OpenAI首次由 AI 自主解决数学核心领域的著名开放问题——突破 Erdős 1946 年提出的平面单位距离问题 🫧0

我们分享在平面单位距离问题上的突破——这是 Paul Erdős 于 1946 年提出的著名开放问题。近 80 年来,数学家相信最佳解大致呈正方形网格状。OpenAI 模型推翻了这一信念,发现了性能更优的全新构造族。这是 AI 首次自主解决数学核心领域的著名开放问题。

原文:Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in 1946. For nearly 80 years, mathematicians believed the best possible solutions looked roughly like square grids. An OpenAI model has now disproved that belief, discovering an entirely new family of constructions that performs better. This marks the first time AI has autonomously solved a prominent open problem central to a field of mathematics.

@geoffreyhinton多位作者联合在 Science 发表 AI 安全新论文 🫧0

Science 期刊上发表了一篇关于 AI 安全的新论文,作者阵容庞大。

原文:New AI safety paper in Science with a lot of authors.

@AnthropicAIProject Glasswing 与合作伙伴已发现超过一万个高危及严重级别漏洞 🫧0

上个月我们启动了 AI 协作网络安全项目 Project Glasswing。此后,我们和合作伙伴已在基础软件中发现了超过一万个高危或严重级别漏洞。

原文:Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners have found more than ten thousand high- or critical-severity vulnerabilities in essential software.

模型生态

@BlinkDL_AI (via @jeremyphoward):RWKV-7 G1g 发布——世界最强纯 RNN LLM 🫧0

RWKV-7 G1g 来了:世界最强的纯 RNN LLM,同时也是具有竞争力的大语言模型。

原文:RWKV-7 G1g is here: the world’s best pure RNN LLM, and a competitive LLM in general.

@deepseek_ai (via @jeremyphoward):DeepSeek-V4-Pro 永久降价 75% 🫧0

我们宣布永久降价!用 DeepSeek-V4-Pro 将你的创新想法变成现实吧!

原文:We are making our discount permanent! Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life!

关键词

#Gemini3.5Flash #EmbodiedAI #Humanoid #WalkerC1 #OpenAI #Erdos #DeepSeek #Anthropic #RWKV7 #Agent #Sim2Real


数据来源: smol.ai, X/Twitter (twitterapi.io) | 生成时间: 2026-05-23 15:30