Google I/O 2026 余波持续:Gemini 3.5 Flash/Omni/Antigravity 三件套引爆讨论;AWS MCP Server 正式 GA;MCP 生态日活跃度高涨;Karpathy 加入 Anthropic 持续发酵

具身智能

从 #EmbodiedAI、#RobotLearning、#Humanoid、#Sim2Real 标签中精选的具身智能领域最新动态

远程操作 + 具身 AI 数据管线:轻量化机械臂(730g)实现人手到机器人的技能迁移

社区关注远程操作(Teleoperation)作为具身 AI 的数据采集范式:人类远程控制机器人手臂收集真实运动数据,AI 从中学习自主复现任务。Alicia-D Leader Arm(730g 轻量级)作为遥操作输入端引发讨论。同时有开发者分享了家庭任务视频采集与上传的新管线(device → storage 端到端),耗时主要在边缘场景处理上。

关键信息: Teleoperation, Alicia-D, 数据管线, 具身AI

AGIMUS/Inria 提出规划+学习融合框架:机器人行为的学习与规划双向促进

Inria 联合 AGIMUS 项目提出一种将规划(Planning)与学习(Learning)结合的框架,使机器人能在执行任务时同时提升规划的精确度和学习的适应性。该研究方向瞄准更灵活、自适应的机器人行为生成。

关键信息: AGIMUS, Inria, RobotLearning, 规划+学习

人形机器人社区讨论活跃:Unitree 人形机器人引发社会议题讨论

Unitree 人形机器人在 X 平台引发热议,讨论从技术延伸到社会层面——包括人形机器人在劳动力替代、婚恋市场等方面的潜在影响。社区对人形机器人的关注已从纯技术扩展到社会经济学维度。

关键信息: Unitree, Humanoid, 人形机器人, 社会影响

核心摘要

模型发布

Gemini 3.5 Flash:Google 最强 Agent/Coding 模型,1M 上下文 + 4 级思考模式,速度 4x—12x 领先同类

Google DeepMind 发布 Gemini 3.5 Flash,定位为面向 Agent 与编程的最强模型。1M token 上下文、65K 最大输出、4 级思考模式(minimal/low/medium/high),支持跨轮次”思维保持”。定价 $1.50/$9.00 每百万输入/输出 token。Demis Hassabis 称其”在 Coding 与 Agent 任务上优于 3.1 Pro,速度 4x 更快,在 Antigravity 中达 12x 更快、800 tok/s”。

第三方评测:Artificial Analysis 评其为速度-智能帕累托前沿领导者(Intelligence Index 55,+9),但运行成本比 Gemini 3 Flash 高 5.5 倍。Arena 排名 #9(1507 分,+70)。社区主要争议在价格——@simonw 指出价格是 3 Flash 的 3 倍,@enricoros 计算比 15 个月前 2.0 Flash 贵 22.5x。

关键信息: Google, Gemini 3.5 Flash, Agent, Coding, 1M上下文, 思考模式, 价格争议

Cerebras 运行 Kimi K2.6:万亿参数模型推理速度达 1,000 tok/s,创历史记录

Cerebras 在 enterprise trials 中以约 1,000 tok/s 运行万亿参数模型 Kimi K2.6,Artificial Analysis 称为”史上最快的前沿模型性能”。核心创新在内存带宽:模型层跨晶圆切分避免外部内存读取。

关键信息: Cerebras, Kimi K2.6, 推理速度, 内存带宽

Hugging Face Carbon:DNA 基础模型推理速度超 Evo2-7B 达 275 倍,单 GPU 可处理全基因组

Hugging Face 发布 Carbon 系列基因 DNA 基础模型。Carbon-3B 声称匹配 Evo2-7B 性能,推理速度快 250–275 倍。技术要点:确定性 6-mer tokenization + 分解损失函数(FNS)。

关键信息: Hugging Face, Carbon, DNA模型, 基因组, 生物AI

产品动态

Antigravity 2.0:从编程助手进化为完整 Agent 平台,93 并行 Agent 12 小时构建完整操作系统

Google 将 Antigravity 扩展为完整 Agent 执行平台:CLI、SDK、桌面端 2.0、Managed Agents in Gemini API(单 API 调用获得 Agent + Linux 沙箱,支持 Bash/Python/Node/文件/浏览器)、Android 支持、AI Studio 一键导出。Managed Agents 暴露 Google 内部使用的托管 Linux 沙箱,支持 repo 挂载和 Markdown 定义技能。核心演示:93 并行子 Agent 12 小时构建完整操作系统,15K+ 次请求、2.6B token、花费不到 $1,000。

但 agy CLI 不再开源且不支持 ACP 协议,引发社区反弹(via @pvncher/@jeremyphoward)。

关键信息: Google, Antigravity, Agent平台, 并行Agent, Managed Agents, 开源争议

Gemini Omni Flash:跨模态视频生成/编辑首发,角色一致性领先,社区评价两极

Google DeepMind 发布 Gemini Omni——将 Gemini 推理与世界知识结合生成式媒体,首发视频生成/编辑。Omni Flash 已在 Gemini App、Flow、YouTube Shorts 上线,API 数周内提供。Demis Hassabis 称为”世界理解与多模态编辑的重大飞跃”,社区评价两极:有人认为质量大幅提升,也有人批评界面”像 B 级游戏 UI”。

关键信息: Google, Gemini Omni, 视频生成, 多模态, 世界模型

OpenAI Guaranteed Capacity:推出 1–3 年长期算力预留,应对持续受限的推理容量

OpenAI 推出长期预留算力商业产品,客户签 1–3 年承诺以折扣价格获得保证推理容量。Sam Altman 表示模型越有用、算力越受限。

关键信息: OpenAI, 算力预留, 企业定价

Gemini Spark:Google 24/7 个人 Agent,云端 VM 持续运行,集成 Google 全家桶

Google 推出基于专用云虚拟机的 24/7 个人 AI 代理,可在用户关闭电脑后持续后台运行。集成 Docs、Calendar、Slides 等 Google 工具,计划支持 MCP 协议及 macOS 桌面端。(@ammaar: “Meet Gemini Spark, a 24/7 personal AI agent”)

关键信息: Google, Gemini Spark, 个人Agent, 云端VM, MCP

AWS MCP Server 正式 GA:15,000+ AWS API 可在 Claude Code 中通过 IAM 直接调用

AWS MCP Server 正式 GA——15,000+ AWS API 现在可从 Claude Code 内部通过现有 IAM 凭证调用,完整 CloudTrail 日志记录,可审计。标志着 IDE 正成为云基础设施的控制平面。(via AI_devs search, 2026-05-20)

关键信息: AWS, MCP Server, Claude Code, IAM, CloudTrail

研究论文

NanoGPT-Bench:当前编程 Agent 仅能恢复 9.3% 人类 AI 研发进展,算法创新几乎为零

Intology AI 发布基于 NanoGPT Speedrun 的自主 AI 研发基准。Codex、Claude Code、Autoresearch 仅恢复 9.3% 人类进展,主要来自超参数调优而非算法创新。评估全自主、离线运行,限制在 5 个月世界纪录窗口内减少数据污染。

关键信息: NanoGPT-Bench, AI研发, Agent评估, 基准测试

Databricks MemEx:可编程 Python 草稿板替代上下文窗口堆砌,准确率提升 + 成本降 30%

Databricks 提出 MemEx,在实时内核中保持类型化对象而非填满上下文窗口。前沿模型提升 2–5 准确率点、成本降 25–30%;Qwen 模型准确率近乎翻倍、成本降 40–50%。

关键信息: Databricks, MemEx, Agent记忆, 上下文窗口, 成本优化

RoPE 位置编码内在局限:长上下文中无法同时区分 token 身份与位置,影响 Agent 检索

新论文指出 RoPE 在长上下文中的内在限制——无法同时区分 token 身份和位置,对列表索引检索和 Agent 框架设计有直接影响。(@jeremyphoward 转推)

关键信息: RoPE, 长上下文, 位置编码, 注意力机制

工具框架

Qwen3.7 Preview 登 Arena #6/#5:社区期待 Coder 与 27B 中等规模变体

阿里 Qwen 上架 Qwen3.7 Preview(Max/Plus 变体),位列 Text #6、Vision #5。社区期待具体模型变体发布,尤其 Coder 系列和 27B 中等规模模型。

关键信息: Qwen, 阿里, Arena, 开源模型

ByteDance Lance:3B 激活参数统一多模态模型,BAGEL 复合架构实现图像/视频全能力

字节跳动发布 Lance,号称 3B 激活参数,支持图像/视频理解、生成和编辑。实际模型文件约 24.7GB(≥40GB VRAM),采用 BAGEL 式复合架构组合 WAN 2.2 + 像素空间图像模型 + Qwen2.5-VL 3B。

关键信息: ByteDance, Lance, 多模态, 统一模型, 开源

Gutenberg CLI:将 API Spec 与流量抓包自动转为 Agent 可用工具,支持 MCP + Skills

Gutenberg CLI 将 API 规范和流量捕捉转化为 Agent 就绪的工具表面(CLI、MCP、Skills、缓存、策略、证明),不是脚手架而是真正的 AI Agent 可用工具层。开源发布。(via AI_devs search, 2026-05-20)

关键信息: Gutenberg CLI, MCP, API-to-Tool, 开源, Agent

行业事件

Andrej Karpathy 加入 Anthropic:当日互动最高,将从事 RSI 与预训练方向

当日互动最高的 AI 推文。Karpathy:”我觉得 LLM 前沿的下几年将特别有塑造力,很高兴加入团队回归研发。” Axios 等媒体猜测将从事 RSI/自动研究和预训练工作。业界普遍解读为 Anthropic 的重大人才胜利。

关键信息: Karpathy, Anthropic, 人才流动, LLM研发, RSI

Musk 诉 OpenAI 案因时效被驳回:9 人陪审团 2 小时裁决,Musk 将上诉

联邦陪审团裁定 Musk 诉 OpenAI/Sam Altman 案因 3 年诉讼时效已过驳回。9 人陪审团约 2 小时裁决。Musk 称为”日历技术细节”并计划上诉第九巡回法院。

关键信息: Musk, OpenAI, 诉讼, 法律

METR 首份 Frontier Risk Report:深度覆盖四家前沿实验室内部 Agent 失控风险

METR 基于对 Anthropic、Google、Meta、OpenAI 内部模型和信息的深度访问发布首份前沿风险报告,聚焦实验室是否可能失去对内部部署 Agent 的控制。David Rein 透露曾在 Anthropic 进行为期一个月的嵌入式安全演练。

关键信息: METR, AI安全, Agent失控风险, 前沿模型

X平台动态

从追踪的 AI 领域 22 个账号 + #MCP/#ClaudeCode 搜索查询中精选当日最有价值的推文,双语展示

Google I/O 余波:官方与社区反应

@demishassabis3.5 Flash 在编码与代理任务上优于 3.1 Pro,速度 4 倍于同类,Antigravity 中加速 12 倍达 800 tok/s 🫧 Google DeepMind CEO

Gemini 3.5 Flash 在编码和代理任务上表现优于 3.1 Pro,比同类前沿模型快 4 倍,在 Antigravity 中快 12 倍、每秒 800 token,且成本不到一半。Pro 版本即将到来……

原文:Gemini 3.5 Flash performs better than 3.1 Pro on coding & agentic tasks, 4x faster than other frontier models, 12x faster in Antigravity, 800 tokens/sec, often at less than half the cost. And Pro to come…

@ammaarAI Studio 发布新能力:直接在 Studio 中构建 Android 应用并一键安装到设备,Workspace 全家桶自动集成 🫧 产品演示

直接在 AI Studio 中构建 Android 应用,一键安装到设备。对 Docs、Sheets 等 Google Workspace 全家桶说句话就能自动生成应用,无需任何密钥配置。

原文:Build Android apps directly in AI Studio and one click install to your device. Automatically build apps for Google Docs, Sheets, and the rest of Workspace just by asking (no keys needed).

MCP 生态重大发布

AI_devsAWS MCP Server 正式 GA——15,000+ AWS API 可通过 Claude Code 经现有 IAM 凭证直接调用,全程 CloudTrail 审计 🫧 基础设施

AWS MCP Server 刚刚正式发布。15,000 多个 AWS API 现在可以从 Claude Code 内部调用——使用你现有的 IAM(身份与访问管理)凭证,完整 CloudTrail 日志记录。一个工具覆盖整个 AWS 表面,全程可审计。IDE 正在成为云的控制平面。

原文:AWS MCP Server just went GA. 15,000+ AWS APIs now callable from inside Claude Code — via your existing IAM credentials, full CloudTrail logging. One tool. The entire AWS surface. Auditable. The IDE is becoming the control plane.

AI_devsAnthropic 新增自托管沙箱与 MCP 隧道,Claude 代理在用户边界内运行,数据不外传 🫧 架构变革

Anthropic 新增自托管沙箱(self-hosted sandboxes)和 MCP 隧道(MCP Tunnels),将 Claude 的工具访问带入企业系统内部,编排逻辑保留在外部。控制权留在代理循环运行的地方——你不是把数据送出去,而是代理主动来到你的环境中。

原文:Anthropic adds self hosted sandboxes and MCP Tunnels, shifting Claude’s tool access closer to enterprise systems while leaving orchestration outside. Control sits where the agent loop runs.

AI_devsAgent Safety Checks v0.1 上线:代理工具调用前后多层安全检查 🫧 安全工具

Agent Safety Checks(代理安全检查)v0.1 已上线。在 AI 代理调用工具前后进行安全检查。包括:工具调用预演校验器(Tool Call Dry-run Validator)、工具响应净化器(Tool Response Sanitizer)、模式漂移检查器(Schema Drift Checker)、身份范围检查器(Identity Scope Checker)、配额限制检查器(Quota Limit Checker)。

原文:Agent Safety Checks v0.1 is live. Safety checks before/after AI agents call tools. Included: Tool Call Dry-run Validator, Tool Response Sanitizer, Schema Drift Checker, Identity Scope Checker, Quota Limit Checker.

MCP 生态量级与趋势

AI_devs公开 MCP 服务器已超 10,000 个,代理基础设施不再是瓶颈,分发与信任才是 🫧 生态分析

目前已有超过 10,000 个公开 MCP 服务器。Virtuals 刚发布了面向代理收件箱和商业的 EconomyOS。我的判断:代理基础设施不再是瓶颈——分发和信任才是。框架泛滥,需求稀缺。

原文:10,000+ public MCP servers already exist. Virtuals just shipped EconomyOS for agent inboxes + commerce. My take: agent infra is no longer the bottleneck — distribution and trust are. Frameworks are abundant. Demand is scarce.

AI_devsGutenberg CLI 开源:将 API 规范与流量抓包自动转化为代理可用的工具表面 🫧 开源工具

Gutenberg CLI 将 API 规范(API specs)和流量捕获(traffic captures)转化为代理就绪的工具。CLI、MCP、Skills、缓存、策略、证明——不是脚手架,而是 AI 代理真正能使用的工具表面。

原文:Gutenberg CLI turns API specs & traffic captures into agent-ready tools. CLI. MCP. Skills. Cache. Policies. Proofs. Not scaffolding. A real tool surface AI agents can use.

企业采用与代理实战

AI_devsClaude 手机端完成真实金融交易:分析 → Bruno MCP → OMS/MT5 下单,秒级执行 🫧 金融科技

今天从 Claude 手机端完成了一笔真实交易。Claude + 金融插件 → 分析 → Bruno MCP → Bruno OMS(订单管理系统)/ MT5。真实账户,秒级完成。这就是我们本周交付的东西。

原文:Placed a real trade from Claude Mobile today. Claude + finance plugins → analysis → Bruno MCP → Bruno OMS / MT5. Real account. Seconds. This is what we shipped this week.

AI_devs日立 29 万员工全员引入 Claude,中小企业版也在筹备中 🫧 企业应用

日立全公司 29 万员工引入 Claude,这个导入规模和准备周期完全是另一个量级。很想知道他们内部的指南建设和使用教育体系是如何构建的。中小企业版似乎也要出来了,期待更多实际业务场景的案例。

原文:日立の全社員29万人がClaude導入。導入規模も準備期間もケタ違い。社内のガイドライン整備や使い方の教育体制、どう作っていくのか気になる。中小企業向けプランも出るみたい。

AI_devsAgentVet:为 AI 代理连接器提供独立安全审查,用”验证”替代”信任” 🫧 安全

我们构建了 AgentVet,因为”相信我”不是安全姿态。在 AI 代理连接器部署之前,进行独立的第三方审查验证。

原文:We built AgentVet because “trust me” isn’t a security posture. Independent vetting for AI agent connectors before deployment.

社区声音

@jeremyphoward转推论文:RoPE 在长上下文中既无法区分位置也无法区分 token——数学上可证明的局限 🫧 研究信号

RoPE(旋转位置编码)在长上下文中被数学证明既无法区分位置也无法区分 token——这对大模型长文本能力提出了底层质疑。

原文:RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably.

@simonw3.5 Flash 价格分析:是上一代 3 Flash 的 3 倍,但 Google 自己会大规模用 🫧 价格分析

我对 Gemini 3.5 Flash 的笔记——价格是 Gemini 3 Flash 的 3 倍,但 Google 计划在自家大量产品中使用它,所以定价策略更复杂。

原文:My notes on Gemini 3.5 Flash — 3x the price of Gemini 3 Flash but Google are planning to use it for many of their own products.

关键词

#EmbodiedAI #RobotLearning #Humanoid #Sim2Real #GoogleIO #Gemini3.5Flash #Antigravity #MCP #ClaudeCode #Karpathy #Anthropic #Agent


数据来源: smol.ai, X/Twitter (twitterapi.io) | 生成时间: 2026-05-21 14:30