AI资讯日报 · 2026年5月19日
Google I/O 2026 发布 Gemini 3.5 Flash 与 Omni,Antigravity 成为完整 Agent 平台;Karpathy 加入 Anthropic 引爆社区;OpenAI 推出 Guaranteed Capacity 与 SynthID 水印
具身智能
从 #EmbodiedAI、#RobotLearning、#Humanoid、#Sim2Real 标签中精选的具身智能领域最新动态
AGIMUS/Inria 提出规划+学习融合框架:机器人行为的学习与规划双向促进
Inria 联合 AGIMUS 项目提出一种将规划(Planning)与学习(Learning)结合的框架,使机器人能在执行任务时同时提升规划精确度和学习适应性,瞄准更灵活、自适应的机器人行为生成。
关键信息: AGIMUS, Inria, RobotLearning, 规划+学习
核心摘要
- **AGIMUS/Inria 规划+学习框架**:机器人学习与规划双向促进,提升行为适应性与精确度
- **Gemini 3.5 Flash 发布**:Google I/O 最强 Agent/Coding 模型,1M 上下文 + 4 级思考模式,Arena 排名 #9,速度 4x 领先同类
- **Antigravity 扩展为 Agent 平台**:CLI、SDK、桌面端、Managed Agents API 齐发,93 并行 Agent 12 小时构建操作系统
- **Gemini Omni 首发视频能力**:跨模态视频生成/编辑,在 Flow、Shorts 中上线,角色一致性业界领先
- **Karpathy 加入 Anthropic**:当日互动最高推文,回归前沿 LLM 研发,传闻从事 RSI 与预训练方向
- **OpenAI Guaranteed Capacity**:推出 1–3 年长期算力预留,应对持续受限的推理容量
- **METR 前沿风险报告**:首份覆盖四家实验室的 Agent 失控风险评估
模型发布
Gemini 3.5 Flash:Google 最强 Agent/Coding 模型,1M 上下文 + 4 级思考模式,速度 4x 领先同类
Google DeepMind 发布 Gemini 3.5 Flash,定位为面向 Agent 和编程的最强模型。支持 1M token 上下文窗口、65K 最大输出、4 级思考模式(minimal/low/medium/high),且支持跨轮次”思维保持”。定价 $1.50/$9.00 每百万输入/输出 token。
第三方评测方面,Artificial Analysis 认为其位于速度-智能帕累托前沿:Intelligence Index 55(+9 vs Gemini 3 Flash),>280 output tok/s,MMMU-Pro 84%,但运行成本比 Gemini 3 Flash 高 5.5 倍。Arena 排名 Text Arena #9、Code Arena: Frontend #9,得分 1507(+70)。Google 自报 Terminal-Bench 2.1 得分 76.2%、GDPval-AA Elo 1656。
关键信息: Google, Gemini 3.5 Flash, Agent, Coding, 1M上下文, 思考模式
Cerebras 运行 Kimi K2.6:万亿参数模型推理速度达 1,000 tok/s,创历史记录
Cerebras 宣布在 enterprise trials 中以约 1,000 tok/s 运行万亿参数模型 Kimi K2.6,Artificial Analysis 称其为”史上最快的前沿模型性能”。Cerebras 强调速度本质上是内存带宽问题,通过将模型层跨晶圆切分避免外部内存读取。
关键信息: Cerebras, Kimi K2.6, 推理速度, 内存带宽
Hugging Face Carbon:DNA 基础模型推理速度超 Evo2-7B 达 275 倍,单 GPU 可处理全基因组
Hugging Face 发布 Carbon 系列基因 DNA 基础模型。Carbon-3B 声称匹配 Evo2-7B 性能,推理速度快 250–275 倍。技术要点:确定性 6-mer tokenization、训练后期切换为分解损失函数(FNS)。
关键信息: Hugging Face, Carbon, DNA模型, 基因组, 生物AI
产品动态
Antigravity 2.0:从编程助手进化为完整 Agent 平台,93 并行 Agent 12 小时构建完整操作系统
Google 将 Antigravity 扩展为完整的 Agent 执行平台:CLI、SDK、桌面端 2.0、Managed Agents in Gemini API(单 API 调用获得 Agent + Linux 沙箱,支持 Bash/Python/Node)、Android 支持、AI Studio 一键导出。Managed Agents 暴露了 Google 内部使用的托管 Linux 沙箱,支持 repo 挂载和 Markdown 定义技能。核心演示:93 并行子 Agent 12 小时构建完整操作系统,15K+ 次请求、2.6B token、花费不到 $1,000。
关键信息: Google, Antigravity, Agent平台, 并行Agent, Managed Agents
Gemini Omni Flash:跨模态视频生成/编辑首发,文本图像音视频输入,多轮编辑保持角色一致
Google DeepMind 发布 Gemini Omni 系列,将 Gemini 推理与世界知识结合生成式媒体,首发视频生成/编辑。支持文本、图像、音频、视频输入,多轮编辑保持角色一致性。Omni Flash 已在 Gemini 应用、Flow、YouTube Shorts 上线,API 在数周内提供。Demis Hassabis 称其为”世界理解与多模态编辑的重大飞跃”。
关键信息: Google, Gemini Omni, 视频生成, 多模态, 世界模型
OpenAI Guaranteed Capacity:推出 1–3 年长期算力预留,应对持续受限的推理容量
OpenAI 推出长期预留算力商业产品,客户签 1–3 年承诺以折扣价格获得保证推理容量。Sam Altman 表示模型越有用、算力越受限,此产品帮助客户规划关键工作负载。
关键信息: OpenAI, 算力预留, 企业定价
GitHub Copilot 集成 Gemini 3.5 Flash:工具使用 + 缓存效率优化,Cursor 同步推出 Jira 集成
GitHub 开始在 Copilot 中推出 Gemini 3.5 Flash,强调工具使用、响应速度和缓存效率。Cursor 推出 Jira 集成,支持从工作项直接启动云端 Agent 生成 PR。
关键信息: GitHub, Copilot, Gemini 3.5 Flash, Cursor, Jira
Gemini Spark:Google 24/7 个人 Agent,云端 VM 持续运行,集成 Google 全家桶
Google 推出 Gemini Spark——基于专用云虚拟机的 24/7 个人 AI 代理,可在用户关闭电脑后继续后台运行。集成 Docs、Calendar、Slides 等 Google 工具,计划支持 MCP 协议及 macOS 桌面端。
关键信息: Google, Gemini Spark, 个人Agent, 云端VM, MCP
研究论文
NanoGPT-Bench:当前编程 Agent 仅能恢复 9.3% 人类 AI 研发进展,算法创新几乎为零
Intology AI 发布基于 NanoGPT Speedrun 的自主 AI 研发基准。Codex、Claude Code、Autoresearch 仅恢复 9.3% 人类进展,主要来自超参数调优而非算法创新。
关键信息: NanoGPT-Bench, AI研发, Agent评估, 基准测试
Databricks MemEx:可编程 Python 草稿板替代上下文窗口堆砌,准确率提升 + 成本降 30%
Databricks 提出 MemEx,在实时内核中保持类型化对象而非填满上下文窗口。前沿模型提升 2–5 准确率点、成本降 25–30%;Qwen 模型准确率近乎翻倍、成本降 40–50%。
关键信息: Databricks, MemEx, Agent记忆, 上下文窗口, 成本优化
RoPE 位置编码内在局限:长上下文中无法同时区分 token 身份与位置,影响 Agent 检索
新论文指出 RoPE 在长上下文中存在内在限制,可能无法同时区分 token 身份和位置,对列表索引检索和 Agent 框架设计有直接影响。(via @jeremyphoward 转推)
关键信息: RoPE, 长上下文, 位置编码, 注意力机制
工具框架
Qwen3.7 Preview 登 Arena #6/#5:社区期待 Coder 与 27B 中等规模变体
阿里 Qwen 上架 Qwen3.7 Preview(Max/Plus 变体),位列 Text #6、Vision #5。社区期待 Coder 系列和 27B 中等规模模型。
关键信息: Qwen, 阿里, Arena, 开源模型
ByteDance Lance:3B 激活参数统一多模态模型,BAGEL 复合架构实现图像/视频全能力
字节跳动发布 Lance,号称 3B 激活参数,支持图像/视频理解、生成和编辑。实际模型文件约 24.7GB(≥40GB VRAM),采用 BAGEL 式复合架构组合 WAN 2.2 + 像素空间图像模型 + Qwen2.5-VL 3B。
关键信息: ByteDance, Lance, 多模态, 统一模型, 开源
Unsloth Studio 自动推测解码:GGUF 格式推理速度提升 2 倍且零精度损失
Unsloth Studio 新增自动推测解码和 MTP 支持,推理提升高达 2 倍且无损精度,面向 GGUF 格式模型。
关键信息: Unsloth, 推测解码, GGUF, 推理加速
行业事件
Andrej Karpathy 加入 Anthropic:当日互动最高推文,将从事 RSI 与预训练方向
当日互动最高的 AI 推文。Karpathy 个人声明简洁:”我觉得 LLM 前沿的下几年将特别有塑造力,很高兴加入团队回归研发。”(@karpathy, 2026-05-19 15:05 UTC)Axios 等媒体猜测其将从事 RSI/自动研究和预训练工作。业界普遍解读为 Anthropic 的重大人才胜利。
关键信息: Karpathy, Anthropic, 人才流动, LLM研发, RSI
Musk 诉 OpenAI 案因时效被驳回:9 人陪审团 2 小时裁决,Musk 将上诉
联邦陪审团裁定 Musk 诉 OpenAI/Sam Altman 案因 3 年诉讼时效已过而驳回。9 人陪审团约 2 小时裁决。Musk 称其为”日历技术细节”并计划上诉至第九巡回法院。
关键信息: Musk, OpenAI, 诉讼, 法律
METR 首份 Frontier Risk Report:深度覆盖四家前沿实验室内部 Agent 失控风险
METR 基于对 Anthropic、Google、Meta、OpenAI 内部模型和信息的深度访问发布首份前沿风险报告,聚焦实验室是否可能失去对内部部署 Agent 的控制。David Rein 透露曾在 Anthropic 进行为期一个月的嵌入式安全演练。
关键信息: METR, AI安全, Agent失控风险, 前沿模型
Dario Amodei 预警:AI 或将带来高 GDP 增长 + 高失业率并存的史无前例经济格局
Anthropic CEO Dario Amodei 提出 AI 可能创造前所未有的宏观经济组合:极高 GDP 增长同时 10%+ 失业率。社区讨论焦点:如果劳动力收入大幅下降,谁来维持消费需求。
关键信息: Amodei, AI经济影响, 失业率, GDP增长
X平台动态
从追踪的 AI 领域 22 个关键账号 + 搜索查询中精选当日最有价值的推文
Google I/O 2026 现场直击
@GoogleDeepMind:Gemini 3.5 Flash 是第一个发布的 3.5 系列模型,定位最强 Agent/Coding 模型 🫧 I/O Keynote
“Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first release is 3.5 Flash, our strongest model yet for agents and coding.”
@OfficialLoganK:3.5 Flash 用 6 个月打磨,在智能、速度、成本三者间做到了新平衡 🫧 I/O Keynote
“Welcome to Gemini 3.5 Flash, our most powerful model to date. It pushes the frontier of intelligence, speed, and cost putting 3.5 Flash in a class of its own.”
@demishassabis:Gemini Omni 是世界理解与多模态编辑的重大飞跃 🫧 Google DeepMind CEO
“Gemini Omni is a major leap in world understanding & multimodal editing! It can take photos, video & audio and build entirely new scenes. Over time it’ll be able to handle any input & any output.”
产品与生态
@OfficialLoganK:Managed Agents 上线 Gemini API,单次调用获得 Agent + Linux 沙箱 🫧 Google
“Massive updates to Google AI Studio and the Gemini API — Gemini 3.5 Flash! Managed agents so you can easily build agentic products with the Antigravity harness — native Android app creation right in AI Studio.”
@ammaar:Gemini Spark 是 24/7 个人 AI 代理,云端 VM 持续运行 🫧 Product Demo
“Meet Gemini Spark, a 24/7 personal AI agent. Have it work across docs, calendar, slides, and more, even when you close your computer. Soon: macOS app, Chrome control, and MCP support.”
社区反应与分析
@simonw:Gemini 3.5 Flash 价格是 3 Flash 的 3 倍,但 Google 自己会大规模使用 🫧 Independent Analysis
“My notes on Gemini 3.5 Flash — 3x the price of Gemini 3 Flash but Google are planning to use it for many of their own products.”
@jeremyphoward:转推 RoPE 在长上下文中无法区分位置与 token 的新论文 🫧 Research Signal
“RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably. LLMs often fail at long-context tasks.”
@skirano:Omni 视频编辑的创意 Demo:”纽约男子咬了一口披萨后传送到古罗马” 🫧 Creative Demo
安全与治理
@OpenAI:SynthID 水印 + C2PA 凭证双重标注 AI 生成图片,开放公开验证工具 🫧 Trust & Safety
“We’re adding new ways for people to identify AI-generated images. In addition to C2PA Content Credentials, images now also contain a SynthID watermark.”
@StanfordHAI:Take It Down Act 5月19日正式生效,HAI Fellow 解析平台合规挑战 🫧 AI Policy
“The Take It Down Act takes effect May 19. Reporting is one of the most important pieces of this, and it’s the thing that is most variable across platforms.”
MCP/ClaudeCode 生态
AI_devs 搜索:Anthropic 推自托管沙箱 + MCP 隧道方案,Agent 跑在用户边界内而非向外发送数据 🫧 Architecture Shift
“Every AI company says ‘trust us with your data.’ Today Anthropic flipped that: self-hosted sandboxes + MCP tunnels let Claude agents run inside YOUR perimeter. You don’t send data out — agents come to you.”
关键词
#EmbodiedAI #RobotLearning #GoogleIO #Gemini3.5Flash #Antigravity #GeminiOmni #Karpathy #Anthropic #OpenAI #Agent #MCP
数据来源: smol.ai, X/Twitter (twitterapi.io) | 生成时间: 2026-05-21 14:00




