AI资讯日报 · 2026年5月19日 | Ciallo～(∠・ω< )⌒☆

Google I/O 2026 发布 Gemini 3.5 Flash 与 Omni，Antigravity 成为完整 Agent 平台；Karpathy 加入 Anthropic；Musk 诉 OpenAI 案败诉

核心摘要

Google I/O 2026 发布 Gemini 3.5 Flash，定位为最强 Agent/Coding 模型，1M 上下文，4 级思考模式，已 GA 可用
Gemini Omni 首发视频生成/编辑能力，结合 Gemini 推理与生成式媒体，在 Flow、Shorts 中上线
Antigravity 2.0 扩展为完整 Agent 平台，含 CLI、SDK、桌面端、Managed Agents API，演示 93 并行 Agent 12 小时构建操作系统
Andrej Karpathy 宣布加入 Anthropic，回归前沿 LLM 研发
METR 发布首份 Frontier Risk Report，覆盖 Anthropic、Google、Meta、OpenAI 内部 Agent 失控风险
Musk 诉 OpenAI 案因诉讼时效被驳回，9 人陪审团约 2 小时裁决

模型发布

Gemini 3.5 Flash

Google DeepMind 发布 Gemini 3.5 Flash，定位为面向 Agent 和编程的最强模型。支持 1M token 上下文窗口、65K 最大输出、4 级思考模式（minimal/low/medium/high），且支持跨轮次”思维保持”。输入模态覆盖文本、图像、视频、语音。定价 $1.50/$9.00 每百万输入/输出 token。

第三方评测方面，Artificial Analysis 给出一分为二的评价：Intelligence Index 55（+9 vs Gemini 3 Flash），>280 output tok/s，MMMU-Pro 84%，但运行成本比 Gemini 3 Flash 高 5.5 倍。Arena 排名 Text Arena #9、Code Arena: Frontend #9。Google 自报 Terminal-Bench 2.1 得分 76.2%、GDPval-AA Elo 1656。

关键信息: Google, Gemini 3.5 Flash, Agent, Coding, 1M上下文, 思考模式

Cerebras 运行 Kimi K2.6

Cerebras 宣布在 enterprise trials 中以约 1,000 tok/s 运行万亿参数模型 Kimi K2.6，Artificial Analysis 称其为”史上最快的前沿模型性能”。Cerebras 强调速度本质上是内存带宽问题，通过将模型层跨晶圆切分避免外部内存读取。

关键信息: Cerebras, Kimi K2.6, 推理速度, 内存带宽

Hugging Face Carbon DNA 模型

Hugging Face 发布 Carbon 系列基因 DNA 基础模型。Carbon-3B 声称匹配 Evo2-7B 性能，但推理速度快 250–275 倍，足以在单 GPU 上两天内处理整个人类基因组。技术要点：确定性 6-mer tokenization、训练后期切换为分解损失函数（FNS）。

关键信息: Hugging Face, Carbon, DNA模型, 基因组, 生物AI

产品动态

Antigravity 成为完整 Agent 平台

Google 将 Antigravity 从编程助手扩展为完整的 Agent 执行平台：Antigravity 2.0 桌面端、CLI、SDK、Managed Agents in Gemini API（单 API 调用即可获得 Agent + Linux 沙箱，支持 Bash/Python/Node）、Android 支持、AI Studio 一键导出。核心演示：93 个并行子 Agent 在 12 小时内构建了一个操作系统，使用 15K+ 次模型请求、2.6B token，API 花费不到 $1,000。

关键信息: Google, Antigravity, Agent平台, 并行Agent, Managed Agents

Gemini Omni 首发视频能力

Google DeepMind 发布 Gemini Omni 系列，将 Gemini 推理与世界知识结合生成式媒体，首发视频生成/编辑。支持文本、图像、音频、视频输入，可在多轮编辑中保持角色一致性和物理正确。Omni Flash 已在 Gemini 应用、Flow、YouTube Shorts 上线，API 将在数周内提供。

关键信息: Google, Gemini Omni, 视频生成, 多模态, 世界模型

OpenAI 推出 Guaranteed Capacity

OpenAI 推出长期预留算力商业产品，客户可签订 1–3 年承诺以折扣价格获得保证的推理容量。Sam Altman 表示在模型越来越有用的世界中，算力将持续受限。

关键信息: OpenAI, 算力预留, 企业定价

GitHub Copilot 集成 Gemini 3.5 Flash

GitHub 开始在 Copilot 中推出 Gemini 3.5 Flash，强调其工具使用、响应速度和缓存效率适合迭代式编程工作流。Cursor 同步推出 Jira 集成，支持从工作项直接启动云端 Agent。

关键信息: GitHub, Copilot, Gemini 3.5 Flash, Cursor, Jira

研究论文

NanoGPT-Bench：编程 Agent 能做研究吗？

Intology AI 发布基于 NanoGPT Speedrun 的自主 AI 研发基准。结果显示 Codex、Claude Code、Autoresearch 仅能恢复 9.3% 的人类进展，且主要来自超参数调优而非算法创新。评估完全自主、离线运行，限制在 5 个月世界纪录窗口内以减少数据污染。

关键信息: NanoGPT-Bench, AI研发, Agent评估, 基准测试

MemEx：Agent 可编程 Python 草稿板

Databricks 研究提出 MemEx，一种在实时内核中保持类型化对象而非填满上下文窗口的 Agent 记忆方案。前沿模型提升 2–5 个准确率点、成本降低 25–30%；Qwen 模型准确率近乎翻倍，成本降低 40–50%。

关键信息: Databricks, MemEx, Agent记忆, 上下文窗口, 成本优化

RoPE 长上下文局限性研究

新论文指出 RoPE 在长上下文中存在内在限制，可能无法同时区分 token 身份和位置，对列表索引检索和 Agent 框架设计有直接影响。

关键信息: RoPE, 长上下文, 位置编码, 注意力机制

工具框架

Unsloth Studio 自动推测解码

Unsloth Studio 新增自动推测解码和 MTP 支持，声称推理速度提升高达 2 倍且无损精度，面向 GGUF 格式模型。

关键信息: Unsloth, 推测解码, GGUF, 推理加速

Qwen3.7 Preview 上架 Arena

阿里 Qwen 在 Arena 上架 Qwen3.7 Preview（Max/Plus 变体），分别位列 Text #6、Vision #5。社区期待发布具体模型变体，尤其是 Coder 系列和 27B 中等规模模型。

关键信息: Qwen, 阿里, Arena, 开源模型

ByteDance Lance：3B 统一多模态模型

字节跳动发布 Lance，号称 3B 激活参数、支持图像/视频理解、生成和编辑。实际模型文件约 24.7GB，推理需 ≥40GB VRAM，暗示总参数量远超”3B”标签。采用 BAGEL 式复合架构，组合 WAN 2.2 视频模型、像素空间图像模型和 Qwen2.5-VL 3B。

关键信息: ByteDance, Lance, 多模态, 统一模型, 开源

关键词

#GoogleIO #Gemini3.5Flash #Antigravity #GeminiOmni #Karpathy #Anthropic #OpenAI #Agent #METR #Carbon

数据来源: smol.ai | 生成时间: 2026-05-20 12:00

AI资讯日报 · 2026年5月19日