AI资讯日报 · 2026年5月27日
Agent 工程化成为编码赛道核心差异化点,DeepSWE 基准发布获广泛认可,DeepSeek 推进 100 亿美元融资,Qwen 3.7 Max 亮相对标 Claude 级模型,多款图像模型角逐 Arena 排行榜
核心摘要
- **Agent harness 成为编码赛道主战场**:模型 + harness + eval loop 取代裸模型成为制胜组合,DeepSeek 组建 harness 团队,Google 发布 Managed Agents 指南
- **DeepSWE 编码基准发布**:首个与开发者实际体验高度一致的 agentic coding 基准,Qwen 3.7 Max 在 Code Arena: Frontend 排名第 4
- **Qwen 3.7 Max 发布**:阿里展示 Qwen 3.7 Max 基准测试,在多类任务上与 Claude Opus 4.6 对标,社区热议开源权重可能性
- **DeepSeek 推进 102.9 亿美元融资**:梁文峰重申 AGI 路线图,承诺持续推进开源模型,社区讨论开源竞争力
- **MAI-Image-2.5 空降图像排行榜第 3**:微软图像模型首次打破 OpenAI/Google 垄断,Arena 评分 1,254
- **vLLM Rust 前端合并,吞吐量提升 5 倍**:预处理密集型负载下从 ~162 req/s 跃升至 ~837 req/s
模型发布
Qwen 3.7 Max 发布:基准测试对标 Claude Opus 4.6,Max 系列开源前景未明
阿里发布 Qwen 3.7 Max 基准测试对比图,在 agentic coding、软件工程、MCP/工具使用、推理和知识评估等多个维度与 Qwen 3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6 和 Claude Opus 4.6 Max 对标。Qwen 3.7-Max 在大多数基准上与 Claude 级模型持平或领先,但 Claude Opus 4.6 Max 在 ClawEval 和 CoWorkBench 上仍保持优势。社区关注焦点在于——Qwen 历史上从未开放 Max 系列权重,讨论中提到的 122B-A17B MTP MXFP4 规格仍属于社区推测而非官方确认。
关键信息: 阿里巴巴, Qwen 3.7 Max, Claude Opus 4.6, 基准测试, 开源
MiniMax M3 预告开源:块稀疏两级注意力,1M token 下解码提速 15.6 倍
MiniMax 预告 M3 将开源,技术细节指向 block-sparse two-stage attention(块稀疏两级注意力)。在 1M token 长度下,相比 M2 实现 9.7 倍预填充加速和 15.6 倍解码加速。M3 似乎回归 GQA-based 稀疏注意力,在真实 KV 上进行块选择,与 DeepSeek 的压缩注意力变体形成不同路径。
关键信息: MiniMax, M3, 稀疏注意力, GQA, 长上下文
Microsoft MAI-Image-2.5 空降 Image Arena 第 3 名:打破 OpenAI/Google 垄断格局
Microsoft AI 的 MAI-Image-2.5 (Preview) 在 Text-to-Image Arena 以 1,254 分空降第 3 名,较上一版本提升 72 分。此次排名突破意味着此前由 OpenAI 和 Google 主导的图像生成前五俱乐部格局被打破。Mustafa Suleyman 表示 Build 大会将有更多发布。
关键信息: Microsoft, MAI-Image-2.5, Image Arena, 文本生成图像
PrismML Bonsai Image 4B:1-bit/三元量化图像模型,浏览器本地运行仅需 ~3GB
PrismML 发布 Bonsai Image 4B,包含 1-bit 和 ternary(三元)量化变体,目标是在笔记本和手机上本地运行。后续反馈确认浏览器端运行可行,内存占用约 3GB。这一工作延续了在小型设备上部署图像生成模型的技术路线。
关键信息: PrismML, Bonsai Image 4B, 量化, 端侧推理
腾讯 Z-Image 6B:无 VAE 像素空间生成,原生 1024px 分辨率
腾讯发布 Z-Image 6B / L2P,主打 pixel-space image generation(像素空间图像生成),无需 VAE 即可输出 1024px 级图像。社区关注”去 VAE”这一架构趋势——跳过 VAE 改变了压缩/潜在瓶颈的权衡,可能影响重建保真度和内存成本。模型文件已上传至 Hugging Face (zhen-nan/L2P)。
关键信息: 腾讯, Z-Image 6B, 像素空间生成, 无VAE, L2P
Gemini Embedding 2:Google 原生多模态嵌入模型白皮书发布
Google DeepMind 发布 Gemini Embedding 2 白皮书,这是一款原生多模态嵌入模型(Native Multimodal Embedding Model),可在统一的嵌入空间中表示文本、图像等多种模态,为检索和多模态 RAG 提供新选择。
关键信息: Google, Gemini Embedding 2, 多模态, 嵌入模型
产品动态
Agent harness 成为编码 Agent 核心差异化点:从”拼模型”到”拼工程”
多条信息汇聚到同一论点:编码 Agent 的制胜组合已从”更强的基座模型”转变为 model + harness + eval loop(模型 + 执行框架 + 评估循环)。知乎 Frontier 的详细分析指出 DeepSeek 正在组建 harness 团队以打通模型输出、运行时反馈、验证和修正的闭环,其缓存的输入成本优势可支撑更紧密的交互/验证循环。Google 的 Gemini Managed Agents 指南将 Agent 基础设施封装为单次 API 调用,包含沙箱(sandboxing)、持久化和挂载(mounts)。LangChain 更新了 create_agent 文档,dair.ai 整理了 “harness” 论文,三者共同强调了上下文治理、可信记忆、动态技能路由三大要素。
关键信息: DeepSeek, Google, LangChain, Agent Harness, Managed Agents, MCP
DeepSWE 编码基准发布:首个与开发者实感一致的 Agentic Coding 评测
DeepSWE 作为新的 agentic coding 基准发布,获得从业者广泛认可。@theo 称其为”第一个真正符合使用模型编码感受的代码基准”。DeepSWE 在顶级模型之间的区分度高于现有公开 SWE 排行榜。同期,Qwen 3.7 Max 在 Code Arena: Frontend 排名第 4,与 Claude Opus 4.6 在 agentic webdev 任务上持平;Claude Code 安全插件经 Anthropic 内部使用后,安全相关 PR 评论减少 30–40%。
关键信息: DeepSWE, 基准测试, Claude Code, Qwen 3.7 Max, 编码Agent
Claude Code /workflows 短暂现身:代码驱动编排替代 LLM 编排器
Claude Code 2.1.147 版本短暂暴露了 /workflows 功能,随后从 changelog 中移除。该功能的设计理念是用 workflow.js 代码驱动控制器取代 LLM 编排器,支持结构化阶段、并行扇出、条件/循环/预算、重试和后台执行,通过在工作流阶段之间传递子 Agent 输出来降低上下文窗口的 “token tax”。社区反应分化——部分认为这与已有的 Agent Teams 功能重叠,另一部分认为它规范化了开发者已经在用 skill + YAML + JS CLI 手动实现的模式。
关键信息: Anthropic, Claude Code, Workflows, Agent 编排
OpenAI Codex 扩展:移动端远程控制 + Chrome 插件 + Databricks 集成
Codex 近期密集更新:Codex Mobile 允许从手机远程控制 Mac 上的 Codex(即使 Mac 锁屏、熄屏);Codex 在 Chrome 中直接运行,支持跨标签页并行后台操作;在 Databricks 中集成 GPT-5.5,提升文档解析可靠性。用户 @bunkaich 展示 Codex 成功逆向并修补廉价 MP3 播放器固件。@mattshumer_ 分享技巧:让 Codex 用 Claude 作为前端/设计工作的子 Agent。
关键信息: OpenAI, Codex, ChatGPT, GPT-5.5, Chrome, 移动端
Google AI Studio 原生 Android 应用构建:零代码,25 万 App 一周内创建
Google AI Studio 上线原生 Android 应用构建功能,无需编码即可创建完整 App。自上线一周以来,用户已创建超过 25 万个 Android 应用,估计超过 99% 的创建者此前从未构建过 Android 应用。
关键信息: Google, AI Studio, Android, 零代码, 应用生成
MagicPath 支持 Figma 导出:设计↔开发双向打通,Cursor Composer 2.5 展示 10 Agent 群
MagicPath 发布 Figma 导出功能,支持用原生 Agent 或外部 Agent(Codex、Claude Code 等)设计和构建后,一键导出为 Figma 可编辑设计文件。Cursor Composer 2.5 展示了在 MagicPath 中 swarm 10 个 Agent 并行构建页面、移动端 App 和组件的实机演示。
关键信息: MagicPath, Figma, Cursor Composer 2.5, Agent Swarm
研究论文
“Language Models Need Sleep”:通过类睡眠巩固阶段实现长程记忆压缩
论文《Language Models Need Sleep》提出一种类睡眠巩固机制(sleep-like consolidation phase),将近期上下文在离线阶段转换为持久化的 fast weights(快速权重),再清除 KV cache。这一方案定位为 KV cache 持续增长问题的替代解法,对于具有长轨迹的 Agent 场景尤为实用。dair.ai 的总结从系统角度强调其价值:在保持唤醒时延迟不变的情况下,将计算移至离线阶段。
关键信息: 长程记忆, KV Cache压缩, Fast Weights, Agent
OpenAI 模型自主解决平面单位距离问题:80 年 Erdős 猜想被 AI 突破
OpenAI 宣布其模型自主解决了平面单位距离问题(Planar Unit Distance Problem),这是 Paul Erdős 于 1946 年提出的著名开放问题。近 80 年来,数学家们认为最佳解集近似于方格排列,AI 模型发现了一个全新的构造族,性能优于此前所有已知解。这也是首次 AI 自主解决数学核心领域的著名开放问题。独立数学家 @alpoge 报告 Claude Mythos 也解决了 Erdős 问题 #90,且通常收敛到与 OpenAI 路线不同的更简洁证明路径。Sébastien Bubeck 指出:在合适的 harness 下,Mythos 和 GPT-5.5 都能复现内部模型一次性完成的效果,暗示大量潜在能力未被标准聊天界面暴露。
关键信息: OpenAI, Erdős, 数学证明, Claude Mythos, GPT-5.5
QUEST:2B–35B 开源长程深度研究 Agent,支持事实追踪与引用生成
QUEST 发布了一系列开源模型(2B–35B),专为 long-horizon fact-seeking(长程事实追踪)、citation grounding(引用定位)和 report synthesis(报告合成)设计,定位为通用深度研究 Agent。同期,Sakana/Stanford/Oxford/AI2 的 CUSP 基准发现当前模型能识别有前景的研究方向,但在判断突破”是否”和”何时”实现方面表现明显逊色。
关键信息: QUEST, 深度研究, 开源, CUSP, 科学预测
AMUSE 优化器:Muon + 无调度式梯度评估,任意时刻训练稳定收敛
AMUSE(Anytime MUon with Stable gradient Evaluation)将 Muon 与 schedule-free 式梯度评估结合,实现无需学习率衰减的稳定任意时刻训练。在 124M / 720M / 1B 规模和 ViT/ImageNet 微调上均报告增益。同期,kellerjordan 在 Modded-NanoGPT 上验证 Newton-Muon 表现,社区围绕 Muon 变体的实现讨论活跃。
关键信息: AMUSE, Muon, 优化器, 训练稳定性, 无调度
AlphaProof Nexus:Google DeepMind 的 Agentic 数学推理框架
Google DeepMind 发布 AlphaProof Nexus,一个用于研究级数学推理的 agentic framework(智能体框架)。由 Pushmeet Kohli 分享,定位为推进 AI 在数学研究中的应用。
关键信息: Google DeepMind, AlphaProof Nexus, 数学推理, Agent
工具框架
vLLM Rust 前端合并:预处理密集型负载下吞吐量提升至 ~837 req/s(5.2×)
vLLM 合并了 Rust 前端,作为 Python API 服务器的 drop-in 替代。早期数据在预处理密集型负载的单进程中,从 ~162 req/s 跃升至 ~837 req/s。这对于高吞吐量推理服务中遇到 CPU/API 服务器瓶颈的用户意义重大。
关键信息: vLLM, Rust, 推理性能, 吞吐量优化
Unsloth Studio 支持 API 模式运行 GPT/Claude 等外部模型
Unsloth 在其本地 UI 中新增了对 GPT、Claude 及其他 API 模型的支持,包含 prompt caching(提示缓存)和代码执行功能。用户可以在统一界面中对比和切换本地模型与云端 API。
关键信息: Unsloth, API集成, Prompt Caching, 本地推理
W&B 发布 MCP Server:让编码 Agent 直接查询实验和训练运行
Weights & Biases 发布了 MCP 服务器,允许编码 Agent 检查实验和训练运行数据。采用了 schema-first 重新设计,旨在避免上下文窗口膨胀,使 Agent 能在不手动切换工具的情况下获取训练指标和实验对比信息。
关键信息: W&B, MCP, 实验管理, Agent 工具
融资并购
DeepSeek 推进 102.9 亿美元融资:梁文峰重申 AGI 路线图与开源承诺
据 Bloomberg 报道,DeepSeek 正在推进 102.9 亿美元融资轮,创始人梁文峰重申 AGI 导向的路线图和持续开源模型的承诺,而非追逐短期商业化目标。社区评论认为模型权重约有 1 年技术半衰期,本地推理用户仅占极少数,因此开放权重不会实质性伤害 SaaS/API 收入。有评论指出当前开源模型(如 GLM 5.1)已对编码辅助”足够好”,下一步重点是蒸馏压缩而非提升原始智能。
关键信息: DeepSeek, 融资, 开源, AGI, Bloomberg
OpenRouter 获 1.13 亿美元 B 轮融资:6 个月内周 token 量从 5T 增长至 25T
OpenRouter 宣布完成 1.13 亿美元 B 轮融资,同时披露每周处理 token 量从 5T 增长至 25T,半年内增长 5 倍。这是路由平台和多模型基础设施被视为持久平台层的有力市场信号。
关键信息: OpenRouter, B轮融资, API路由, Token增长
Anthropic 收购 Stainless API:SDK 和 MCP Server 平台整合
Anthropic 宣布收购 Stainless API,这是一家 SDK 和 MCP 服务器平台公司,自 Anthropic API 早期起即为所有 Anthropic SDK 提供底层技术支撑。此次收购将 SDK 生成和 MCP 服务器能力深度整合进 Anthropic 开发工具栈。
关键信息: Anthropic, Stainless API, 收购, SDK, MCP
基础设施
华为 τ 标度论文:以时间常数为核心指标跨层统一芯片到数据中心设计
华为发表《A Time Scaling Theory for Multi-Layer Electronic Systems》,知乎 Frontier 的长文解读认为此论文应被理解为战略性白皮书而非新定律。核心是将时间常数 τ(而非制程节点)作为统一设备/芯片/数据中心跨层指标。最具体的论据围绕 LogicFolding——未来麒麟设计声称在固定节点实现 +55% 密度、+41% 能效、+13% 频率。但也明确指出缺乏验证工件(die photo、SEM、工作负载细节、良率曲线),最引人注目的数字处于”有希望但未经验证”的状态。
关键信息: 华为, τ标度, LogicFolding, 麒麟, 半导体
Epoch AI 警告推理算力紧缩:需求增长可能已超过服务能力
Epoch AI 估计可能正在出现推理算力紧缩(inference compute crunch)——推理需求增速超过服务容量增速,长上下文工作负载下尤其严峻。粗略模型显示,虽然当前全球 Blackwell 供应在有利假设下可满足现有需求,但上下文长度增加和需求增速可能已使供应紧张。
关键信息: Epoch AI, 推理, 算力, Blackwell, 供需
OpenAI 联合 AMD/Broadcom/Intel/Microsoft/NVIDIA 发布 MRC 开放网络协议
OpenAI 宣布与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作发布 Multipath Reliable Connection (MRC) 开放网络协议,旨在帮助大规模 AI 训练集群更快速、更可靠地运行,减少 GPU 空闲时间。MRC 面向全行业免费开放使用。
关键信息: OpenAI, MRC, 网络协议, 训练集群, GPU
X平台动态
过去 4 天精选自追踪账号的 8 条重要推文
编码 Agent 实践
**@mattshumer_**:分享 Codex 大幅提升前端开发质量的技巧——让 Codex 调用 Claude 作为设计子 Agent
一个让 Codex 前端输出提升 10 倍的实用技巧:让 Codex 使用
claude -p并附上”优秀、范围明确但在 UI/UX 方面不做主观限制的提示词”作为子 Agent 来处理设计变更。Codex Mobile 也让他的工作方式发生了变化——从盯着屏幕狂敲提示变成了”离开笔记本,不再微管理,给它更有野心的提示”。原文:Massively useful Codex trick for 10x better frontend: You can ask Codex to use Claude as a sub-agent to have Claude handle frontend/design work. Just say “Use claude -p with an excellent, well-scoped, but un-opinionated (UI/UX-wise) prompt anytime you need a design change.”
@skirano:Cursor Composer 2.5 在 MagicPath 中 swarm 10 个 Agent 并行构建页面、App 和组件
看 Cursor Composer 2.5 在 MagicPath 中同时 swarm 10 个 Agent,构建功能页面、移动端 App 和一堆组件,然后任意导出到 Figma。视频没有加速——速度相当疯狂。
原文:Watch Cursor Composer 2.5 swarm 10 agents inside MagicPath, building functional pages, a mobile app, and a bunch of components for the same project. Then I export whatever I want into Figma. Pretty crazy. (video is not sped up)
产品与基准
@OfficialLoganK:Google AI Studio 上线免费原生 Android 应用构建,一周内 25 万 App 创建
我们刚刚在 Google AI Studio 中上线了免费构建原生 Android 应用的功能!自上周发布以来,用户已创建超过 25 万个 Android 应用。估计超过 99% 的创建者此前从未构建过 Android 应用,现在人人都能构建,无需编码!
原文:We just launched the ability to build native Android apps directly in Google AI Studio for free! Since launch last week, people have created more than 250,000 Android apps. Likely >99% of these folks never built an Android app before, everyone can now build, no coding required!
AI 安全与治理
@AnthropicAI:工程博客:Agent 的访问权限应随能力同步演进,通过沙箱(sandboxing)限制破坏性操作范围
我们应该授予 Agent 的访问权限和权限应随其能力同步演进。在我们自己的产品中,通过沙箱(sandboxing)设置这些参数,限制任何潜在破坏性操作的影响范围。
原文:The access and permissions we grant agents should evolve with their capabilities. In our own products, we set these parameters through sandboxing, which limits the scope of any potentially destructive actions.
@GoogleDeepMind:SynthID 已为超过 1000 亿条内容添加水印,现与 OpenAI、ElevenLabs、Kakao 合作推广
SynthID 已为超过 1000 亿条内容添加了水印,但透明度是团队运动。这就是为什么我们与 OpenAI、ElevenLabs 和 Kakao 合作,将 SynthID 水印技术添加到他们的模型中——加速我们与 NVIDIA 共同启动的行业级推进势头。
原文:SynthID has already watermarked over 100 billion pieces of content, but transparency is a team sport. That’s why we’re partnering with @OpenAI, @ElevenLabs and Kakao to add SynthID watermarking to their models – accelerating the industry-wide momentum we started with @NVIDIA.
开源与融资
@jeremyphoward:小米 MiMo v2.5 模型性价比惊人,展示包含 40k+ 工具描述的上下文中的推理结果和定价
哇。看起来小米 MiMo v2.5 模型的性价比简直惊人 :O(每个回答后显示每次提示的价格。上下文包括 40k+ 工具描述、系统提示、skills 等。)
原文:Wow. It looks like the @XiaomiMiMo v2.5 model is insanely good value :O (Price for each prompt shown after each answer. Context includes >40k tool descriptions, system prompt, skills, etc.)
基准与评估
@simonw:讨论教皇利奥十四世关于 AI 的通谕,附带详细笔记
今天早上起床时没想到会花大量时间了解天主教神学,但事情就这样发生了。教皇利奥十四世关于 AI 的通谕笔记。
原文:When I woke up this morning I didn’t think I’d be spending a bunch of time today getting familiar with Catholic theology, but here we are. Notes on Pope Leo XIV’s encyclical on AI.
@shl:人类制定议程,Agent 执行议程
人类制定议程(agenda)。Agent 执行议程。
原文:Humans craft the agenda. Agents execute the agenda.
关键词
#AgentHarness #DeepSWE #Qwen3_7 #DeepSeek #ClaudeCode #Codex #OpenRouter #vLLM #ImageGeneration #AIInfra
数据来源: smol.ai, X/Twitter (twitterapi.io) | 生成时间: 2026-05-27 09:55


