Mastodon
跳过正文
  1. Posts/

每日阅读

·615 字·2 分钟·
reading - 这篇文章属于一个选集。
§ : 本文

腾讯技术工程
#

mp.weixin.qq.com
原文链接
读懂 AI Infra,看这六个关键词就够了

这篇文章介绍了2025年AI infra发展的六个重点方向,总结一下其中几点:

  1. 推理架构解耦
    • PD分离(Prefill-Decode Separation)
      • 原理:Prefill 阶段是计算密集型(Compute-bound),Decode 阶段是显存带宽密集型(Memory-bound)。
      • 演进:将这两个阶段部署在不同的机器上,通过高速网络传输 KV Cache。DOPD 进一步引入了动态扩缩容和负载均衡,解决了“生产者-消费者”速率不匹配的问题。
    • AFD(Attention-FFN Separation)
      • 原理:将模型内部的 Attention 层(吃显存)和 FFN 层(吃算力)拆开,分别运行在显存型 GPU 和计算型 GPU 上。
  2. 针对MoE的通信优化
    • DeepEP:MoE 模型每次推理只激活少量专家,导致 GPU 间的通信是稀疏的。DeepEP 是 DeepSeek 开源的通信库,专门优化这种“按需通信”,替代了传统的 NCCL 全量广播模式。本质上是在解决分布式系统中的数据局部性和通信瓶颈问题。
  3. Agent Infrastructure
    • 现有容器Docker秒级启动太慢,Agent需要毫秒级响应。
    • AI生成的代码需要比容器更强的隔离性。
    • 未来的Agent Infra将基于轻量级沙箱技术(类似AWS Firecracker或Serverless架构),提供有状态毫秒级冷启动强安全的执行环境。

整体而言,AI Infra发展正在经历传统互联网架构经历过的路线,Agent的应用和发展也在向软件工程领域靠。

tinuvile
作者
tinuvile
一个笨小孩
reading - 这篇文章属于一个选集。
§ : 本文