腾讯技术工程#
mp.weixin.qq.com
↗
原文链接
读懂 AI Infra,看这六个关键词就够了
这篇文章介绍了2025年AI infra发展的六个重点方向,总结一下其中几点:
- 推理架构解耦
- PD分离(Prefill-Decode Separation)
- 原理:Prefill 阶段是计算密集型(Compute-bound),Decode 阶段是显存带宽密集型(Memory-bound)。
- 演进:将这两个阶段部署在不同的机器上,通过高速网络传输 KV Cache。DOPD 进一步引入了动态扩缩容和负载均衡,解决了“生产者-消费者”速率不匹配的问题。
- AFD(Attention-FFN Separation)
- 原理:将模型内部的 Attention 层(吃显存)和 FFN 层(吃算力)拆开,分别运行在显存型 GPU 和计算型 GPU 上。
- PD分离(Prefill-Decode Separation)
- 针对MoE的通信优化
- DeepEP:MoE 模型每次推理只激活少量专家,导致 GPU 间的通信是稀疏的。DeepEP 是 DeepSeek 开源的通信库,专门优化这种“按需通信”,替代了传统的 NCCL 全量广播模式。本质上是在解决分布式系统中的数据局部性和通信瓶颈问题。
- Agent Infrastructure
- 现有容器Docker秒级启动太慢,Agent需要毫秒级响应。
- AI生成的代码需要比容器更强的隔离性。
- 未来的Agent Infra将基于轻量级沙箱技术(类似AWS Firecracker或Serverless架构),提供有状态、毫秒级冷启动、强安全的执行环境。
整体而言,AI Infra发展正在经历传统互联网架构经历过的路线,Agent的应用和发展也在向软件工程领域靠。
