
推动 vLLM WideEP 和大规模服务在 Blackwell 架构上的成熟(第一部分)
·10 分钟阅读
继我们之前通过 wide-EP 实现 2.2k tok/s/H200 解码吞吐量的工作之后,vLLM 团队继续致力于针对 NVIDIA GB200 平台的性能优化。这篇博客...
10 文章

继我们之前通过 wide-EP 实现 2.2k tok/s/H200 解码吞吐量的工作之后,vLLM 团队继续致力于针对 NVIDIA GB200 平台的性能优化。这篇博客...

在 v0.11.0 中,vLLM V0 引擎的最后一部分代码被移除,标志着完全迁移到了改进后的 V1 引擎架构。这一成就离不开 vLLM 的...

现代大型多模态模型(LMMs)引入了一个独特的服务时瓶颈:在任何文本生成开始之前,所有图像都必须由视觉编码器(例如 ViT)进行处理。此编码器……

在大规模生产环境的 vLLM 部署中,高效管理模型副本之间的请求分发是一项关键需求。标准的负载均衡器往往难以满足需求,因为它们...

Ray 现在新增了一个命令:ray symmetric-run。该命令支持在 Ray 集群的每个节点上启动相同的入口点命令,从而简化了启动 vLLM 服务器的工作流程...

在这篇文章中,我将逐步介绍构成现代高吞吐量 LLM 推理系统的所有核心组件和高级功能。特别是,我将进行详细拆解……

随着对训练具备推理能力的大语言模型(LLM)的需求增长,基于人类反馈的强化学习(RLHF)已成为一种核心技术。然而,传统的 RLHF...

今天,我们很高兴发布 vllm-project/aibrix:由字节跳动开发、功能完备的 vLLM Kubernetes 服务栈。AIBrix 始于 2024 年初,已成功部署到……

服务大型模型经常导致内存瓶颈,例如令人头疼的 CUDA 显存不足(OOM)错误。为了解决这个问题,主要有两种解决方案
- vLLM 拥有最大的开源社区,但要将 vLLM 从最好的单节点 LLM 引擎转化为一流的 LLM 服务系统,需要做些什么? - 今天,我们发布了“vLLM...