
Model Runner V2:vLLM 更模块化、更快速的核心
我们很高兴地宣布推出 Model Runner V2 (MRV2),这是对 vLLM 模型运行器的从零重构。MRV2 带来了更简洁、更模块化、更高效的执行核心——且无需修改 API...
25 文章

我们很高兴地宣布推出 Model Runner V2 (MRV2),这是对 vLLM 模型运行器的从零重构。MRV2 带来了更简洁、更模块化、更高效的执行核心——且无需修改 API...

EAGLE 是目前大型语言模型 (LLM) 推理中投机采样领域最先进的方法,但其自回归草稿生成过程会产生一个隐蔽的瓶颈:生成的 Token 越多...

本文改编自 Red Hat 主办的 vLLM 办公时间 (Office Hours) 会话,邀请了来自 IBM Research 的 Burkhard Ringlein,对 vLLM Triton Attention 后端进行了深入的技术讲解....

长期以来,启用 AMD 支持意味着“移植”,即仅仅让代码能运行。那个时代已经结束了。

运行多个自定义 AI 模型(尤其是最近的专家混合模型 (MoE) 家族)的组织和个人,在 GPU 利用率不高时可能会面临为空闲 GPU 产能付费的挑战,当...

DeepSeek-V3.2 (NVFP4 + TP2) 已在 GB300 (SM103 - Blackwell Ultra) 上成功顺利运行。利用 FP4 量化,单 GPU 吞吐量达到了 7360 TGS (每 GPU 每秒 Token 数)...

继我们之前通过 wide-EP 实现 2.2k tok/s/H200 解码吞吐量的工作之后,vLLM 团队继续致力于针对 NVIDIA GB200 平台的性能优化。这篇博客...

简而言之:通过与开源社区合作,vLLM + NVIDIA 在运行于 NVIDIA Blackwell GPU 上的 gpt-oss-120b 模型上取得了重大的性能里程碑。通过深度...

在这篇文章中,我们将介绍 vLLM 0.11.0 中引入的新 KV 缓存卸载功能。我们将重点讨论卸载到 CPU 内存 (DRAM) 及其在提升整体性能方面的优势...

我们非常高兴地宣布 vLLM-Omni 的一次重大性能更新。

在 v0.11.0 中,vLLM V0 引擎的最后一部分代码被移除,标志着完全迁移到了改进后的 V1 引擎架构。这一成就离不开 vLLM 的...

介绍共享内存 IPC 缓存——由 Cohere 为 vLLM 项目贡献的高性能缓存机制。通过绕过冗余的进程间通信并保留大型...

我们演示了一个开源的、比特一致的同策略 (on-policy) RL 运行,其中使用 TorchTitan 作为训练引擎,vLLM 作为推理引擎。基于 vLLM 最近在批次不变性方面的工作...

多模型服务问题:你有两个都能在 GPU 上运行的 LLM,但不能同时运行。传统的解决方案会迫使你做出糟糕的妥协

在过去的几个月里,我们与 NVIDIA 密切合作,旨在为大型语言模型挖掘其最新的 NVIDIA Blackwell GPU 架构 (B200/GB200) 的全部潜力...

如今,快速的大型语言模型 (LLM) 推理需要在不同的硬件、工作负载和规模下尽可能高效地执行模型。高效执行需要经过深度优化...

我们很高兴地宣布,vLLM 现已在 NVIDIA Blackwell 和 Hopper GPU,以及 AMD MI300x 和 MI355x GPU 上支持 gpt-oss。在这篇博客文章中,我们将探讨高效的模型...

本文探讨了 MiniMax-M1 的混合架构如何在 vLLM 中得到高效支持。我们讨论了该模型的独特功能、高效推理面临的挑战以及技术实现...

我们非常高兴地宣布 vLLM V1 的 alpha 版本发布,这是 vLLM 核心架构的重大升级。基于过去 1.5 年 vLLM 开发中汲取的经验,我们重新审视了关键...

- 结构化解码允许对 LLM 输出格式进行精确控制 - vLLM 现已支持 outlines 和 XGrammar 后端进行结构化解码 - 最近的 XGrammar 集成带来了高达 5 倍的...

简而言之:vLLM 在 AMD MI300X 上释放了惊人的性能,对于 Llama 3.1 405B 模型,其吞吐量比 Text Generation Inference (TGI) 高出 1.5 倍,首字延迟 (TTFT) 快 1.7 倍....

vLLM 中的投机采样是一种强大的技术,通过结合使用小型和大型模型来加速 Token 生成。在本博客中,我们将解析投机采样在...

简而言之:vLLM 在 Llama 8B 模型上实现了 2.7 倍的吞吐量提升和 5 倍的 TPOT(每个输出 Token 的时间)缩减,在 Llama 70B 模型上实现了 1.8 倍的吞吐量提升和 2 倍的 TPOT 缩减。

- 在常见场景下,vLLM 的速度与 DeepSpeed-FastGen 持平,并在处理更长输出时超越它。 - DeepSpeed-FastGen 仅在提示词长而输出短的场景下表现优于 vLLM...

LLM 有望从根本上改变我们在各行各业使用 AI 的方式。然而,实际服务这些模型具有挑战性,即使在昂贵的硬件上,速度也可能慢得令人惊讶。今天我们...