
走进 vLLM:高吞吐量 LLM 推理系统的剖析
在这篇文章中,我将逐步介绍构成现代高吞吐量 LLM 推理系统的所有核心组件和高级功能。特别是,我将进行详细拆解……
深入探讨推理工程、性能突破、新模型支持以及 vLLM 社区的最新动态。

在这篇文章中,我将逐步介绍构成现代高吞吐量 LLM 推理系统的所有核心组件和高级功能。特别是,我将进行详细拆解……

随着 Gemma 4 的发布,vLLM 引入了对 Google 最复杂开放模型系列的支持,涵盖多个硬件后端,并首次在 Google TPU 上提供 Day 0 支持...

PR #33736(包含在 vllm >= v0.18.0 中)为 vLLM 引入了一个新的隐藏状态提取系统。这篇博客文章探讨了该功能的动机、设计、使用方法和未来方向,并……

我们很高兴地宣布推出 Model Runner V2 (MRV2),这是对 vLLM 模型运行器的从零重构。MRV2 带来了更简洁、更模块化、更高效的执行核心——且无需修改 API...

EAGLE 是目前大型语言模型 (LLM) 推理中投机采样领域最先进的方法,但其自回归草稿生成过程会产生一个隐蔽的瓶颈:生成的 Token 越多...

我们很高兴在 vLLM 上支持最新发布的 NVIDIA Nemotron 3 Super 模型。

自 v0.1 Iris 发布以来,vLLM Semantic Router 取得了巨大的飞跃。在同一个发布周期内,该项目重建了模型栈,将路由功能扩展到了安全性、语义缓存、内存、检索等领域……

本文改编自 Red Hat 主办的 vLLM 办公时间 (Office Hours) 会话,邀请了来自 IBM Research 的 Burkhard Ringlein,对 vLLM Triton Attention 后端进行了深入的技术讲解....

长期以来,启用 AMD 支持意味着“移植”,即仅仅让代码能运行。那个时代已经结束了。

运行多个自定义 AI 模型(尤其是近期的混合专家模型 MoE 系列)的组织和个人,可能会面临在负载较低时仍需为闲置 GPU 容量付费的挑战……

DeepSeek-V3.2 (NVFP4 + TP2) 已在 GB300 (SM103 - Blackwell Ultra) 上成功顺利运行。利用 FP4 量化,单 GPU 吞吐量达到了 7360 TGS (每 GPU 每秒 Token 数)...