
超越移植:vLLM 如何在 AMD ROCm 上编排高性能推理
长期以来,启用 AMD 支持意味着“移植”,即仅仅让代码能运行。那个时代已经结束了。
13 文章

长期以来,启用 AMD 支持意味着“移植”,即仅仅让代码能运行。那个时代已经结束了。

DeepSeek-V3.2 (NVFP4 + TP2) 已在 GB300 (SM103 - Blackwell Ultra) 上成功顺利运行。利用 FP4 量化,单 GPU 吞吐量达到了 7360 TGS (每 GPU 每秒 Token 数)...

继我们之前通过 wide-EP 实现 2.2k tok/s/H200 解码吞吐量的工作之后,vLLM 团队继续致力于针对 NVIDIA GB200 平台的性能优化。这篇博客...

简而言之:通过与开源社区合作,vLLM + NVIDIA 在运行于 NVIDIA Blackwell GPU 上的 gpt-oss-120b 模型上取得了重大的性能里程碑。通过深度...

我们正在致力于构建混合模型 (MoM) 的系统级智能,将集体智能引入 LLM 系统。

在过去的几个月里,AMD 与 vLLM SR 团队展开合作,将 vLLM 语义路由 (VSR) 引入 AMD GPU——这不仅仅是一次性能优化,更是……

在不牺牲精度的前提下,实现更快、更高效的大模型服务!

Intel® Arc™ Pro B 系列 GPU 提供强大的 AI 功能,且兼顾易用性和出色的性价比。其大内存容量和可扩展性……

vLLM TPU 现在由 tpu-inference 提供支持,这是一个富有表现力且功能强大的全新硬件插件,将 JAX 和 PyTorch 统一在单一的转换路径下。它不仅比上一代更快……

在过去的几个月里,我们与 NVIDIA 紧密合作,充分释放其最新 NVIDIA Blackwell GPU 架构 (B200/GB200) 在大语言模型上的潜力……

自 2024 年 12 月起,通过 vLLM 社区和昇腾团队在 vLLM 上的共同努力,我们完成了硬件可插拔 RFC。该提案允许将硬件集成到 vLLM 中……

简而言之:AMD ROCm 上的 vLLM 现在拥有更好的 FP8 性能!

简而言之:vLLM 在 AMD MI300X 上释放了惊人的性能,在运行 Llama 3.1 405B 时,吞吐量比 Text Generation Inference (TGI) 高出 1.5 倍,首字延迟 (TTFT) 快 1.7 倍……