
在 vLLM 上发布 Gemma 4:字节对字节,最强大的开源模型
随着 Gemma 4 的发布,vLLM 引入了对 Google 最复杂开放模型系列的支持,涵盖多个硬件后端,并首次在 Google TPU 上提供 Day 0 支持...
15 文章

随着 Gemma 4 的发布,vLLM 引入了对 Google 最复杂开放模型系列的支持,涵盖多个硬件后端,并首次在 Google TPU 上提供 Day 0 支持...

我们很高兴在 vLLM 上支持最新发布的 NVIDIA Nemotron 3 Super 模型。

1月28日更新:NVIDIA 刚刚发布了 NVFP4 精度版本的 Nemotron 3 Nano 模型。该模型由 vLLM 直接支持,并使用了一种名为“量化感知蒸馏”的新方法...

我们很高兴发布由 vLLM 支持的 NVIDIA Nemotron Nano 2 VL。这款开源视觉语言模型 (VLM) 专为视频理解和文档智能而构建。

总结:为了与 vLLM 获得最佳兼容性,请使用聊天模板在 commit 94a4053eb8863059dd8afc00937f054e1365abbd (Kimi-K2-0905) 之后更新的 Kimi K2 模型,或者 commit……

具备推理、规划和自主行动能力的智能体(Agentic)AI 系统正在推动开发者应用领域的下一次飞跃。为了构建这些系统,开发者需要能够...

我们很高兴宣布 vLLM 实现对 DeepSeek-V3.2-Exp 的“零日”支持,该模型采用了专为长上下文任务设计的 DeepSeek 稀疏注意力机制(DSA)(论文)。在这篇文章中,我们将展示如何使用该模型...

我们很高兴地宣布,vLLM 现已支持 Qwen 团队最新一代的基础模型 Qwen3-Next。Qwen3-Next 引入了一种混合架构,为...

通用语言模型 (GLM) 是由智谱 AI (现更名为 Z.ai) 创建的基础模型系列。GLM 团队与 vLLM 团队有着长期的合作关系,可以追溯到……的早期

我们很高兴地宣布,vLLM 现已在 NVIDIA Blackwell 和 Hopper GPU,以及 AMD MI300x 和 MI355x GPU 上支持 gpt-oss。在这篇博客文章中,我们将探讨高效的模型...

本文探讨了 MiniMax-M1 的混合架构如何在 vLLM 中得到高效支持。我们讨论了该模型的独特功能、高效推理面临的挑战以及技术实现...

Hugging Face Transformers 库为庞大的模型架构生态系统提供了灵活且统一的接口。从研究到在自定义数据集上进行微调,Transformers 都是首选工具...

我们很高兴宣布 vLLM 现已支持 Llama 4 模型系列:Scout (17B-16E) 和 Maverick (17B-128E)。您可以运行这些强大的长上下文、原生多模态(最高 8-10……

我们很高兴地宣布,通过红帽 AI 工程团队与 Meta Llama Stack 团队的合作,vLLM 推理提供程序现已在 Llama Stack 中可用。这一...

今天,vLLM 团队很高兴能与 Meta 合作,宣布支持 Llama 3.1 模型系列。Llama 3.1 带来了令人兴奋的新功能,包括更长的上下文长度(最高支持 128K)...