
vLLM 中的流式请求与实时 API
·19 分钟阅读
大语言模型推理传统上基于一个简单的前提:用户提交一个完整的提示词(请求),模型进行处理,并返回一个响应(流式或以……方式)
9 文章

大语言模型推理传统上基于一个简单的前提:用户提交一个完整的提示词(请求),模型进行处理,并返回一个响应(流式或以……方式)

我们非常高兴地宣布 vLLM-Omni 的一次重大性能更新。

现代大型多模态模型(LMMs)引入了一个独特的服务时瓶颈:在任何文本生成开始之前,所有图像都必须由视觉编码器(例如 ViT)进行处理。此编码器……

我们很高兴宣布正式发布 vLLM-Omni,这是 vLLM 生态系统的一个重大扩展,旨在支持下一代 AI:全模态模型。

介绍共享内存 IPC 缓存——由 Cohere 为 vLLM 项目贡献的高性能缓存机制。通过绕过冗余的进程间通信并保留大型...

我们很高兴发布由 vLLM 支持的 NVIDIA Nemotron Nano 2 VL。这款开源视觉语言模型 (VLM) 专为视频理解和文档智能而构建。

直到最近,生成式 AI 基础设施一直与自回归文本生成模型紧密耦合,这些模型通常以自然语言的形式逐个 token 地产生输出。vLLM……

通用语言模型 (GLM) 是由智谱 AI (现更名为 Z.ai) 创建的基础模型系列。GLM 团队与 vLLM 团队有着长期的合作关系,可以追溯到……的早期

我们很高兴宣布 vLLM 现已支持 Llama 4 模型系列:Scout (17B-16E) 和 Maverick (17B-128E)。您可以运行这些强大的长上下文、原生多模态(最高 8-10……