在 vLLM 上发布 Gemma 4:字节对字节,最强大的开源模型

3 分钟阅读
Google 团队

通过高级推理和多模态能力提升开源模型

随着 Gemma 4 的首次亮相,vLLM 立即引入了对 Google 最先进开源模型系列的支持,跨越多种硬件后端,并首次在 Google TPUAMD GPUIntel XPU 上提供“第 0 天”支持。Gemma 4 专为高级推理和代理工作流构建,在参数效率方面提供了前所未有的智能水平,现已在商用许可的 Apache 2.0 协议下提供给 vLLM 社区使用。

Gemma 4 系列建立在与 Gemini 3 相同的世界级研究和技术基础上,包括四种多功能尺寸,旨在适应不同的硬件环境:高效 2B (E2B)、高效 4B (E4B)、26B 混合专家模型 (MoE) 和 31B 密集模型。

Model Performance VS Size
模型性能与尺寸对比

截至 2 月 1 日,Arena.ai 聊天竞技场上的开源模型性能与尺寸对比。更多基准测试请参阅我们的模型卡

强大、易用、开源

为了催化前沿研究和产品创新的下一个时代,Gemma 4 模型经过精确设计,可在整个硬件范围内实现高效执行和微调——从数十亿台 Android 设备到本地开发者工作站和大规模加速器。

通过利用这些高度优化的模型,开发者可以在专业任务上实现最先进的性能。早期的成功案例包括 INSAIT 的开创性保加利亚语优先模型 BgGPT,以及耶鲁大学的 Cell2Sentence-Scale,该项目利用 Gemma 4 识别癌症治疗的新途径。

Gemma 4 是我们迄今为止最先进的开源模型系列,其核心能力定义如下:

  • 高级推理: Gemma 4 具备复杂的多步规划能力,在数学和逻辑密集型指令遵循基准测试中取得了重大突破。
  • 代理工作流: 原生支持函数调用、结构化 JSON 和系统指令,使得构建能够与工具和 API 交互的可靠自主智能体成为可能。
  • 代码生成: 高质量的离线代码支持将任何工作站转变为强大的、本地优先的 AI 开发环境。
  • 视觉与音频: 模型可原生处理不同分辨率的图像和视频,在 OCR 和图表理解方面表现出色。边缘模型 (E2B/E4B) 还包含用于语音识别的原生音频输入。
  • 更长上下文: 边缘模型支持 128K 上下文窗口,大型变体最高支持 256K,可轻松处理海量数据集,助力代码库级别的分析。
  • 140 多种语言: Gemma 4 原生训练涵盖 140 多种语言,助力开发者为全球用户群创建包容性、高性能的应用程序。

阅读 Google 博客此处,详细了解 Gemma 4 领先的参数效率性能。

硬件支持

vLLM 经过优化,可在业界领先的硬件后端上运行 Gemma 4,使开发者能够以极低的硬件开销实现前沿能力。vLLM 支持在 Nvidia、AMD、Intel GPUGoogle TPU 上进行无缝部署,涵盖从笔记本电脑级显卡到数据中心加速器的各种硬件。

vLLM 用户的关键能力

  • 原生视觉与音频: 所有模型均可原生处理图像和视频。小型边缘模型 (E2B/E4B) 还支持语音识别的原生音频输入。
  • 代理工作流: 支持函数调用、结构化 JSON 输出以及原生系统指令,使 vLLM 用户能够构建可靠的自主智能体。
  • 扩展上下文: vLLM 处理 Gemma 4 的可变上下文窗口(边缘模型最高 128K,大型模型最高 256K),支持长文档和存储库级别的处理。
  • 全球化语言能力: 原生训练涵盖 140 多种语言,支持开发更具包容性的应用程序。

入门指南

有关技术实现细节,请参考官方模型卡和社区配方(Recipes)

若要开始在 Google Kubernetes (GKE) 和 Google Compute Engine (GCE) 上使用 Gemma 4,请查看我们的快速入门视觉和文本演示教程,支持 TrilliumIronwoodNvidia GPU