使用 vLLM 运行高效且准确的 NVIDIA Nemotron 3 Super 多智能体 AI

5 分钟阅读
NVIDIA Nemotron 团队

我们很高兴在 vLLM 上支持最新发布的 NVIDIA Nemotron 3 Super 模型。

Nemotron 3 Super 作为 Nemotron 3 开放模型家族的一员,专为复杂的智能体(Agent)应用进行了优化。如今的智能体 AI 系统依赖多个模型来进行规划、推理和执行复杂的多步任务。这些模型必须既具备解决复杂技术挑战所需的深度,又具备大规模持续运行所需的效率。

Nemotron 3 Super 是一款开放的混合专家模型(MoE),拥有 1200 亿参数,但在推理时仅激活 120 亿参数。这种设计实现了高计算效率和领先的准确性,特别适用于复杂的多智能体应用。它解决了大规模智能体系统中的两大主要挑战:

  • “上下文爆炸”问题:由于需要重复发送历史记录、工具输出和推理步骤,多智能体系统通常会生成过多的 Token。Nemotron 3 Super 通过 100 万 Token 的超大上下文窗口解决了这一问题,为智能体提供了长期记忆,并显著减少了目标偏移。
  • “思维税”:对于传统的超大模型,运行推理密集型智能体既昂贵又缓慢。混合 MoE 架构提供了最高 4 倍的吞吐量,通过允许复杂智能体在执行每个子任务时无需高延迟和高成本,从而应对这一挑战。

如上图所示,Nemotron 3 Super 在“人工分析开放性指数”(Artificial Analysis Openness index)中处于领先地位。与其他开放模型相比,Nemotron 完全开放(包括模型权重、数据集和配方),因此开发人员可以轻松地在自己的基础设施上进行定制、优化和部署,以实现最大的隐私和安全性。

在这篇博客文章中,我们将分享如何使用 vLLM 进行推理来上手 Nemotron 3 Super,从而解锁大规模、高效率、高准确性的多智能体 AI。

关于 Nemotron 3 Super

  • 架构:混合专家模型(MoE),结合混合 Transformer-Mamba 架构
  • 同等规模下最高的吞吐效率,相比之前的 Nemotron Super 模型吞吐量提升高达 5 倍
  • 多 Token 预测(MTP):通过在单次前向传递中同时预测多个未来 Token,MTP 大幅加速了长文本的生成
  • 支持思维预算(Thinking Budget),以最少的推理 Token 生成实现最佳准确性

关键规格

  • 准确性:在“人工分析智能指数”(Artificial Analysis Intelligence Index)中,其同等规模下准确性领先;相比之前的 Nemotron Super 模型准确性提升高达 2 倍
  • 潜在 MoE(Latent MoE)使调用 4 个专家的推理成本仅相当于调用 1 个专家
  • 模型规模:总参数 120B,激活参数 12B
  • 上下文长度:最高 1M
  • 模型输入/输出:文本输入,文本输出
  • 支持的 GPU:B200, H100, DGX Spark, RTX 6000

入门指南

  • Hugging Face 下载模型权重 - 支持 BF16, FP8 和 NVFP4
  • 使用 vLLM 进行推理
  • 阅读 技术报告 了解更多详情

使用 vLLM 运行优化后的推理

Nemotron 3 Super 通过对 BF16、FP8 和 NVFP4 精度的支持,实现了加速推理,并在同一 GPU 上处理更多请求。Blackwell 架构上的 NVFP4 与 H100 上的 FP8 相比,在保持准确性的同时吞吐量提高了 4 倍。按照以下说明开始操作:

安装 vLLM

pip install vllm==0.17.1

部署模型

您可以通过兼容 OpenAI 的 API 来部署 Nemotron 3 Super。下方的命令配置为 4x H100 设置。如果您的硬件配置不同,请根据您的环境调整并行标志和相关设置。有关 FP8 和 NVFP4 的详细说明,请参考我们的教程(Cookbooks)。

# BF16
vllm serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
    --kv-cache-dtype fp8 \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --served-model-name nemotron \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --reasoning-parser nemotron_v3

服务器启动并运行后,您可以使用以下代码片段向模型发出提示:

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:5000/v1", api_key="null")
 
# Simple chat completion
resp = client.chat.completions.create(
    model="nemotron",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Give me 3 bullet points about vLLM"}
    ],
    temperature=0.7,
    max_tokens=256,
)
print("Reasoning:", resp.choices[0].message.reasoning_content,
      "\nContent:", resp.choices[0].message.content)

如需更简单的 vLLM 设置,请参考我们的入门教程,点击此处获取,或使用 NVIDIA Brev 可启动镜像

为多智能体应用提供最高效率与领先的准确性

如上图所示,该模型在人工分析基准测试中实现了领先的准确性和更高的效率,使其成为需要同时兼顾效率与能力的多智能体系统的有力选择。

入门指南

Nemotron 3 Super 帮助您构建高准确性、可扩展且具有成本效益的多智能体 AI。凭借开放的权重、数据集和配方,您可以获得完全的透明度,并灵活地在从工作站到云端的任何基础设施上进行微调和部署。

准备好大规模运行多智能体 AI 了吗?

通过订阅 NVIDIA 新闻,并关注 NVIDIA AI 的 LinkedIn, X, YouTube 以及 Discord 上的 Nemotron 频道,随时了解 NVIDIA Nemotron 的最新动态。

致谢

感谢所有为将 Nemotron 3 Super 引入 vLLM 做出贡献的人们。

  • NVIDIA: Nirmal Kumar Juluru, Anusha Pant
  • vLLM 团队与社区: Roger Wang, Michael Goin, Thomas Parnell, Kevin Luu, Robert Shaw, Tyler Michael Smith