
GB300 上的 DeepSeek-V3.2:性能突破
·12 分钟阅读
DeepSeek-V3.2 (NVFP4 + TP2) 已在 GB300 (SM103 - Blackwell Ultra) 上成功顺利运行。利用 FP4 量化,单 GPU 吞吐量达到了 7360 TGS (每 GPU 每秒 Token 数)...
4 文章

DeepSeek-V3.2 (NVFP4 + TP2) 已在 GB300 (SM103 - Blackwell Ultra) 上成功顺利运行。利用 FP4 量化,单 GPU 吞吐量达到了 7360 TGS (每 GPU 每秒 Token 数)...

在不牺牲精度的前提下,实现更快、更高效的大模型服务!

简而言之:AMD ROCm 上的 vLLM 现在拥有更好的 FP8 性能!

今天,vLLM 团队很高兴能与 Meta 合作,宣布支持 Llama 3.1 模型系列。Llama 3.1 带来了令人兴奋的新功能,包括更长的上下文长度(最高支持 128K...)