
vLLM Semantic Router v0.2 Athena:ClawOS、模型更新与系统大脑
自 v0.1 Iris 发布以来,vLLM Semantic Router 取得了巨大的飞跃。在同一个发布周期内,该项目重建了模型栈,将路由功能扩展到了安全性、语义缓存、内存、检索等领域……
15 文章

自 v0.1 Iris 发布以来,vLLM Semantic Router 取得了巨大的飞跃。在同一个发布周期内,该项目重建了模型栈,将路由功能扩展到了安全性、语义缓存、内存、检索等领域……

我们正在致力于构建混合模型 (MoM) 的系统级智能,将集体智能引入 LLM 系统。

vLLM Semantic Router 是混合模型 (MoM) 的系统级智能,将集体智能引入 LLM 系统。它位于用户和模型之间,从……中捕获信号

作为一名热情的 vLLM 社区成员,希望看到 vLLM 蓬勃发展并触及更多开发者,我很高兴宣布 vLLM Playground —— 一个功能丰富的现代 Web 界面,用于管理和……

我们非常高兴地宣布 vLLM-Omni 的一次重大性能更新。

在过去的几个月里,AMD 与 vLLM SR 团队展开合作,将 vLLM 语义路由 (VSR) 引入 AMD GPU——这不仅仅是一次性能优化,更是……

你的大语言模型刚刚调用了一个工具,收到了准确的数据,却依然给出了错误的答案。欢迎来到外在幻觉的世界——在这里,模型自信地忽略了摆在面前的基础事实……

- 投机采样是提升推理性能的一种优化手段;然而,为每个大语言模型训练一个独特的草稿模型既困难又耗时,而生产就绪的……

在不牺牲精度的前提下,实现更快、更高效的大模型服务!

我们很高兴宣布正式发布 vLLM-Omni,这是 vLLM 生态系统的一个重大扩展,旨在支持下一代 AI:全模态模型。

早期版本的 vLLM 语义路由依赖于基于分类的路由,这是一种直观的方法:将用户查询分类到 14 个 MMLU 领域类别之一,然后……

语义路由系统面临着扩展性挑战。当每个分类请求都需要独立运行多个微调模型时,计算成本会随着模型数量的增加而线性增长……

在过去的一年中,混合推理和自动路由日益成为大模型基础设施进步的标志——将讨论重点从纯粹的规模转向了单 Token 效率、延迟……

今天,我们很高兴发布 vllm-project/aibrix:由字节跳动开发、功能完备的 vLLM Kubernetes 服务栈。AIBrix 始于 2024 年初,已成功部署到……
- vLLM 拥有最大的开源社区,但要将 vLLM 从最好的单节点 LLM 引擎转化为一流的 LLM 服务系统,需要做些什么? - 今天,我们发布了“vLLM...