潘森 llmaz 和 Higress 介绍

随着大语言模型技术的快速发展,越来越多的企业和组织开始考虑在本地私有化部署模型,以满足数据安全、合规性和低延迟等需求。在众多的大模型推理引擎中,vLLM 凭借其卓越的性能和高效的资源利用率,已成为目前最热门的 LLM 推理引擎之一。

虽然 vLLM 本身性能卓越,但要构建一个真正面向生产环境的 vLLM 推理服务仍存在一定挑战。例如,大模型推理服务通常需要应对流量分发、故障转移等高可用性需求,同时在部署层面也面临资源调度、模型加载和服务编排等方面的复杂性。

为应对上述挑战,本文将展示如何通过 llmaz 快速部署 vLLM 实例,并借助 Higress 实现流量控制与可观测性,从而构建一个稳定、高可用的大模型服务平台。

llmaz 是一个基于 Kubernetes 构建的大语言模型推理平台,旨在为多模型、多推理后端的服务场景提供统一且高效的部署解决方案。llmaz 原生支持 vLLM、SGLang、Text-Generation-Inference、llama.cpp、TensorRT-LLM 等多种主流推理引擎,并通过智能调度机制灵活适配异构 GPU,最大化资源利用率与推理性能。llmaz 支持从 HuggingFace、ModelScope 以及对象存储自动加载模型,显著简化模型管理流程,降低部署与使用门槛。

Higress 作为一款云原生 API 网关,可以完美地扮演大模型服务前置的 AI 网关角色。我们可以利用 Higress 的丰富功能实现模型服务的可观测性、流量控制、故障转移等关键能力,为大模型应用提供更加稳定和可靠的基础设施支持。