潘森 llmaz 和 Higress 介绍

随着大语言模型技术的快速发展，越来越多的企业和组织开始考虑在本地私有化部署模型，以满足数据安全、合规性和低延迟等需求。在众多的大模型推理引擎中，vLLM 凭借其卓越的性能和高效的资源利用率，已成为目前最热门的 LLM 推理引擎之一。

虽然 vLLM 本身性能卓越，但要构建一个真正面向生产环境的 vLLM 推理服务仍存在一定挑战。例如，大模型推理服务通常需要应对流量分发、故障转移等高可用性需求，同时在部署层面也面临资源调度、模型加载和服务编排等方面的复杂性。

为应对上述挑战，本文将展示如何通过 llmaz 快速部署 vLLM 实例，并借助 Higress 实现流量控制与可观测性，从而构建一个稳定、高可用的大模型服务平台。

llmaz 是一个基于 Kubernetes 构建的大语言模型推理平台，旨在为多模型、多推理后端的服务场景提供统一且高效的部署解决方案。llmaz 原生支持 vLLM、SGLang、Text-Generation-Inference、llama.cpp、TensorRT-LLM 等多种主流推理引擎，并通过智能调度机制灵活适配异构 GPU，最大化资源利用率与推理性能。llmaz 支持从 HuggingFace、ModelScope 以及对象存储自动加载模型，显著简化模型管理流程，降低部署与使用门槛。

Higress 作为一款云原生 API 网关，可以完美地扮演大模型服务前置的 AI 网关角色。我们可以利用 Higress 的丰富功能实现模型服务的可观测性、流量控制、故障转移等关键能力，为大模型应用提供更加稳定和可靠的基础设施支持。

潘森 llmaz 和 Higress 介绍

意昂体育