跳转到主要内容

本文档适用模型

本文档适用以下模型,只需在部署时修改模型名称即可。以下以 MiniMax-M1-40k 为例说明部署流程。

环境要求

  • OS: Linux
  • Python: 3.9 - 3.12
  • GPU:
    • compute capability 7.0 or higher
    • 显存需求: 权重需要 495 GB,每 1M 上下文 token 需要 38.2 GB
  • 以下为推荐配置,实际需求请根据业务场景调整:
    • 80G x8 GPU: 支持长达 200 万 token 的上下文输入
    • 96G x8 GPU: 支持长达 500 万 token 的上下文输入
适用模型: 模型不支持可以通过修改模型配置文件解决,把 config.json 里面的 architectures 改成 MiniMaxText01ForCausalLM 即可,详见 https://github.com/MiniMax-AI/MiniMax-M1/issues/21

使用 Python 部署

建议使用虚拟环境 (如 venv、conda、uv) 以避免依赖冲突。建议在全新的 Python 环境中安装 vLLM:
# 使用 CUDA 12.8
# 使用 pip 安装
pip install "vllm>=0.9.2" --extra-index-url https://download.pytorch.org/whl/cu128
# 或者使用 uv 安装
uv pip install "vllm>=0.9.2" --torch-backend=auto
运行如下命令启动 vLLM 服务器,vLLM 会自动从 Huggingface 下载并缓存 MiniMax-M1 模型:
SAFETENSORS_FAST_GPU=1 VLLM_USE_V1=0 vllm serve MiniMaxAI/MiniMax-M1-40k \
    --trust-remote-code \
    --quantization experts_int8 \
    --dtype bfloat16

使用 Docker 部署

Docker 部署可保证环境一致性和易于迁移。首先获取模型 (请确保系统已经安装 Git LFS):
pip install -U huggingface-hub
huggingface-cli download MiniMaxAI/MiniMax-M1-40k
# 模型将下载到 $HOME/.cache/huggingface
# 如果遇到网络问题,可以设置代理
export HF_ENDPOINT=https://hf-mirror.com
拉取并启动 vLLM Docker 镜像:
docker pull vllm/vllm-openai:latest

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "SAFETENSORS_FAST_GPU=1" \
    --env "VLLM_USE_V1=0" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model MiniMaxAI/MiniMax-M1-40k \
    --trust-remote-code \
    --quantization experts_int8 \
    --dtype bfloat16

测试部署

启动后,可以通过如下命令测试 vLLM OpenAI 兼容接口:
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "MiniMaxAI/MiniMax-M1",
        "messages": [
            {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
            {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
        ]
    }'

启用 vLLM V1 部署 (实验性)

根据测试结果,V1 相较于 V0 在中高压力场景下的延迟和吞吐均优化了 30-50%,但在单并发场景下性能有所下降,原因已确认是未启用 Full CUDA Graph,后续会进行修复。 该功能尚未 Release,因此需要从源码安装。
git clone https://github.com/vllm-project/vllm
cd vllm
pip install -e .
然后安装,启动需要额外设置环境变量、关闭前缀缓存。
VLLM_ATTENTION_BACKEND=FLASHINFER VLLM_USE_V1=1 \
    vllm serve MiniMaxAI/MiniMax-M1-40k \
    --trust-remote-code \
    --quantization experts_int8 \
    --dtype bfloat16 \
    --no-enable-prefix-caching

常见问题

Huggingface 网络问题

如果遇到网络问题,可以设置代理后再进行拉取。
export HF_ENDPOINT=https://hf-mirror.com

No module named ‘vllm._C’

如果遇到以下错误:
import vllm._C # noqa
ModuleNotFoundError: No module named 'vllm._C'
该错误是因为存在一个名为 vllm 的文件夹,和系统中的 vllm 包冲突了,import 命令会优先执行此文件夹中的函数。一个可能导致问题的原因是为了运行 vLLM 的 examples 而从 clone 了该项目。解决只需重命名此文件夹即可。详见 https://github.com/vllm-project/vllm/issues/1814。

MiniMax-M1 model is not currently supported

该 vLLM 版本过旧,需要更新到 v0.9.2+。如果版本在 v0.8.3 - v0.9.1,可以查看环境要求一节的配置。

获取支持

如果在部署 MiniMax 模型过程中遇到任何问题:
  • 通过邮箱 api@minimaxi.com 等官方渠道联系我们的技术支持团队
  • 在我们的 GitHub 仓库提交 Issue
我们会持续优化模型的部署体验,欢迎反馈!
I