MiniMax Text01/M1 模型 vLLM 部署指南

本文档适用模型

本文档适用以下模型，只需在部署时修改模型名称即可。以下以 MiniMax-M1-40k 为例说明部署流程。

环境要求

OS: Linux
Python: 3.9 - 3.12
GPU:
- compute capability 7.0 or higher
- 显存需求: 权重需要 495 GB，每 1M 上下文 token 需要 38.2 GB
以下为推荐配置，实际需求请根据业务场景调整：
- 80G x8 GPU: 支持长达 200 万 token 的上下文输入
- 96G x8 GPU: 支持长达 500 万 token 的上下文输入

适用模型:

Text01: vllm >= 0.8.3
M1: vllm >= 0.9.2, 对于 v0.8.3 - v0.9.1 会出现模型不支持和精度丢失问题。精度丢失问题详见 https://github.com/vllm-project/vllm/pull/19592

模型不支持可以通过修改模型配置文件解决，把 config.json 里面的 architectures 改成 MiniMaxText01ForCausalLM 即可，详见 https://github.com/MiniMax-AI/MiniMax-M1/issues/21

使用 Python 部署

建议使用虚拟环境 (如 venv、conda、uv) 以避免依赖冲突。建议在全新的 Python 环境中安装 vLLM:

# 使用 CUDA 12.8
# 使用 pip 安装
pip install "vllm>=0.9.2" --extra-index-url https://download.pytorch.org/whl/cu128
# 或者使用 uv 安装
uv pip install "vllm>=0.9.2" --torch-backend=auto

运行如下命令启动 vLLM 服务器，vLLM 会自动从 Huggingface 下载并缓存 MiniMax-M1 模型：

SAFETENSORS_FAST_GPU=1 VLLM_USE_V1=0 vllm serve MiniMaxAI/MiniMax-M1-40k \
    --trust-remote-code \
    --quantization experts_int8 \
    --dtype bfloat16

使用 Docker 部署

Docker 部署可保证环境一致性和易于迁移。首先获取模型 (请确保系统已经安装 Git LFS)：

pip install -U huggingface-hub
huggingface-cli download MiniMaxAI/MiniMax-M1-40k
# 模型将下载到 $HOME/.cache/huggingface
# 如果遇到网络问题，可以设置代理
export HF_ENDPOINT=https://hf-mirror.com

拉取并启动 vLLM Docker 镜像：

docker pull vllm/vllm-openai:latest

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "SAFETENSORS_FAST_GPU=1" \
    --env "VLLM_USE_V1=0" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model MiniMaxAI/MiniMax-M1-40k \
    --trust-remote-code \
    --quantization experts_int8 \
    --dtype bfloat16

测试部署

启动后，可以通过如下命令测试 vLLM OpenAI 兼容接口：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "MiniMaxAI/MiniMax-M1",
        "messages": [
            {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
            {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
        ]
    }'

启用 vLLM V1 部署 (实验性)

根据测试结果，V1 相较于 V0 在中高压力场景下的延迟和吞吐均优化了 30-50%，但在单并发场景下性能有所下降，原因已确认是未启用 Full CUDA Graph，后续会进行修复。该功能尚未 Release，因此需要从源码安装。

git clone https://github.com/vllm-project/vllm
cd vllm
pip install -e .

然后安装，启动需要额外设置环境变量、关闭前缀缓存。

VLLM_ATTENTION_BACKEND=FLASHINFER VLLM_USE_V1=1 \
    vllm serve MiniMaxAI/MiniMax-M1-40k \
    --trust-remote-code \
    --quantization experts_int8 \
    --dtype bfloat16 \
    --no-enable-prefix-caching

常见问题

Huggingface 网络问题

如果遇到网络问题，可以设置代理后再进行拉取。

export HF_ENDPOINT=https://hf-mirror.com

No module named ‘vllm._C’

如果遇到以下错误：

import vllm._C # noqa
ModuleNotFoundError: No module named 'vllm._C'

该错误是因为存在一个名为 vllm 的文件夹，和系统中的 vllm 包冲突了，import 命令会优先执行此文件夹中的函数。一个可能导致问题的原因是为了运行 vLLM 的 examples 而从 clone 了该项目。解决只需重命名此文件夹即可。详见 https://github.com/vllm-project/vllm/issues/1814。

MiniMax-M1 model is not currently supported

该 vLLM 版本过旧，需要更新到 v0.9.2+。如果版本在 v0.8.3 - v0.9.1，可以查看环境要求一节的配置。

获取支持

如果在部署 MiniMax 模型过程中遇到任何问题：

通过邮箱 api@minimaxi.com 等官方渠道联系我们的技术支持团队
在我们的 GitHub 仓库提交 Issue

我们会持续优化模型的部署体验，欢迎反馈！

开始使用

模型与服务

使用指南

测试与评估指南

条款与政策

MiniMax Text01/M1 模型 vLLM 部署指南

本文档适用模型

环境要求

使用 Python 部署

使用 Docker 部署

测试部署

启用 vLLM V1 部署 (实验性)

常见问题

Huggingface 网络问题

No module named ‘vllm._C’

MiniMax-M1 model is not currently supported

获取支持

开始使用

模型与服务

使用指南

测试与评估指南

条款与政策

​本文档适用模型

​环境要求

​使用 Python 部署

​使用 Docker 部署

​测试部署

​启用 vLLM V1 部署 (实验性)

​常见问题

​Huggingface 网络问题

​No module named ‘vllm._C’

​MiniMax-M1 model is not currently supported

​获取支持

本文档适用模型

环境要求

使用 Python 部署

使用 Docker 部署

测试部署

启用 vLLM V1 部署 (实验性)

常见问题

Huggingface 网络问题

No module named ‘vllm._C’

MiniMax-M1 model is not currently supported

获取支持