跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://platform.minimaxi.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

本指南介绍如何使用三种推理框架本地部署 MiniMax-M2.7:vLLMSGLang 适用于 Linux GPU 服务器,MLX 适用于 Apple Silicon Mac Studio。如需使用 MiniMax API 服务,请参阅文本生成

GPU 服务器部署(vLLM / SGLang)

环境要求

  • 操作系统:Linux
  • Python:3.10 – 3.12
  • GPU:Compute capability 7.0 或更高

推荐配置

配置总 KV Cache 容量
96 GB x 4 GPU最高 40 万 token
144 GB x 8 GPU最高 300 万 token
以上数值为硬件支持的最大并发缓存总量。模型单序列(Single Sequence)长度上限仍为 196K token。

使用 vLLM 部署

vLLM 是一个高性能的 LLM 推理与服务库,通过 PagedAttention 高效管理注意力键值缓存,结合连续批处理(Continuous Batching)和前缀缓存等技术实现卓越的服务吞吐量。

安装

uv venv
source .venv/bin/activate
uv pip install vllm --torch-backend=auto

启动服务

vLLM 会自动从 Hugging Face 下载并缓存模型。
SAFETENSORS_FAST_GPU=1 vllm serve \
    MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
    --tensor-parallel-size 4 \
    --enable-auto-tool-choice --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2_append_think

使用 SGLang 部署

SGLang 是一个高性能的大模型推理服务框架,利用 RadixAttention 实现高效的前缀缓存和调度,具备低延迟、高吞吐的特点。

安装

uv venv
source .venv/bin/activate
uv pip install sglang

启动服务

SGLang 会自动从 Hugging Face 下载并缓存模型。
python -m sglang.launch_server \
    --model-path MiniMaxAI/MiniMax-M2.7 \
    --tp-size 4 \
    --tool-call-parser minimax-m2 \
    --reasoning-parser minimax-append-think \
    --host 0.0.0.0 \
    --trust-remote-code \
    --port 8000 \
    --mem-fraction-static 0.85

验证部署

vLLM 和 SGLang 均提供 OpenAI 兼容接口。启动后,可以通过 curl 或 OpenAI SDK 调用:
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "MiniMaxAI/MiniMax-M2.7",
        "messages": [
            {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
            {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
        ]
    }'

Mac Studio 部署(MLX)

得益于 Apple Silicon 的统一内存架构,Mac Studio 可以将模型完整加载到内存中并在设备端完成推理 — 无需 GPU 集群,数据完全私有。

环境要求

  • Mac Studio,搭载 Apple Silicon(M4 Max 或 M3 Ultra)
  • macOS 15.0(Sequoia)或更高版本
  • Python 3.10+
  • 足够的统一内存 — 参见下方模型选择指南

模型选择指南

所有 MLX 模型变体均可从 Hugging Face 上的 mlx-community 获取。更高位数的量化保留更多模型质量,但需要更多内存。

可用模型变体

模型变体量化方式模型大小最低内存
MiniMax-M2.7BF16(全精度)457 GB512 GB
MiniMax-M2.7-8bit-gs328-bit(组大小 32)257 GB288 GB
MiniMax-M2.7-8bit8-bit243 GB256 GB
MiniMax-M2.7-6bit6-bit186 GB200 GB
MiniMax-M2.7-5bit5-bit157 GB172 GB
MiniMax-M2.7-4bit4-bit129 GB140 GB
MiniMax-M2.7-nvfp4NVFP4129 GB140 GB
MiniMax-M2.7-4bit-mxfp44-bit MXFP4122 GB136 GB
MiniMax-M2.7-3bit3-bit100 GB112 GB
“最低内存” = 模型大小 + 约 10–15 GB 余量(用于 KV 缓存、激活值和系统开销)。实际内存使用量随上下文长度增长。

推荐配置

MLX 框架下最小变体(3-bit)需要约 112 GB 内存。统一内存低于 128 GB 的 Mac Studio 配置(M4 Max 36/48/64 GB、M3 Ultra 96 GB)无法通过 MLX 运行 MiniMax-M2.7,但仍可尝试使用 llama.cpp 等支持更激进量化策略的推理框架。
Mac Studio 配置推荐变体说明
M4 Max — 128 GB3-bit(100 GB)或 4-bit-mxfp4(122 GB)3-bit 较为充裕;4-bit-mxfp4 内存紧张,上下文受限
M3 Ultra — 256 GB6-bit(186 GB)推荐 6-bit;8-bit(243 GB)仅剩 13 GB 余量,易触发 Swap 或被系统终止进程
M3 Ultra — 512 GB8-bit-gs32(257 GB)推荐 8-bit-gs32,质量接近无损且留有充足余量;BF16(457 GB)仅剩约 55 GB,长上下文场景易 OOM

快速开始

安装

pip install -U mlx-lm

使用方式

使用 mlx_lm 在终端直接生成文本,或通过 Python 脚本调用:
mlx_lm.generate \
  --model mlx-community/MiniMax-M2.7-6bit \
  --prompt "解释神经网络中混合专家模型的概念。" \
  --max-tokens 8192 \
  --temp 1.0

API 服务部署

如需将 MiniMax-M2.7 作为本地 API 服务(兼容 OpenAI SDK),可以使用 mlx_lm.server 或第三方工具如 LM Studio

mlx_lm.server

启动 OpenAI 兼容的 API 服务:
mlx_lm.server \
  --model mlx-community/MiniMax-M2.7-6bit \
  --port 8080
mlx_lm.server 会自动将模型的思考过程(<think> 标签内容)分离到 reasoning 字段,content 仅包含最终回复:
{
  "choices": [{
    "message": {
      "role": "assistant",
      "content": "\n\n你好!很高兴见到你!",
      "reasoning": "用户用中文打招呼,我应该友好地回复。"
    }
  }]
}
启动服务后,可通过 curl 或 OpenAI SDK 调用:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mlx-community/MiniMax-M2.7-6bit",
    "messages": [{"role": "user", "content": "你好!"}],
    "temperature": 1.0,
    "top_p": 0.95,
    "max_tokens": 8192
  }'

LM Studio

LM Studio 提供了带有内置 MLX 支持的 Mac 桌面应用:
  1. 下载并安装 LM Studio
  2. 在模型浏览器中搜索 MiniMax-M2.7
  3. 选择适合您内存的量化变体
  4. 点击 Load 即可开始对话
LM Studio 同样提供 OpenAI 兼容的本地服务,便于与其他工具集成。

微调(LoRA)

mlx-lm 支持使用 LoRA / QLoRA 对模型进行参数高效微调(PEFT)。对于 MiniMax-M2.7 这种 MoE 模型,建议使用量化模型 + QLoRA 以降低内存需求。
在 Mac Studio 上微调 MiniMax-M2.7 对内存要求极高。即使使用 QLoRA,也需要至少 192 GB 统一内存(M3 Ultra),并采用非常保守的训练参数。128 GB 及以下配置不建议尝试微调。

安装训练依赖

pip install "mlx-lm[train]"

准备训练数据

训练数据使用 JSONL 格式。在数据目录中创建 train.jsonlvalid.jsonl 和(可选的)test.jsonl 文件。 对话格式(推荐):
{"messages": [{"role": "user", "content": "你的问题"}, {"role": "assistant", "content": "期望的回答"}]}
补全格式:
{"prompt": "输入文本", "completion": "期望的输出"}

启动微调

使用量化模型进行 QLoRA 微调,并启用内存优化选项:
mlx_lm.lora \
  --model mlx-community/MiniMax-M2.7-4bit \
  --train \
  --data ./your-data-dir \
  --batch-size 1 \
  --num-layers 4 \
  --grad-checkpoint \
  --iters 600 \
  --adapter-path ./adapters
关键参数说明:
参数建议值说明
--batch-size1大模型必须使用最小 batch size
--num-layers4仅微调少量层以节省内存
--grad-checkpoint用计算换内存,降低峰值占用
--iters600根据数据量调整

使用微调后的模型

加载适配器生成文本:
mlx_lm.generate \
  --model mlx-community/MiniMax-M2.7-4bit \
  --adapter-path ./adapters \
  --prompt "你的提示词" \
  --max-tokens 2048
将适配器合并到模型(可选):
mlx_lm.fuse \
  --model mlx-community/MiniMax-M2.7-4bit \
  --adapter-path ./adapters
合并后可直接加载融合模型,无需额外指定适配器路径。

推荐参数

以下为 MiniMax-M2.7 的推荐参数,适用于所有推理框架:
参数推荐值
temperature1.0
top_p0.95
top_k40

相关链接

MiniMax-M2.7 Hugging Face

官方模型权重、文档和基准测试

MiniMax-M2.7 MLX 模型

MLX Community 上的全部量化变体

vLLM 官方文档

vLLM 官方文档和部署指南

SGLang 官方文档

SGLang 官方文档和部署指南