Documentation Index
Fetch the complete documentation index at: https://platform.minimaxi.com/docs/llms.txt
Use this file to discover all available pages before exploring further.
GPU 服务器部署(vLLM / SGLang)
环境要求
- 操作系统:Linux
- Python:3.10 – 3.12
- GPU:Compute capability 7.0 或更高
推荐配置
| 配置 | 总 KV Cache 容量 |
|---|---|
| 96 GB x 4 GPU | 最高 40 万 token |
| 144 GB x 8 GPU | 最高 300 万 token |
使用 vLLM 部署
vLLM 是一个高性能的 LLM 推理与服务库,通过 PagedAttention 高效管理注意力键值缓存,结合连续批处理(Continuous Batching)和前缀缓存等技术实现卓越的服务吞吐量。安装
启动服务
vLLM 会自动从 Hugging Face 下载并缓存模型。使用 SGLang 部署
SGLang 是一个高性能的大模型推理服务框架,利用 RadixAttention 实现高效的前缀缓存和调度,具备低延迟、高吞吐的特点。安装
启动服务
SGLang 会自动从 Hugging Face 下载并缓存模型。验证部署
vLLM 和 SGLang 均提供 OpenAI 兼容接口。启动后,可以通过 curl 或 OpenAI SDK 调用:Mac Studio 部署(MLX)
得益于 Apple Silicon 的统一内存架构,Mac Studio 可以将模型完整加载到内存中并在设备端完成推理 — 无需 GPU 集群,数据完全私有。环境要求
- Mac Studio,搭载 Apple Silicon(M4 Max 或 M3 Ultra)
- macOS 15.0(Sequoia)或更高版本
- Python 3.10+
- 足够的统一内存 — 参见下方模型选择指南
模型选择指南
所有 MLX 模型变体均可从 Hugging Face 上的 mlx-community 获取。更高位数的量化保留更多模型质量,但需要更多内存。可用模型变体
| 模型变体 | 量化方式 | 模型大小 | 最低内存 |
|---|---|---|---|
| MiniMax-M2.7 | BF16(全精度) | 457 GB | 512 GB |
| MiniMax-M2.7-8bit-gs32 | 8-bit(组大小 32) | 257 GB | 288 GB |
| MiniMax-M2.7-8bit | 8-bit | 243 GB | 256 GB |
| MiniMax-M2.7-6bit | 6-bit | 186 GB | 200 GB |
| MiniMax-M2.7-5bit | 5-bit | 157 GB | 172 GB |
| MiniMax-M2.7-4bit | 4-bit | 129 GB | 140 GB |
| MiniMax-M2.7-nvfp4 | NVFP4 | 129 GB | 140 GB |
| MiniMax-M2.7-4bit-mxfp4 | 4-bit MXFP4 | 122 GB | 136 GB |
| MiniMax-M2.7-3bit | 3-bit | 100 GB | 112 GB |
推荐配置
MLX 框架下最小变体(3-bit)需要约 112 GB 内存。统一内存低于 128 GB 的 Mac Studio 配置(M4 Max 36/48/64 GB、M3 Ultra 96 GB)无法通过 MLX 运行 MiniMax-M2.7,但仍可尝试使用 llama.cpp 等支持更激进量化策略的推理框架。| Mac Studio 配置 | 推荐变体 | 说明 |
|---|---|---|
| M4 Max — 128 GB | 3-bit(100 GB)或 4-bit-mxfp4(122 GB) | 3-bit 较为充裕;4-bit-mxfp4 内存紧张,上下文受限 |
| M3 Ultra — 256 GB | 6-bit(186 GB) | 推荐 6-bit;8-bit(243 GB)仅剩 13 GB 余量,易触发 Swap 或被系统终止进程 |
| M3 Ultra — 512 GB | 8-bit-gs32(257 GB) | 推荐 8-bit-gs32,质量接近无损且留有充足余量;BF16(457 GB)仅剩约 55 GB,长上下文场景易 OOM |
快速开始
安装
使用方式
使用mlx_lm 在终端直接生成文本,或通过 Python 脚本调用:
API 服务部署
如需将 MiniMax-M2.7 作为本地 API 服务(兼容 OpenAI SDK),可以使用 mlx_lm.server 或第三方工具如 LM Studio。mlx_lm.server
启动 OpenAI 兼容的 API 服务:mlx_lm.server 会自动将模型的思考过程(<think> 标签内容)分离到 reasoning 字段,content 仅包含最终回复:
LM Studio
LM Studio 提供了带有内置 MLX 支持的 Mac 桌面应用:- 下载并安装 LM Studio
- 在模型浏览器中搜索
MiniMax-M2.7 - 选择适合您内存的量化变体
- 点击 Load 即可开始对话
微调(LoRA)
mlx-lm 支持使用 LoRA / QLoRA 对模型进行参数高效微调(PEFT)。对于 MiniMax-M2.7 这种 MoE 模型,建议使用量化模型 + QLoRA 以降低内存需求。
安装训练依赖
准备训练数据
训练数据使用 JSONL 格式。在数据目录中创建train.jsonl、valid.jsonl 和(可选的)test.jsonl 文件。
对话格式(推荐):
启动微调
使用量化模型进行 QLoRA 微调,并启用内存优化选项:| 参数 | 建议值 | 说明 |
|---|---|---|
--batch-size | 1 | 大模型必须使用最小 batch size |
--num-layers | 4 | 仅微调少量层以节省内存 |
--grad-checkpoint | — | 用计算换内存,降低峰值占用 |
--iters | 600 | 根据数据量调整 |
使用微调后的模型
加载适配器生成文本:推荐参数
以下为 MiniMax-M2.7 的推荐参数,适用于所有推理框架:| 参数 | 推荐值 |
|---|---|
temperature | 1.0 |
top_p | 0.95 |
top_k | 40 |
相关链接
MiniMax-M2.7 Hugging Face
官方模型权重、文档和基准测试
MiniMax-M2.7 MLX 模型
MLX Community 上的全部量化变体
vLLM 官方文档
vLLM 官方文档和部署指南
SGLang 官方文档
SGLang 官方文档和部署指南