本文档适用模型
本文档适用以下模型,只需在部署时修改模型名称即可。注意 Transformers 适用的模型仓库名称带有 hf 后缀! 与无 hf 后缀的模型相比,仅 config.json 文件存在差异,权重文件一致。以下以 MiniMax-M1-40k-hf 为例说明部署流程。环境准备
- Python:3.9+
请执行以下命令安装 Transformers、torch 及相关依赖。
使用 Python 运行
请确保已正确安装所需依赖,并将 CUDA 驱动配置好。 以下代码演示如何使用 Transformers 加载并运行 MiniMax-M1 模型:使用 Flash Attention 加速推理
Flash Attention 是一种高效的注意力机制实现,可以加速模型推理过程。需确保 GPU 支持 Flash Attention,部分老旧显卡可能不兼容。首先我们安装 flash_attn 包。获取支持
如果在部署 MiniMax 模型的过程中遇到任何问题,您可通过以下方式:- 通过官方邮箱 api@minimaxi.com 联系我们的技术支持团队
- 在我们的 GitHub 仓库提交 Issue