快速开始
1. 安装 OpenAI SDK
2. 配置环境变量
3. 调用 API
Python
4. 特别注意
在多轮 Function Call 对话中,必须将完整的模型返回(即 assistant 消息)添加到对话历史,以保持思维链的连续性:- 将完整的
response_message对象(包含tool_calls字段)添加到消息历史- 原生的OpenAI API 的
MiniMax-M3MiniMax-M2.7MiniMax-M2.7-highspeedMiniMax-M2.5MiniMax-M2.5-highspeedMiniMax-M2.1MiniMax-M2.1-highspeedMiniMax-M2模型content字段会包含<think>标签内容,需要完整保留 - 在 Interleaved Thinking 友好格式中,通过启用额外的参数(
reasoning_split=True),模型思考内容通过reasoning_details字段单独提供,同样需要完整保留
- 原生的OpenAI API 的
支持的模型
使用 OpenAI SDK 时,支持以下 MiniMax 模型:| 模型名称 | 上下文窗口 | 模型介绍 |
|---|---|---|
| MiniMax-M3 | 1,000,000 | 最新 M 系列语言模型,适用于 Agent 推理、工具调用、代码和长上下文任务 |
| MiniMax-M2.7 | 204,800 | 开启模型的自我迭代(输出速度约 60 TPS) |
| MiniMax-M2.7-highspeed | 204,800 | M2.7 极速版:效果不变,更快,更敏捷(输出速度约 100 TPS) |
| MiniMax-M2.5 | 204,800 | 顶尖性能与极致性价比,轻松驾驭复杂任务(输出速度约 60 TPS) |
| MiniMax-M2.5-highspeed | 204,800 | M2.5 极速版:效果不变,更快,更敏捷(输出速度约 100 TPS) |
| MiniMax-M2.1 | 204,800 | 强大多语言编程能力,全面升级编程体验(输出速度约 60 TPS) |
| MiniMax-M2.1-highspeed | 204,800 | M2.1 极速版:效果不变,更快,更敏捷(输出速度约 100 TPS) |
| MiniMax-M2 | 204,800 | 专为高效编码与 Agent 工作流而生 |
TPS(Tokens Per Second)的计算方式详见常见问题 > 接口相关。
更多模型信息请参考标准的 MiniMax API 接口文档。
多模态输入
OpenAI API 兼容的 Chat Completions 支持在MiniMax-M3 中输入文本、图片和视频。
图片使用 image_url 内容块,视频使用 video_url 内容块。detail 字段可取 low、default、high,默认值为 default;可通过 max_long_side_pixel 控制最长边。图片支持 JPEG、PNG、GIF、WEBP。视频支持 MP4、AVI、MOV、MKV;fps 默认值为 1,支持 0.2 到 5。URL 或 base64 视频最大 50 MB,图片最大 10 MB,请求体最大 64 MB。更大的视频请通过 Files API 上传后传入 mm_file://{file_id},Files API 视频最大 512 MB。
图片 token 用量会随图片尺寸和内容变化。以下是单张图片的粗略估算;准确用量以响应中的 usage 或可用的 token 计数接口为准:
detail | 单张图片粗略 token 用量 |
|---|---|
low | 通常为几百 token,最高约 600 |
default | 通常约 1k-3k token,最高约 5k |
high | 通常为数千 token,最高约 15k+ |
Python
MiniMax-M3 请求参数
MiniMax-M3 在 OpenAI API 兼容接口中支持以下额外的 Chat Completions 参数:
| 参数 | 说明 |
|---|---|
thinking | 控制 MiniMax-M3 thinking。type 可取 disabled 或 adaptive;省略时默认开启 thinking。对于 M2.x 模型,thinking 无法关闭。 |
stream_options.include_usage | 流式调用时,设为 true 可在流中返回 token 用量。 |
max_tokens | 旧版生成长度限制参数。 |
max_completion_tokens | 生成长度限制参数,新接入建议使用此字段。 |
temperature | 采样温度。范围 [0, 2],默认值 1。 |
top_p | 核采样参数。范围 [0, 1],MiniMax-M3 默认值 0.95,M2.x 系列默认值 0.9。 |
tools | 函数工具定义。 |
reasoning_split | 输出格式开关。启用后将 thinking 内容拆分到 reasoning_content 和 reasoning_details。 |
Thinking 控制
对于MiniMax-M3,thinking 参数用于控制模型是否可以输出 thinking 内容。
- 如果省略
thinking,默认开启 thinking,响应会包含 thinking 内容。 - 设置
thinking: {"type": "adaptive"}可显式保持 thinking 开启。对于 MiniMax-M3,adaptive等同于开启 thinking。 - 设置
thinking: {"type": "disabled"}可跳过 thinking 并直接回答。 - 对于 M2.x 模型,thinking 无法关闭;即使传入
thinking: {"type": "disabled"},thinking 仍会保持开启。
reasoning_split 不会开启或关闭 thinking。它只控制 thinking 内容的返回方式:为 true 时,thinking 会通过 reasoning_content 和 reasoning_details 返回;为 false 时,原生 Chat Completions 响应会将 thinking 保留在 content 字段中的 <think>...</think> 标签内。
Python
示例代码
流式响应
Python
Tool Use & Interleaved Thinking
了解如何通过 OpenAI SDK 使用 M3 Tool Use 和 Interleaved Thinking 能力,请参考以下文档。Tool Use & Interleaved Thinking
了解如何利用 MiniMax-M3 工具调用和 Interleaved Thinking 能力,提升复杂任务中的表现。
注意事项
如果在使用MiniMax模型过程中遇到任何问题:- 通过邮箱 Model@minimaxi.com 等官方渠道联系我们的技术支持团队
- 在我们的 Github 仓库提交Issue