跳转到主要内容

文本生成

文本生成接口使用 MiniMax M2.1MiniMax M2.1 lightningMiniMax M2 根据输入的上下文,让模型生成对话内容、工具调用。 可通过 HTTP 请求、Anthropic SDK(推荐) 或 OpenAI SDK 接入。

支持模型

模型名称输入输出总 token模型介绍
MiniMax-M2.1204800强大多语言编程能力,全面升级编程体验 (输出速度约60tps)
MiniMax-M2.1-lightning204800M2.1 极速版:效果不变,更快,更敏捷 (输出速度约100tps)
MiniMax-M2204800专为高效编码与Agent工作流而生
如果在使用模型过程中遇到任何问题:
  • 通过邮箱 [email protected] 等官方渠道联系我们的技术支持团队
  • 在我们的 Github 仓库提交Issue

同步语音合成(T2A)

本接口支持基于文本到语音的同步生成,单次可处理最长 10,000 字符 的文本。 接口本身为无状态接口,即单次调用时,模型仅处理单次传入内容,不涉及业务逻辑,同时模型也不存储您传入的数据。 该接口支持以下功能:
  1. 支持 300+ 系统音色、复刻音色自主选择;
  2. 支持音量、语调、语速、输出格式调整;
  3. 支持按比例混音功能;
  4. 支持固定间隔时间控制;
  5. 支持多种音频规格、格式,包括:mp3, pcm, flac, wav。注:wav 仅在非流式输出下支持
  6. 支持流式输出。

支持模型

以下为 MiniMax 提供的语音模型及其特性说明。
模型特性
speech-2.6-hd最新的 HD 模型,韵律表现出色,极致音质与韵律表现,生成更快更自然
speech-2.6-turbo最新的 Turbo 模型,音质优异,超低时延,响应更灵敏
speech-02-hd拥有出色的韵律、稳定性和复刻相似度,音质表现突出
speech-02-turbo拥有出色的韵律和稳定性,小语种能力加强,性能表现出色

接口说明

同步语音合成功能,共包含 2 个接口,可根据需求,选择使用。
  • HTTP 同步语音合成
  • WebSocket 同步语音合成

支持语言

MiniMax 的语音合成模型具备卓越的跨语言能力,全面支持 40 种全球广泛使用的语言。我们致力于打破语言壁垒,构建真正意义上的全球通用人工智能模型。 目前支持的语言包含:
支持语种
1. 中文(Chinese)15. 土耳其语(Turkish)28. 马来语(Malay)
2. 粤语(Cantonese)16. 荷兰语(Dutch)29. 波斯语(Persian)
3. 英语(English)17. 乌克兰语(Ukrainian)30. 斯洛伐克语(Slovak)
4. 西班牙语(Spanish)18. 泰语(Thai)31. 瑞典语(Swedish)
5. 法语(French)19. 波兰语(Polish)32. 克罗地亚语(Croatian)
6. 俄语(Russian)20. 罗马尼亚语(Romanian)33. 菲律宾语(Filipino)
7. 德语(German)21. 希腊语(Greek)34. 匈牙利语(Hungarian)
8. 葡萄牙语(Portuguese)22. 捷克语(Czech)35. 挪威语(Norwegian)
9. 阿拉伯语(Arabic)23. 芬兰语(Finnish)36. 斯洛文尼亚语(Slovenian)
10. 意大利语(Italian)24. 印地语(Hindi)37. 加泰罗尼亚语(Catalan)
11. 日语(Japanese)25. 保加利亚语(Bulgarian)38. 尼诺斯克语(Nynorsk)
12. 韩语(Korean)26. 丹麦语(Danish)39. 泰米尔语(Tamil)
13. 印尼语(Indonesian)27. 希伯来语(Hebrew)40. 阿非利卡语(Afrikaans)
14. 越南语(Vietnamese)

异步长文本语音生成(T2A Async)

该 API 支持基于文本到语音的异步生成,单次文本生成传输最大支持 100 万字符,生成的完整音频结果支持异步的方式进行检索。 该接口支持以下功能:
  1. 支持 100+系统音色、复刻音色自主选择;
  2. 支持语调、语速、音量、比特率、采样率、输出格式自主调整;
  3. 支持音频时长、音频大小等返回参数;
  4. 支持时间戳(字幕)返回,精确到句;
  5. 支持直接传入字符串与上传文本文件 file_id 两种方式进行待合成文本的输入;
  6. 支持非法字符检测:非法字符不超过 10%(包含 10%),音频会正常生成并返回非法字符占比;非法字符超过 10%,接口不返回结果(返回报错码),请检测后再次进行请求【非法字符定义:ascii 码中的控制符(不含制表符和换行符)】。
提交长文本语音合成请求后,会生成 file_id,生成任务完成后,可通过 file_id 使用文件检索接口进行下载。 ⚠️ 注意:返回的 url 的有效期为:自 url 返回开始的 9 个小时(即 32400 秒),超过有效期后 url 便会失效,生成的信息便会丢失,请注意下载信息的时间。 适用场景:整本书籍等长文本的语音生成。

支持模型

以下为 MiniMax 提供的语音模型及其特性说明。
模型特性
speech-2.6-hd最新的 HD 模型,韵律表现出色,极致音质与韵律表现,生成更快更自然
speech-2.6-turbo最新的 Turbo 模型,音质优异,超低时延,响应更灵敏
speech-02-hd拥有出色的韵律、稳定性和复刻相似度,音质表现突出
speech-02-turbo拥有出色的韵律和稳定性,小语种能力加强,性能表现出色

接口说明

整体包含 2 个 API:创建语音生成任务查询语音生成任务状态。使用步骤如下:
  1. 创建语音生成任务得到 task_id(如果选择以 file_id 的形式传入待合成文本,需要前置使用 File(Upload)接口进行文件上传);
  2. 基于 taskid 查询语音生成任务状态;
  3. 如果发现任务生成成功,那么可以使用本接口返回的 file_id 通过 File API 进行结果查看和下载。

音色快速复刻(Voice Cloning)

本接口支持基于用户上传需要复刻音频的音频,以及示例音频,进行音色的复刻。 使用本接口需要完成个人认证及企业认证用户后,方可调用。 请在 账户管理 -> 账户信息 中,完成个人用户认证或企业用户认证,以确保可以正常使用本功能。 本接口适用场景:IP 音色复刻、音色克隆等需要快速复刻某一音色的相关场景。 本接口支持单、双声道复刻声音,支持按照指定音频文件快速复刻相同音色的语音。

支持模型

以下为 MiniMax 提供的语音模型及其特性说明。
模型特性
speech-2.6-hd最新的 HD 模型,韵律表现出色,极致音质与韵律表现,生成更快更自然
speech-2.6-turbo最新的 Turbo 模型,音质优异,超低时延,响应更灵敏
speech-02-hd拥有出色的韵律、稳定性和复刻相似度,音质表现突出
speech-02-turbo拥有出色的韵律和稳定性,小语种能力加强,性能表现出色

接口说明

  1. 上传待克隆音频 调用 上传复刻音频 上传待克隆的音频文件并获取 file_id
  2. 上传示例音频 (可选) 若需要提供示例音频以增强克隆效果,需要再次调用 上传示例音频 上传示例音频文件并获得对应的 file_id。填写在clone_prompt中的prompt_audio中。
  3. 调用复刻接口 基于获取的 file_id 和自定义的 voice_id 作为输入参数,调用 快速复刻 克隆音色。
⚠️ 注意:
  • 调用本接口进行音色克隆时,不会立即收取音色复刻费用。音色的复刻费用将在首次使用此复刻音色进行语音合成时收取(不包含本接口内的试听行为)。
  • 本接口产出的快速复刻音色为临时音色,若希望永久保留某复刻音色,请于 168 小时(7 天)内在任意 T2A 语音合成接口中调用该音色(不包含本接口内的试听行为)。若超过时限,该音色将被删除。
  • 接口采用无状态设计:每次调用仅处理传入数据,且不存储用户上传内容,不涉及任何业务逻辑状态。

音色设计(Voice Design)

该 API 支持基于用户输入的声音描述 prompt,生成个性化定制音色。 本接口支持使用生成的音色(voice_id)在同步语音合成接口异步长文本语音合成接口中进行语音生成

支持模型

推荐使用 speech-02-hd 以获得最佳效果
模型特性
speech-2.6-hd最新的 HD 模型,韵律表现出色,极致音质与韵律表现,生成更快更自然
speech-2.6-turbo最新的 Turbo 模型,音质优异,超低时延,响应更灵敏
speech-02-hd拥有出色的韵律、稳定性和复刻相似度,音质表现突出
speech-02-turbo拥有出色的韵律和稳定性,小语种能力加强,性能表现出色

注意事项

  • 调用本接口获得音色时,不会立即收取生成音色的费用,生成音色的费用将在首次使用此音色进行语音合成时收取(不包含本接口内的试听行为)。
  • 本接口产出的音色为临时音色,如您希望永久保留某音色,请于 168 小时(7 天)内在任意语音合成接口中调用该音色(不包含本接口内的试听行为),超过有效期未被使用的音色将自动删除。

音色设计接口

基于描述生成个性化音色

视频生成(Video Generation)

本接口支持基于用户提供的文本、图片(包括首帧、尾帧、主体参考图)进行视频生成。

支持模型

模型功能
MiniMax-Hailuo-2.3全新视频生成模型,肢体动作、物理表现与指令遵循能力全面升级
MiniMax-Hailuo-2.3-Fast图生视频模型,生成速度大幅提升,以更高性价比兼顾画质与表现力
MiniMax-Hailuo-02新一代视频生成模型,支持更高分辨率 (1080P) 和更长时长 (10s),指令遵循能力更强

接口说明

视频生成采用异步方式,整体包含 3 个 API:创建视频生成任务查询视频生成任务状态文件管理。使用步骤如下:
  1. 使用创建视频生成任务接口,创建视频生成任务,成功创建后会返回一个 task_id
  2. 使用查询视频生成任务状态接口,基于返回的 task_id 查询视频生成任务状态;当状态为成功时,将获得对应的文件 ID(file_id);
  3. 使用文件管理接口,基于步骤 2 查询接口返回的 file_id 进行视频生成结果的查看和下载。

视频生成Agent

本接口支持基于用户选择的不同视频 Agent 模板和输入来进行视频生成任务。

接口说明

视频 Agent 接口采用异步方式,整体包含 2 个 API:创建视频 Agent 任务查询视频 Agent 任务状态。使用步骤如下:
  1. 使用创建视频 Agent 任务接口,创建视频 Agent 任务,并得到 task_id;
  2. 使用查询视频 Agent 任务状态接口,基于 task_id 查询视频 Agent 任务状态;当状态为成功时,将获得对应的文件下载地址。

模板清单

详细信息可以参考 视频 Agent 模板列表,查阅模板内容及示例效果。
模板 ID模板名称模板说明media_inputstext_inputs
392753057216684038跳水上传你的图片,生成图中主体完成完美跳水动作的视频需要/
393881433990066176吊环上传宠物照片,生成图中主体完成完美吊环动作的视频需要/
393769180141805569绝地求生上传宠物图片并输入野兽种类,生成宠物野外绝地求生视频需要需要
394246956137422856万物皆可 labubu上传人物/宠物照片,生成 labubu 换脸视频需要/
393879757702918151麦当劳宠物外卖员上传爱宠照片,生成麦当劳宠物外卖员视频需要/
393766210733957121藏族风写真上传面部参考图,生成藏族风视频写真需要/
394125185182695432生无可恋输入各类主角痛苦做某事,一键生成角色痛苦生活的小动画/需要
393857704283172864情书写真上传照片生成冬日雪景写真需要/
393866076583718914女模特试穿广告上传服装图片,生成女模特试穿广告需要/
398574688191234048四季写真上传人脸照片生成四季写真需要/
393876118804459526男模特试穿广告上传服装图片,生成男模特试穿广告需要/

图像生成(Image Generation)

本接口支持基于用户提供的文本或参考图片,进行创意图像生成。支持设置不同图片比例和长宽像素设置,满足不同场景下图像需求。

接口说明

通过创建图片生成任务接口,使用文本描述和参考图片,进行图像生成。

模型列表

模型名称简介
image-01图像生成模型,画面表现细腻,支持文生图、图生图(人物主体参考)
image-01-live图像生成模型,在 image-01 基础上额外支持多种画风设置

音乐生成 (Music Generation)

本接口根据歌曲描述(prompt)和歌词(lyrics),生成一首人声的歌曲。

支持模型

模型名称使用方法
music-2.0最新音乐生成模型,支持用户输入音乐灵感和歌词,生成 AI 音乐

音乐生成接口

根据描述和歌词生成音乐

文件管理 (File)

本接口是作为文件管理接口,配合 MiniMax 开放平台的其他接口使用。

接口说明

本接口是作为文件管理接口,配合其他接口使用。共包含 5 个接口:上传列出检索下载删除

文件支持格式

类型格式
文档pdfdocxtxtjsonl
音频mp3m4awav

容量及限制

限制内容限制大小
总容量100GB
单个文档容量512MB

官方 MCP

MiniMax 提供官方的 Python 版本JavaScript 版本 模型上下文协议(MCP)服务器实现代码,支持语音合成、音色克隆、视频生成、音乐生成等功能,详细说明请参考 MiniMax MCP 使用指南

语音调试台