跳转到主要内容
POST
/
v1
/
t2a_async_v2
curl --request POST \ --url https://api.minimaxi.com/v1/t2a_async_v2 \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: <content-type>' \ --data ' { "model": "speech-2.6-hd", "text": "真正的危险不是计算机开始像人一样思考,而是人开始像计算机一样思考。计算机只是可以帮我们处理一些简单事务。", "language_boost": "auto", "voice_setting": { "voice_id": "audiobook_male_1", "speed": 1, "vol": 1, "pitch": 1 }, "pronunciation_dict": { "tone": [ "危险/dangerous" ] }, "audio_setting": { "audio_sample_rate": 32000, "bitrate": 128000, "format": "mp3", "channel": 2 }, "voice_modify": { "pitch": 0, "intensity": 0, "timbre": 0, "sound_effects": "spacious_echo" } } '
{
  "task_id": 95157322514444,
  "task_token": "eyJhbGciOiJSUz",
  "file_id": 95157322514444,
  "usage_characters": 101,
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}

返回文件信息

txt 文件

输出文件如下所示
  • 音频文件:文件格式遵从请求体设置
  • 字幕文件:精确到句的字幕信息
  • 额外信息 JSON 文件:音频文件相关的附加信息

json 文件

  • title,若该字段为空,则不输出该字段的文件
    • 音频文件:文件格式遵从请求体设置
    • 字幕文件:精确到句的字幕信息
    • 额外信息 JSON 文件:音频文件相关的附加信息
  • content,若该字段为空,则不输出该字段的文件
    • 音频文件:文件格式遵从请求体设置
    • 字幕文件:精确到句的字幕信息
    • 额外信息 JSON 文件:音频文件相关的附加信息
  • extra,若该字段为空,则不输出该字段的文件
    • 音频文件:文件格式遵从请求体设置
    • 字幕文件:精确到句的字幕信息
    • 额外信息 JSON 文件:音频文件相关的附加信息

授权

Authorization
string
header
必填

HTTP: Bearer Auth

  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 账户管理>接口密钥 中查看。

请求头

Content-Type
enum<string>
默认值:application/json
必填

请求体的媒介类型,请设置为 application/json,确保请求数据的格式为 JSON

可用选项:
application/json

请求体

application/json
model
enum<string>
必填

请求的模型版本,可选范围:speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo.

可用选项:
speech-2.8-hd,
speech-2.8-turbo,
speech-2.6-hd,
speech-2.6-turbo,
speech-02-hd,
speech-02-turbo,
speech-01-hd,
speech-01-turbo
text
string
必填

待合成音频的文本,限制最长 5 万字符。和 text_file_id 二选一必填

text_file_id
integer<int64>
必填

待合成音频的文本文件 待合成音频的文本文件 id,单个文件长度限制小于 10 万字符,支持的文件格式:txt、zip。和 text 二选一必填,传入后自动校验格式。

  • txt 文件:长度限制 <100,000 字符。支持使用 <#x#> 标记自定义停顿。x 为停顿时长(单位:秒),范围 [0.01,99.99],最多保留两位小数。注意停顿需设置在两个可以语音发音的文本之间,不可连续使用多个停顿标记
  • zip 文件
    • 压缩包内需包含同一格式的 txt 或 json 文件。
    • json 文件格式:支持 [title, content, extra] 三个字段,分别表示标题、正文、附加信息。若三个字段都存在,则产出 3 组结果,共 9 个文件,统一存放在一个文件夹中。若某字段不存在或内容为空,则该字段不会生成对应结果
voice_setting
object
必填
audio_setting
object
pronunciation_dict
object
language_boost
enum<string>

是否增强对指定的小语种和方言的识别能力。默认值为 null,可设置为 auto 让模型自主判断。

可用选项:
Chinese,
Chinese,Yue,
English,
Arabic,
Russian,
Spanish,
French,
Portuguese,
German,
Turkish,
Dutch,
Ukrainian,
Vietnamese,
Indonesian,
Japanese,
Italian,
Korean,
Thai,
Polish,
Romanian,
Greek,
Czech,
Finnish,
Hindi,
Bulgarian,
Danish,
Hebrew,
Malay,
Persian,
Slovak,
Swedish,
Croatian,
Filipino,
Hungarian,
Norwegian,
Slovenian,
Catalan,
Nynorsk,
Tamil,
Afrikaans,
auto
voice_modify
object

声音效果器设置

aigc_watermark
boolean
默认值:false

控制在合成音频的末尾添加音频节奏标识,默认值为 False。该参数仅对非流式合成生效

continuous_sound
boolean

是否启用连续发音模式,仅支持 speech-2.8-hdspeech-2.8-turbo 模型

响应

200 - application/json
task_id
string

当前任务的 ID

file_id
integer<int64>

任务创建成功后返回的对应音频文件的 ID。

  • 当任务完成后,可通过 file_id 调用 文件检索接口 进行下载
  • 当请求出错时,不返回该字段 注意:返回的下载 URL 自生成起 9 小时(32,400 秒)内有效,过期后文件将失效,生成的信息便会丢失,请注意下载信息的时间
task_token
string

完成当前任务使用的密钥信息

usage_characters
integer

计费字符数

base_resp
object

本次请求的状态码及其详情