curl --request POST \
--url https://api.minimaxi.com/v1/t2a_async_v2 \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: <content-type>' \
--data '
{
"model": "speech-2.8-hd",
"text": "真正的危险不是计算机开始像人一样思考(sighs),而是人开始像计算机一样思考。计算机只是可以帮我们处理一些简单事务。",
"language_boost": "auto",
"voice_setting": {
"voice_id": "audiobook_male_1",
"speed": 1,
"vol": 1,
"pitch": 1
},
"pronunciation_dict": {
"tone": [
"危险/dangerous"
]
},
"audio_setting": {
"audio_sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 2
},
"voice_modify": {
"pitch": 0,
"intensity": 0,
"timbre": 0,
"sound_effects": "spacious_echo"
}
}
'{
"task_id": 95157322514444,
"task_token": "eyJhbGciOiJSUz",
"file_id": 95157322514444,
"usage_characters": 101,
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}异步长文本语音合成
创建异步语音合成任务
使用本接口,创建异步语音合成任务。
POST
/
v1
/
t2a_async_v2
curl --request POST \
--url https://api.minimaxi.com/v1/t2a_async_v2 \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: <content-type>' \
--data '
{
"model": "speech-2.8-hd",
"text": "真正的危险不是计算机开始像人一样思考(sighs),而是人开始像计算机一样思考。计算机只是可以帮我们处理一些简单事务。",
"language_boost": "auto",
"voice_setting": {
"voice_id": "audiobook_male_1",
"speed": 1,
"vol": 1,
"pitch": 1
},
"pronunciation_dict": {
"tone": [
"危险/dangerous"
]
},
"audio_setting": {
"audio_sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 2
},
"voice_modify": {
"pitch": 0,
"intensity": 0,
"timbre": 0,
"sound_effects": "spacious_echo"
}
}
'{
"task_id": 95157322514444,
"task_token": "eyJhbGciOiJSUz",
"file_id": 95157322514444,
"usage_characters": 101,
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}返回文件信息
txt 文件
输出文件如下所示- 音频文件:文件格式遵从请求体设置
- 字幕文件:精确到句的字幕信息
- 额外信息 JSON 文件:音频文件相关的附加信息
json 文件
-
title,若该字段为空,则不输出该字段的文件- 音频文件:文件格式遵从请求体设置
- 字幕文件:精确到句的字幕信息
- 额外信息 JSON 文件:音频文件相关的附加信息
-
content,若该字段为空,则不输出该字段的文件- 音频文件:文件格式遵从请求体设置
- 字幕文件:精确到句的字幕信息
- 额外信息 JSON 文件:音频文件相关的附加信息
-
extra,若该字段为空,则不输出该字段的文件- 音频文件:文件格式遵从请求体设置
- 字幕文件:精确到句的字幕信息
- 额外信息 JSON 文件:音频文件相关的附加信息
授权
请求头
请求体的媒介类型,请设置为 application/json,确保请求数据的格式为 JSON
可用选项:
application/json 请求体
application/json
请求的模型版本,可选范围:speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo.
可用选项:
speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 待合成音频的文本,限制最长 5 万字符。和 text_file_id 二选一必填
- 语气词标签:仅当模型选择
speech-2.8-hd或speech-2.8-turbo时,支持在文本中插入语气词标签。支持的语气词:(laughs)(笑声)、(chuckle)(轻笑)、(coughs)(咳嗽)、(clear-throat)(清嗓子)、(groans)(呻吟)、(breath)(正常换气)、(pant)(喘气)、(inhale)(吸气)、(exhale)(呼气)、(gasps)(倒吸气)、(sniffs)(吸鼻子)、(sighs)(叹气)、(snorts)(喷鼻息)、(burps)(打嗝)、(lip-smacking)(咂嘴)、(humming)(哼唱)、(hissing)(嘶嘶声)、(emm)(嗯)、(whistles)(口哨)、(sneezes)(喷嚏)、(crying)(抽泣)、(applause)(鼓掌)
待合成音频的文本文件 待合成音频的文本文件 id,单个文件长度限制小于 100 万字符,支持的文件格式:txt、zip。和 text 二选一必填,传入后自动校验格式。
- txt 文件:长度限制 <1,000,000 字符。支持使用 <#x#> 标记自定义停顿。x 为停顿时长(单位:秒),范围 [0.01,99.99],最多保留两位小数。注意停顿需设置在两个可以语音发音的文本之间,不可连续使用多个停顿标记
- zip 文件:
- 压缩包内需包含同一格式的 txt 或 json 文件。
- json 文件格式:支持 [
title,content,extra] 三个字段,分别表示标题、正文、附加信息。若三个字段都存在,则产出 3 组结果,共 9 个文件,统一存放在一个文件夹中。若某字段不存在或内容为空,则该字段不会生成对应结果
Show child attributes
Show child attributes
Show child attributes
Show child attributes
Show child attributes
Show child attributes
是否增强对指定的小语种和方言的识别能力。默认值为 null,可设置为 auto 让模型自主判断。
注意:speech-01 和 speech-02 系列模型暂不支持 Persian、Filipino、Tamil 这三个语种。
可用选项:
Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto 声音效果器设置。
支持的音频格式:mp3、wav、flac。(其他格式如 pcm、pcmu_raw、pcmu_wav、opus 不支持,传入会返回参数错误。)
Show child attributes
Show child attributes
控制在合成音频的末尾添加音频节奏标识,默认值为 False。该参数仅对非流式合成生效
响应
200 - application/json
此页面对您有帮助吗?
⌘I