跳转到主要内容
M
Meepo
2026年1月25日
Download from GitHub AI 播客生成方案通过集成 MiniMax 多模态模型,实现从用户输入需求到播客成品的全流程自动化 👉 在线体验

文本生成

播客脚本

语音合成

TTS 音频

语音克隆

自定义音色

文生图

播客封面

效果演示

前端界面执行结果

核心特点

支持话题文本、URL、PDF 三种方式输入,基于 BeautifulSoup 和 PyPDF2 进行网页和 PDF 的解析,提取文本内容作为 LLM 生成播客内容的依据。
提供多种音色选择方案:使用预设的默认音色、输入 voice_id 选取自定义音色,或直接上传音频来复刻说话者的音色。
支持两个播音员角色,先分别生成各自的语句音频,再用 FFmpeg 将音频智能合并,形成自然的对话节奏。
先用文本模型基于播客内容生成封面图制作的 prompt,再用该 prompt 生成精美的播客封面图。

快速上手

1

克隆仓库

git clone -b main https://github.com/MiniMax-OpenPlatform/minimax_aipodcast.git
cd minimax_aipodcast
2

安装依赖

安装 FFmpeg(用于音频处理):
brew install ffmpeg
安装项目依赖
pip install -r requirements.txt
cd frontend && npm install
3

一键启动

chmod +x start.sh  # 初次使用时执行
./start.sh

核心 API 详解

使用 MiniMax 文本模型生成播客内容脚本。
from openai import OpenAI

client = OpenAI(api_key=YOUR_API_KEY, base_url="https://api.minimaxi.com/v1")

response = client.chat.completions.create(
    model="MiniMax-M2.1",
    messages=[
        {"role": "system", "content": "你是一个专业的播客脚本编写助手。"},
        {"role": "user", "content": "<Your_Prompt>"}
    ]
)

script = response.choices[0].message.content

实用技巧

场景建议
音色试听使用 语音调试台 试听并选择音色
模型选择speech-2.6-hd 自然度最高;speech-2.6-turbo 生成速度快
语音克隆上传音频时长建议 15 秒左右,效果更佳

应用拓展

多角色播客

支持多角色灵活对话,无固定发言顺序

实时信息增强

加入搜索能力,提供最新消息

多语言播客

接入翻译能力,生成多语言版本

情感控制

利用情感参数,丰富表现力

总结

本教程展示了如何使用 MiniMax 多模态 AI 能力构建完整的 AI 播客生成应用。通过集成文本生成、TTS 语音合成、语音克隆、文生图四大核心能力,实现了从用户输入到播客成品的全流程自动化。 开发者可以基于本项目的架构思路,将 AI 能力组合成更多创新应用。

相关资源