豆包语音之外,Mitts开源TTS聚合工具的实用指南
Mitts是什么?
Mitts(mitts.lss.lol)是一款**开源TTS聚合工具**,它整合了OpenAI TTS、ElevenLabs、豆包语音等主流模型,让创作者无需在多个平台间切换,即可快速生成高质量语音内容。无论是真人质感的粤语配音,还是情感丰富的英语旁白,都能通过Mitts一站式完成。
Mitts支持的主流TTS模型对比
| 模型名称 | 支持语言 | 声音类型 | 核心特色 |
|---|---|---|---|
| 豆包语音 | 中文(含粤语)、英语 | 自然口语化、方言精准 | 中文优化度高,适合本地化内容创作 |
| ElevenLabs | 英语、日语、法语等20+ | 情感丰富、真人质感强 | 支持自定义声音克隆,适合品牌专属配音 |
| OpenAI TTS | 多语言 | 流畅自然、节奏精准 | API集成便捷,适合批量生成内容 |
Mitts的特色功能清单
- 实时预览与参数调整:输入文本后可立即试听效果,支持语速(0.5-2.0x)、音调(±5)、音量(0-100)的精细化调节
- 多语言一键切换:覆盖粤语、英语、日语等热门语种,同一文本可快速生成不同语言版本
- 灵活导出格式:支持MP3、WAV等常见音频格式,满足短视频、播客等不同场景需求
- 开源免费:无需注册账号,直接在线使用,代码完全开放可二次开发
如何用Mitts生成粤语配音?
- 打开Mitts官网(https://mitts.lss.lol/),无需登录直接进入主界面
- 在左侧模型列表中勾选“豆包语音”,选择粤语对应的声音模型(如“粤语女声”)
- 在文本输入框中粘贴需要转换的粤语内容(例如:“呢个周末,我哋一齐去睇电影啦”)
- 调整参数:语速设为1.1x(接近真人说话节奏),音调+1(增加亲和力),音量保持90%
- 点击“Generate”按钮,等待1-2秒后即可试听效果,满意后点击“Download”导出MP3文件
Mitts的核心优势在于“聚合”与“便捷”——它把分散的TTS资源整合到一个平台,让创作者不用在多个工具间来回切换,节省了大量时间成本。对于需要频繁使用TTS的内容团队来说,这是一个不可多得的效率工具。
Mitts与单一TTS工具的差异
相比豆包语音这类单一模型工具,Mitts的最大不同在于它提供了“选择的自由”。当你需要生成情感丰富的英语配音时,可以用ElevenLabs;需要精准的粤语内容时,切换到豆包语音;而批量生成低成本内容时,Google TTS是不错的选择。这种“按需选择”的模式,能让每个场景都找到最优解。
此外,Mitts的实时预览功能也值得一提——传统TTS工具往往需要等待生成完成才能试听,而Mitts能在调整参数后立即反馈效果,让创作者可以快速迭代,找到最适合的声音风格。
对于开源爱好者来说,Mitts的代码仓库(GitHub)还提供了完整的部署指南,你可以把它部署到自己的服务器上,实现更个性化的功能定制,比如对接内部内容管理系统(CMS),自动生成文章配音。




