声音的未来：Chatterbox —— 用「夸张度旋钮」提升表现力的开源 TTS 向导

于 2025-09-04 发表条评论次阅读

收录于 AI

在开源 TTS（文本转语音）界，情感控制一直是科研与实际应用追求的目标。然而，当 Resemble AI 提出的 Chatterbox 宣称自己是「第一个支持情感夸张控制的开源 TTS 模型」时，我们该如何审视这项说法的准确性，又该如何展现它真正的创新所在？

实际上，在 Chatterbox 之前，已有多个开源项目在“情感控制”层面做出了重要探索：

通过在三维情感空间（arousal, valence, dominance）基础上引入“球面情感向量”，支持连续的 情绪风格 + 强度控制，精细度和自然表现力都值得称道。GitHub arXiv

二、Chatterbox 的真正卖点：更直观、更生产力

Chatterbox 将复杂的情绪表现提取为一个用户可调节的单参数滑块，从「冷静」到「夸张」，让用户更容易定制。（官网与 README 均强调该功能）GitHub chatterbox.run

虽然官方是在 Debain 11系统下进行测试，但 windows系统下也是可以把玩的，唯一不足的便是，目前 chatterbox 只支持英语。

按官方的要求，python 版本得在 3.11 及以上，然而我的电脑已经装有 python3.10.9 了，故而，索性就选用它了。

我使用的是 python 3自带的虚拟模块，来搭建 python 的虚拟环境。

随后，将 chatterbox 推理代码 clone 下来。

git clone https://github.com/resemble-ai/chatterbox.git

之后，使用以下命令安装项目的所需依赖。

pip install -e .

当依赖安装完成后，运行项目根路径下的 example_tts.py 文件。

首次，会先下载模型。（会从 hugging face 网站上下载，所以得确保网络）

前面安装的依赖环境是 cpu，也就是说 chatterbox可以在 CPU环境下运行。