本地化部署AI语音克隆模型

Spark-TTS 是一种先进的文本转语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成。它的设计高效、灵活、强大，适用于研究和生产用途。

github

SparkAudio/Spark-TTS: Spark-TTS Inference Code

安装

1 2	`git clone https://github.com/SparkAudio/Spark-TTS.git cd Spark-TTS`

创建虚拟环境并安装依赖

1
2
3

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

下载模型

大约4G左右，需要持续一段时间。

1
2
3

mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

使用

启动命令python webui.py --device 0 表示启动webui，并使用第一个GPU设备。

如果出现下面的报错信息，那么就是gradio版本太高了，降低版本pip install "gradio<4"就能解决。

D:\anaconda3\envs\sparktts\Lib\site-packages\torch\nn\utils\weight_norm.py:143: FutureWarning: `torch.nn.utils.weight_norm` is deprecated in favor of `torch.nn.utils.parametrizations.weight_norm`.
  WeightNorm.apply(module, name, dim)
Missing tensor: mel_transformer.spectrogram.window
Missing tensor: mel_transformer.mel_scale.fb
信息: 用提供的模式无法找到文件。
* Running on local URL:  http://0.0.0.0:7860
ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "D:\anaconda3\envs\sparktts\Lib\site-packages\uvicorn\protocols\http\h11_impl.py", line 403, in run_asgi
.......
  File "D:\anaconda3\envs\sparktts\Lib\site-packages\gradio_client\utils.py", line 898, in get_type
    if "const" in schema:
       ^^^^^^^^^^^^^^^^^
TypeError: argument of type 'bool' is not iterable

参考

Spark-TTS [https://sparkaudio.github.io/spark-tts]

#AI #本地部署 #克隆语音

本地化部署AI语音克隆模型

https://oujun.work/2025/11/10/ai-spark-tts.html

作者

欧俊

发布于

2025年11月11日

许可协议

在Docker中打造一个旁路网关上一篇

组织机构的实体设计与时态表的应用下一篇