# SummerTTS

**Repository Path**: zyz0577/SummerTTS

## Basic Information

- **Project Name**: SummerTTS
- **Description**: summerttssummerttssummerttssummerttssummertts
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 2
- **Created**: 2023-05-28
- **Last Updated**: 2023-08-24

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# SummerTTS 用于纪念2023年即将到来和终将逝去的夏天

# 说明
- SummerTTS 是一个独立编译的语音合成程序(TTS)。可以本地运行不需要网络，而且没有额外的依赖，一键编译完成即可用于中文语音合成。
- SummerTTS 的底层计算库使用Eigen，Eigen是一套模板定义的函数，大部分情况下，只需要包含头文件即可，所以本项目没有其他依赖，在C++环境下可以独立编译和运行。
- 本项目使用Eigen提供的矩阵库实现了神经网络的算子，不需要依赖例如pytorch，tensorflow, ncnn 等其他NN运行环境。
- 本项目在 Ubuntu 上编译运行通过，其他类Linux平台，如Android，树莓派等，也应该没啥大问题，在Window上没有测试过，可能需要少许改动。
- 本项目的模型基于语音合成算法 vits, 在其基础上进行了基于C++的工程化

# 更新日志
- 2023-5-23： 使用新的算法大幅度提升了单说话人的语音合成速度， 需要在下面的百度网盘中获取新的模型，使用 single_speaker_fast.bin， 语音合成的速度有了大幅度提升，注意之前的模型不能用在这个版本的代码中，下列模型也不能用于之前版本的代码。
  链接: https://pan.baidu.com/s/1yDtOfMHwslDgVNZ1d9_kgw?pwd=berp 提取码: berp

- 2023-4-21： 初始创建


# 使用说明
- 将本项目的代码克隆到本地，最好是Ubuntu Linux 环境
- 从以下的百度网盘地址下载模型，放入本项目的model目录中：
  链接: https://pan.baidu.com/s/1yDtOfMHwslDgVNZ1d9_kgw?pwd=berp 提取码: berp
    
  模型文件放入后，models目录结构如下：    
  models/  
  ├── multi_speakers.bin  
  └── single_speaker_fast.bin  
  

- 进入Build 目录，执行以下命令：  
  cmake ..  
  make  
- 编译完成后，会在Build 目录中生成 tts_test 执行程序  
- 运行下列命令，测试语音合成（TTS）：  
  ./tts_test ../test.txt ../models/single_speaker_fast.bin out.wav   

  该命令行中：  
  第一个参数为是文本文件的路径，该文件包含需要被合成语音的文本。  
  第二个参数是前面提到的模型的路径，文件名开头的single 和 multi 表示模型包含了单个说话人还是多个说话人。推荐单说话人模型：single_speaker_fast.bin, 合成的速度较快，合成的音质也还行。
  第三个参数是合成的音频文件，程序运行完之后生成该文件，可以用播放器打开。
    
- 以上的测试程序实现在 test/main.cpp 中，具体合成的接口定义在 include/SynthesizerTrn.h， 如下：  
  int16_t * infer(const string & line, int32_t sid, float lengthScale, int32_t & dataLen)  

  该接口的：  
  第一个参数是待合成的语音的字符串。  
  第二个参数指定说话人的id 用于合成语音，该参数对多说话人模型有效，对单说话人模型，固定为0。说话人的个数可由接口 int32_t getSpeakerNum() 返回，有效id 为 0 到 该接口返回的说话人数量减1。  
  第三个参数 lengthScale 表示合成语音的语速，其值越大表示语速越慢。  
- 待合成的文本中可以包含阿拉伯数字和标点，但因为本项目的 文本正则化(TN) 模块还很粗糙，仅仅是将阿拉伯数字转为对应的汉字语音，并将标点符号表示为停顿，对于英文字符，会直接忽略。也因为文本正则化(TN) 模块还很粗糙，对不同语境下的多音字发音有时候会不准确。

# 后续开发
- 后续将开放模型训练和转化脚本
- 后续也会对文本正则化(TN) 模块加强，使其更好的处理具体的数字的含义，例如日期，温度等。

# 联系作者
- 有进一步的问题或需要可以发邮件到 120365182@qq.com , 或添加微信: hwang_2011, 本人尽量回复。

# 感谢
本项目在源代码和算法方面使用了下列方案，在此表示感谢, 若可能引发任何法律问题，请及时联系我协调解决
- Eigen  
- vits (https://github.com/jaywalnut310/vits)  
- vits_chinese (https://github.com/UEhQZXI/vits_chinese)  
- 汉字转拼音（https://github.com/yangyangwithgnu/hanz2piny）
- 本项目的单说话人模型基于开源标贝数据集训练，多说话人模型基于开源数据集 aishell3 训练