目录

写在前面

一、使用ChatTTS

二、优点

三、局限


写在前面

        最像人声的AI来了!语音开源天花板ChatTTS火速出圈,3天就斩获9k个star。截至发稿前,已经25.9k个star了。这是专门为对话场景设计的语音生成模型,用于LLM助手对话任务、对话语音、视频介绍等,仅支持中英文。硬件要求低,甚至不需要GPU,一台普通PC就能运行。

        主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。开源的版本是4 万小时基础模型。

        项目地址:https://github.com/jianchang512/ChatTTS-ui,这是原项目ChatTTS的地址,不用下,我们要使用的是ChatTTS-ui,是给ChatTTS增加了UI,并打好了包,开包即用。

一、使用ChatTTS

        废话不多少,先玩起来。

        1.下载ChatTTS-ui:https://github.com/jianchang512/chatTTS-ui/releases

        2.解压缩并运行app.exe

        3.等一会会自动打开默认浏览器,就可以开始生成音频啦!!

                       

        使用也很简单,输入文字点击立即合成,等待一会下方就会出现结果,下面介绍一下参数:

        (1)文本:如果哪里断句不好,可以加一个[break_1];如果想调整口语程度可以加[oral_0],数字越大,越口语化;如果想加笑声可以加[laugh_1],但经我测试,加了laugh废话变多了。

        (2)选择音色:一共10000个音色,每个音色有一个csv的特征文件,这里下载全部10000个音色。

        (3)音色值:如果懒得下载10000个音色文件,也可以在这里输入1-10000的数字,值得注意的是,一旦这里输入,前面的csv就没用了。音色试听在这里

        (4)text seed:扩散模型嘛,肯定要有一个控制噪声的随机种子。

        (5)Prompt:现在支持三个值,是全局的,oral控制口语程度数字越大,越口语化,例如[oral_0]就接近朗读的口气;langh会使说话过程中插入笑声,经我测试数越大,与文本无关的废话越多;break控制断句,数越大,断句越干脆。

        (6)跳过refine text:如果正文中加入了[uv_break]二效果不好,可以勾上试试。

        (7)infer token:推理最大token数,默认就行。

        (8)refine token:预处理的时候,会对文本进行优化,使之更适合口语,这个是调整的token数量,也不用动。

        (9)语速:数越大,语速越快,但是变化并不是太明显。

          (10)temperature:数越大语气、音色、声调等随机性越大。

        (11)top_p:控制生成多样性的参数,数越小,多样性越强。比如0.3,那下一个预测token的概率只要大于0.3就有可能被选中,当然也要配合下面的top_k使用。

        (12)top_k:同样控制生成多样性的参数,数越大,多样性越强。比如9,那下一个预测token的会选前9个概率最大的,当然也要配合上面的top_p使用。

二、优点

        1.ChatTTS针对基于对话的任务进行了优化,实现了自然而富有表现力的语音合成,很接近人声。

        2.模型可以加入韵律特征,包括笑声、停顿和叹词。

        3.硬件要求低,虽然是扩散模型,但是在CPU上也能流畅使用

三、局限

        1.音色文件的提取方式作者没有开源,所以现在不能定制自己的声音。

        2.使用扩散模型,仍然需要抽卡,尤其对于长文本,不好控制,商用会有问题。

        ChatTTS的使用就简单介绍到这里,关注不迷路(*^▽^*)

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐