如何轻松实现AI技术，快速克隆你的独特声音-58码农网

使用AI克隆自己的声音通常需要以下几个步骤：
1. "采集声音样本"： - 首先，你需要录制一段清晰、标准的声音样本。这个样本最好是你希望AI模仿的原始声音，可以是说话、唱歌或者任何你想要克隆的声音。
2. "选择合适的AI克隆工具"： - 目前市面上有多种AI声音克隆工具，如Google的Voicetone、IBM的Watson Text to Speech等。选择一个适合你需求的平台。
3. "上传声音样本"： - 在选定的平台上，按照提示上传你的声音样本。这些平台通常会有详细的指导说明，告诉你如何上传和处理音频文件。
4. "调整参数"： - 根据平台提供的选项，调整声音的音调、语速、音色等参数，以匹配你的原始声音。
5. "训练AI模型"： - 大多数平台都需要你训练AI模型以学习你的声音特征。这可能需要你多次上传声音样本，让AI更好地理解你的声音。
6. "测试和优化"： - 在模型训练完成后，使用AI生成的声音进行测试。如果效果不满意，可以返回调整参数或重新上传声音样本进行训练。
7. "应用克隆声音"： - 一旦你对自己的克隆声音满意，就可以将其应用于各种场合，如语音合成、语音助手、配音等。
以下是一些具体步骤的示例：
### 使用Google的Voicetone克隆声音

相关内容：

随着短视频的兴起，视频配音必不可少，如果你想自己给视频配音，除了需要标准的发音，还需要一定的录音设备。有没有能够自动生成，但又是自己的声音的方法？今天介绍的GPT-SoVITS工具就能实现这个功能。

一、GPT-SoVITS介绍

GPT-SoVITS是一款是花儿不哭大佬研发的低成本AI音色克隆软件。主要实现TTS（文字转语音）功能

TTS是一种文字转语音的语音合成技术。类似的还有SVC（歌声转换）、SVS（歌声合成）等。目前GPT-SoVITS只有TTS功能，也就是不能唱歌。

GPT-SoVITS-V1实现了：

（1）由参考音频的情感、音色、语速控制合成音频的情感、音色、语速

（2）可以少量语音微调训练，也可不训练直接推理

（3）可以跨语种生成，即参考音频（训练集）和推理文本的语种为不同语种

GPT-SoVITS-V2新增特点：

（1）对低音质参考音频合成出来音质更好

（2）底模训练集增加到5k小时，zero shot性能更好音色更像，所需数据集更少

（3）增加韩粤两种语言，中日英韩粤5个语种均可跨语种合成

（4）更好的文本前端：持续迭代更新。V2中英文加入多音字优化。

详细的内容可以参考说明文档：GPT-SoVITS指南 · 语雀：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

二、通过网络服务器快速部署GPT-SoVITS

和大部分的AI模型一样，GPT-SoVITS对内存，显卡等要求都比较高，对于预算有限，但是又想体验GPT-SoVITS的小伙伴，采用网络服务器部署是一个不错的办法。

（一）星海智算服务器租用

网络上很多的服务器都可以租用，之所以选择星海智算，是因为他贴心的提供了Windows版本的GPT-SoVITS镜像。

1.注册

首先点击链接注册星海智算-GPU算力云平台：https://gpu.spacehpc.com/user/register?inviteCode=49071423，记得填上码49071423，充值满6元后送10元。

2.创建实例

平台提供了多个版本的GPT-SoVITS镜像，只需要几步就可以实现GPT-SoVITS搭建。在①控制台选择GPU实例，②点击创建实例；

③选择配置，建议选择4090D/24G,④点击镜像市场，⑤点击更换；

⑥输入GPT-SoVITS后回车，⑦选择GPT-SoVITS-win，⑧点击确认。

⑨点击立即创建即可，完成创建，平台会创建实例。创建实例需要稍微等待一段时间。

（二）运行与登录服务器

1.服务器远程登录

启动服务器后如下图所示：

在windows开始>windows附件>远程桌面连接：在计算机（c）：输入上面的图的IP：

密码选择复制启动服务器上的密码，完成后，便登录了服务器。

界面和平时的windows没有特别的区别。

2.运行GPT-SoVITS

GPT-SoVITS已经安装好了，点击go-webui.bat运行，稍微等一下，出现Running on local URL: http://0.0.0.0:9874，并弹出了浏览器。

提醒：打开的bat不可以关闭！这个黑色的bat框就是控制台，所有的日志都会在这上面呈现，所有的信息以控制台为准。

3.软件使用

软件包含两个部分，首先是数据的准备工作。

Oa.UVR5-WebUI

这是一个伴奏人声分离&去混响&去回声工作，除非你的语音文件质量特别好，否则很推荐你使用该模块。

模型可以选用
model_bs_roformer_ep_317_sdr_12.9755模型处理一遍，然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive（去混响），输出格式选wav。输出的文件默认在GPT-SoVITS-betaoutputuvr5_opt这个文件夹下，建议不要改输出路径。处理完的音频（vocal）的是人声，(instrument)是伴奏，(_vocal_main_vocal)的没混响的，（others）的是混响。（vocal）(_vocal_main_vocal)才是要用的文件，其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。

Oa.UVR5-WebUI语音背景分离

在切割音频前建议把所有音频拖进音频软件（如au、剪映）调整音量，最大音量调整至-9dB到-6dB，过高的删除

首先，输入原音频文件夹的路径（警告：不包含中文字符）。如果音频已经经过 UVR5 处理，那么文件夹路径应为“uvr5_opt”。接下来，可以根据需要调整以下参数：min_length、min_interval 和 max_sil_kept，单位均为毫秒（ms）。其中，min_length 应根据显存大小进行调整，显存越小，数值应设置得越小；min_interval 应根据音频的平均间隔进行调整，如果音频间隔较密集，可以适当调低该值；max_sil_kept 影响句子的连贯性，针对不同音频需要进行不同的调整，若不确定，可以保持默认设置。其他参数不建议进行调整。

完成上述设置后，点击“开启语音切割”按钮，系统将立即开始切割音频，默认输出路径为“output/slicer_opt”。当然，也可以选择使用其他切分工具来完成该操作。

切分完后文件在outputslicer_opt。打开切分文件夹，排序方式选大小，将时长超过显存数秒的音频手动切分至显存数秒以下。比如显卡是4090 显存是24g，那么就要将超过24秒的音频手动切分至24s以下，音频时长太长的会爆显存。如果语音切割后还是一个文件，那是因为音频太密集了。可以调低min_interval，从300调到100基本能解决这问题。实在不行用au手动切分。

Oc. 音频降噪

如果你觉得你的音频足够清晰可以跳过这步，降噪对音质的破坏挺大的，谨慎使用。

输入刚才切割完音频的文件夹，默认是output/slicer_opt文件夹。然后点击开启语音降噪。默认输出路径在output/denoise_opt。

od. 打标

打标就是给每个音频配上文字，这样才能让AI学习到每个字该怎么读。这是最稳复杂，也是工作量最大的一个工作。

如果在上一步中您已经完成了音频的切分或降噪，系统会自动填充路径。接下来，您可以选择使用“达摩 ASR”或“Fast Whisper”进行标注。达摩 ASR 仅支持识别汉语和粤语，且其识别效果最佳。Fast Whisper 支持标注 99 种语言，是目前最优秀的英语和日语识别工具。在选择模型时，建议使用 “large V3” 版本，并将语种设置为“auto”以自动检测语种。在精度选项中，推荐选择 float16 格式，因为它比 float32 更快，而 int8 的速度几乎与 float16 相同。。然后点开启离线批量ASR就好了，默认输出是output/asr_opt这个路径。ASR需要一些时间，看着控制台有没有报错就好了

Oe.校对标注

在完成上一步的标注后，系统会自动填写list路径，点击“开启打标 WebUI”按钮。打开后，将进入 SubFix ，按钮功能从左到右、从上到下依次为：跳转页码、保存修改、合并音频、删除音频、上一页、下一页、分割音频、保存文件、反向选择。每一页的修改完成后，一定要点击“保存修改”（Submit Text）（惨痛的的教训），如果没有保存就翻页，文本内容会被重置。在完成所有操作并退出之前，请确保点击“保存文件”（Save File）。在进行其他操作前，都要先点击“保存修改”（Submit Text）来进行数据保存。

关于“合并音频”和“分割音频”功能，由于精度较低且存在较多bug，不建议使用。若需要删除音频，请先点击要删除音频右侧的“yes”按钮，再点击“删除音频”（Delete Audio）。删除操作会使标注从系统中移除，但文件夹中的音频文件不会被删除，因此不会被包含在训练集中。

1a.训练

来到第二个界面，先设置实验名也就是模型名，理论上可以是中文！打标结束会自动填写路径，只要点下一键三连就好了。

1.b微调

新手可以忽略并跳过。

1.c推理（也就是要的语音合成）

先点一下刷新模型，下拉选择模型推理，e代表轮数，s代表步数。不是轮数越高越好。选择好模型点开启TTS推理，自动弹出推理界面。如果没有弹出，复制http://0.0.0.0:9872到浏览器打开。

开始推理

上传一段参考音频，建议选用数据集中的音频，时长约为5秒。参考音频非常关键，系统会根据该音频的语速和语气进行学习，因此需要特别认真地选择。参考音频的文本内容应与音频中的语音完全匹配，并且语种必须一致。在0217版本之后，虽然支持选择无参考文本模式，但强烈不建议使用，因为效果较差。参考音频是必须的，无论是什么情况，都不应忽略。

然后，点击右上角融合音色的选项，可以先将需要融合的音频文件放入同一文件夹，再一起拖入。接下来，输入要合成的文本，确保语种与音频一致。目前支持中英混合、日英混合以及中日英混合。文本切分时每次选择四句为一组，若低于四句，系统可能无法切分。如果选择四句一组时出现错误，可能是由于显存不足导致，可以尝试按句号进行切分。若不进行切分，生成的文本长度过长可能会导致语音生成出现语句不连贯的情况。我的经验是，使用4090D显卡时，约1000字的文本已经可能出现胡言乱语的现象，因此建议即使是在显卡性能较强的情况下，也应分段生成。

最后！工作完成后，记得回到控制台关机：

三、用途与风险

语音合成的用途有很多，主要的总结起来有这几个：

1.个性化的客服和语言助手，目前的AI客服的语音一般都是一个语调，如果你想让你公司的自动客服没有那么单调，可以试一试自己训练的个性化自动语音客服。个性化语音助手目前市面上比较多的是各类导航软件的个性语音导航包，个性化的声音能让你的客户耳目一新。

2.个性化的娱乐配音。在个人短视频制作上，画面和声音缺一不可。很多人因为普通话不太标准而比较的苦恼，采用短视频提供的生成配音有显得没有个性，用户的识别率不高。使用语音克隆技术，可以快速生成属于你的声音，而是生成过程中，不需要专业的录音设备和口播技巧。

其他的使用还包括语音学习，克隆历史人物语言用于教学等方面。

存在分风险：

和肖像权不同，语音权的立法和人们的认识都很大的差距。而真假难辨的语言合成技术被很多的诈骗分子利用，编造一些虚假的信息骗取亲人的财产。

因此，我们在使用AI语音克隆技术时，不但要提高警惕意识，还要对技术保有敬畏，合理的使用相关的技术。

相关内容：

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

HTC One M8 for Windows可升级WP8.1 GDR2系统

如何实现数据中心的自动化运营？

“吃鸡”中的战斗机！红辣椒7X更懂你的心

热门文章

1HUAWEI FreeBuds Pro 2深度拆解,羽沙白新配色亮相，心率体温双测功能升级解析

2网购高端手机惊现偷天换日,偷换主板后退货，维权之路在何方？

3解析“以假换真恶意退货”行为的性质界定标准

4网购27部高端手机疑遭偷换主板，退货风波引关注

5“编造杜撰任正非内部讲话”文章作者被判刑，自媒体转载终审免予刑事处罚