AI克隆声音
发现一个bug:训练->输入实验名: 不能是已经使用过的,就算删除了模型文件也不行,只要之前用过,下次就不要使用了
AI 声音克隆翻唱完整教程
⚠️ 重要声明
本软件以 MIT 协议开源,作者不对软件具备任何控制力。使用软件者、传播软件导出的声音者需自负全责。请遵守相关法律法规,尊重他人版权和肖像权。
📋 项目概述
本教程将指导你如何使用AI技术克隆歌手A的声音,让其翻唱歌手B的歌曲。
系统要求
- 显卡:NVIDIA 1660 及以上系列
- 显存:4GB 及以上
- 参考视频:https://b23.tv/ZzAySpu
辅助工具
- 格式转换:File Converter - 用于将 MP3 转换为 WAV 格式
📁 目录结构
建议在 D:\AI\fanchang 下创建以下文件夹结构:
1 | D:\AI\fanchang\ |
⚠️ 注意:所有路径请避免使用中文字符和空格!所有文件和文件夹命名时使用英文不要使用数字
🎵 准备工作:声音素材
开始之前,你需要准备以下音频文件:
| 素材类型 | 文件名示例 | 要求 | 时长建议 |
|---|---|---|---|
| A歌手声音(纯人声) | fanchangvocal.wav |
纯人声,无伴奏 | 5-10分钟 |
| B歌手歌曲(含伴奏) | yuanchang.wav |
完整歌曲 | - |
📥 第一步:下载软件
下载链接
🔗 网盘地址:https://pan.quark.cn/s/7a30057c83fa
软件包说明
| 软件包 | 功能说明 |
|---|---|
kelong.zip |
声音克隆与翻唱 |
UVR5.zip |
人声分离(提取人声和伴奏) |
解压后请确保路径中不含中文和空格!
🎤 第二步:提取A歌手纯人声
操作步骤
打开软件
运行UVR5\Ultimate Vocal Remover\UVR.exe参数设置
| 参数选项 | 设置值 |
|---|---|
| Select Input | 选择 fanchang.wav |
| Select Output | D:\AI\fanchang\mydata |
| CHOOSE PROCESS METHOD | 选择 VR Architecture |
| GPU Conversion | ✅ 勾选 |
| 其他三个选项 | ❌ 不勾选 |
- 开始处理
点击Start Processing按钮开始提取
处理结果
提取完成后,在 D:\AI\fanchang\mydata 下会生成:
1_fanchang_(Vocals).wav→ 人声文件1_fanchang_(Instrumental).wav→ 伴奏文件
后续操作
将 1_fanchang_(Vocals).wav 重命名为 fanchangvocal.wav,并移动到 D:\AI\fanchang\train 文件夹下。
🎵 第三步:提取B歌手人声和伴奏
操作步骤
打开软件
运行UVR5\Ultimate Vocal Remover\UVR.exe参数设置
| 参数选项 | 设置值 |
|---|---|
| Select Input | 选择 yuanchang.wav |
| Select Output | D:\AI\fanchang\mydata |
| CHOOSE PROCESS METHOD | 选择 VR Architecture |
| GPU Conversion | ✅ 勾选 |
| 其他三个选项 | ❌ 不勾选 |
- 开始处理
点击Start Processing按钮
处理结果
提取完成后会生成:
1_yuanchang_(Vocals).wav→ 人声文件1_yuanchang_(Instrumental).wav→ 伴奏文件
文件重命名
- 将
1_yuanchang_(Vocals).wav重命名为yuanchangvocal.wav - 将
1_yuanchang_(Instrumental).wav重命名为yuanchangbeijing.wav
🤖 第四步:训练A歌手音色模型
启动训练界面
- 解压
kelong.zip,得到ruanjian666文件夹 - 运行
声音模拟.bat进入界面 - 选择界面上方的 “训练” 选项卡
参数配置
| 参数名称 | 推荐设置 | 说明 |
|---|---|---|
| 实验名 | xiaoxi01(英文) |
模型名称,不要使用中文 |
| 训练文件夹路径 | D:\AI\fanchang\train |
存放训练素材的路径 |
| 总训练轮数 | 300-500 |
数值越大训练时间越长,效果越好 |
| 保存频率 | 50 |
每训练50轮保存一次模型 |
| batch_size | 6 |
配置越低数字越小(每轮输入样本数) |
| 只保存最新的“.ckpt”文件 | Yes |
节省磁盘空间 |
开始训练
点击 “一键训练” 按钮,等待训练完成。
模型保存位置
训练完成的模型保存在:kelong\ruanjian666\assets\weights
清理缓存文件
kelong\ruanjian666\logs\xiaoxi01 (自己模型的名字)
🎙️ 第五步:使用模型进行翻唱
启动推理界面
- 运行
D:\AI\fanchang\kelong\ruanjian666\声音模拟.bat - 选择界面上方的 “模型推理” 选项卡
- 点击 “刷新音色列表和索引路径”
参数设置
| 参数选项 | 设置值 |
|---|---|
| 推理音色 | 选择刚才训练的A歌手模型 |
| 输入音频路径 | D:\AI\fanchang\mydata\yuanchangvocal.wav |
| 变调参数 | 见下表 |
变调参数对照表
| 转换类型 | 参数值 |
|---|---|
| 男声 → 男声 | 0 |
| 女声 → 女声 | 0 |
| 男声 → 女声 | 10 |
| 女声 → 男声 | -10 |
💡 建议:初次使用建议设置为
0
开始转换
点击 “转换” 按钮,等待处理完成。
保存结果
将生成的音频下载并重命名为 vocal.wav(这就是A歌手翻唱B歌手歌曲的人声部分)
🎬 第六步:合成最终作品
使用视频编辑软件(如剪映)将人声和伴奏合并。
操作步骤
打开剪映
点击 “开始创作”导入音频
yuanchangbeijing.wav(伴奏)vocal.wav(克隆人声)
轨道排列
- 上层轨道:人声
vocal.wav - 下层轨道:伴奏
yuanchangbeijing.wav
- 上层轨道:人声
对齐并导出
将两条轨道对齐后,导出为音频文件即可
🔄 快速流程(已有模型时)
如果你已经训练好了A歌手的音色模型,只需执行以下步骤:
1️⃣ 提取B歌手人声和伴奏
按照 第三步 的流程操作
2️⃣ 使用模型转换
按照 第五步 的流程操作
3️⃣ 合成最终作品
按照 第六步 的流程操作
❓ 常见问题
Q1: 为什么路径不能有中文?
A: 许多AI工具对中文路径支持不佳,可能导致程序崩溃或无法识别文件。
Q2: 训练需要多长时间?
A: 取决于你的硬件配置和训练轮数。一般300轮需要几小时到十几小时不等。
Q3: 显存不够怎么办?
A: 降低 batch_size 参数,例如从6改为4或更小。
Q4: 生成的声音不像怎么办?
A: 可以尝试:
- 增加训练轮数
- 使用更高质量的训练素材
- 增加训练素材的时长(5-10分钟最佳)
📌 注意事项
- ⚠️ 请勿用于商业用途或侵犯他人权益
- ⚠️ 软件联系方式非文档作者联系方式
- ⚠️ 确保有足够的硬盘空间(建议至少10GB)
- ⚠️ 训练过程中请勿关闭程序或断电
- ⚠️ 建议定期保存模型检查点
📚 相关资源
- 视频教程:https://b23.tv/ZzAySpu
- 文件下载:https://pan.quark.cn/s/7a30057c83fa
- 格式转换工具:https://file-converter.io/
🚀 AutoDL 算力云部署完整指南
发现一个bug:训练->输入实验名: 不能是已经使用过的,就算删除了模型文件也不行,只要之前用过,下次就不要使用了
📌 第一步:创建云服务器实例
1. 注册平台
👉 访问:https://www.autodl.com/
2. 配置实例
- 进入
算力市场 - 选择显卡:
RTX 4090 - 镜像配置:
基础镜像 pytorch 2.8.0 → Python 3.12 → CUDA 12.8 - 点击
更多 更换镜像 RVC-Project/Retrieval-based-Voice-Conversion-WebUI/RVC1006 - 点击
创建并开机
3. 获取登录凭证
进入 控制台 → 容器实例,复制登录信息:
1 | # 登录命令示例 |
💡 使用你自己获取的登录信息
📂 第二步:上传项目文件
上传项目和解压时建议使用autodl的无卡模型启动减少花费
1. 下载并安装 WinSCP
https://cn-winscp.com/
2. 配置连接
| 配置项 | 填写内容 |
|---|---|
| 主机名 | connect.bjb2.seetacloud.com |
| 端口 | 15320 |
| 用户名 | root |
| 密码 | VtKgh4SW |
3. 上传文件
- 登录后将
fanchang.zip拖拽到/root/autodl-tmp文件夹 - fanchang.zip链接:https://pan.quark.cn/s/a70c1778b0e4
⚙️ 第三步:解压并启动程序
打开终端:控制台 → 容器实例 → JupyterLab → 终端
1 | # 初始化base环境 |
关掉终端点击➕号新开一个终端
1 | # 进入项目目录 |
🎯 第四步:训练与下载模型
访问界面控制台 → 容器实例 → JupyterLab → 自定义服务→ http://127.0.0.1:6006后面的网址点开
开始训练
操作方式与本地训练相同,train下的音频文件要求英文
| 配置项 | 参数值 |
|---|---|
| 实验名称 (Experiment name) | xiaoxi02 ⚠️ 注意不要使用之前用过的 |
| 训练文件路径 | /root/autodl-tmp/train |
| 保存频率 (Save frequency) | 50 |
| 训练总轮数 (Total training epochs) | 300 |
| 每GPU批次大小 (Batch size per GPU) | 6 |
| 仅保存最新checkpoint | ✅ 是 (节省磁盘空间) |
📊 配置摘要
- 🎯 实验:
xiaoxi02 - 📁 数据:
/root/autodl-tmp/train - 🔄 周期: 300 epochs (每5轮保存)
- 💾 批次: 6/GPU
- 🗂️ 存储策略: 仅保留最新模型
下载模型
训练完成后,下载路径:1
autodl-tmp/kelong/ruanjian666/assets/weights
清理缓存文件
路径:autodl-tmp/kelong/ruanjian666/logs/xiaoxi02 (自己模型的名字)
1 | cd /root/autodl-tmp/kelong/ruanjian666/logs |
💾 下载后可直接在本地使用,无需重复训练
✅ 完成!
模型已可在本地直接使用
将autodl-tmp/kelong/ruanjian666/assets/weights里的文件复制到本地kelong/ruanjian666/assets/weights





