发现一个bug:训练->输入实验名: 不能是已经使用过的，就算删除了模型文件也不行，只要之前用过，下次就不要使用了

AI 声音克隆翻唱完整教程

⚠️ 重要声明
本软件以 MIT 协议开源，作者不对软件具备任何控制力。使用软件者、传播软件导出的声音者需自负全责。请遵守相关法律法规，尊重他人版权和肖像权。

📋 项目概述

本教程将指导你如何使用AI技术克隆歌手A的声音，让其翻唱歌手B的歌曲。

系统要求

显卡：NVIDIA 1660 及以上系列
显存：4GB 及以上
参考视频：https://b23.tv/ZzAySpu

辅助工具

格式转换：File Converter - 用于将 MP3 转换为 WAV 格式

📁 目录结构

建议在 D:\AI\fanchang 下创建以下文件夹结构：

D:\AI\fanchang\
├── UVR5/          # 人声分离软件
├── kelong/        # 声音克隆软件
├── mydata/        # 存放音频数据（自建）
├── train/         # 存放A歌手人声素材（自建）
└── 说明.txt

⚠️ 注意：所有路径请避免使用中文字符和空格！所有文件和文件夹命名时使用英文不要使用数字

🎵 准备工作：声音素材

开始之前，你需要准备以下音频文件：

素材类型	文件名示例	要求	时长建议
A歌手声音（纯人声）	`fanchangvocal.wav`	纯人声，无伴奏	5-10分钟
B歌手歌曲（含伴奏）	`yuanchang.wav`	完整歌曲	-

📥 第一步：下载软件

下载链接

🔗 网盘地址：https://pan.quark.cn/s/7a30057c83fa

软件包说明

软件包	功能说明
`kelong.zip`	声音克隆与翻唱
`UVR5.zip`	人声分离（提取人声和伴奏）

解压后请确保路径中不含中文和空格！

🎤 第二步：提取A歌手纯人声

操作步骤

打开软件
运行 UVR5\Ultimate Vocal Remover\UVR.exe
参数设置

参数选项	设置值
Select Input	选择 `fanchang.wav`
Select Output	`D:\AI\fanchang\mydata`
CHOOSE PROCESS METHOD	选择 `VR Architecture`
GPU Conversion	✅ 勾选
其他三个选项	❌ 不勾选

开始处理
点击 Start Processing 按钮开始提取

处理结果

提取完成后，在 D:\AI\fanchang\mydata 下会生成：

1_fanchang_(Vocals).wav → 人声文件
1_fanchang_(Instrumental).wav → 伴奏文件

后续操作

将 1_fanchang_(Vocals).wav 重命名为 fanchangvocal.wav，并移动到 D:\AI\fanchang\train 文件夹下。

🎵 第三步：提取B歌手人声和伴奏

操作步骤

打开软件
运行 UVR5\Ultimate Vocal Remover\UVR.exe
参数设置

参数选项	设置值
Select Input	选择 `yuanchang.wav`
Select Output	`D:\AI\fanchang\mydata`
CHOOSE PROCESS METHOD	选择 `VR Architecture`
GPU Conversion	✅ 勾选
其他三个选项	❌ 不勾选

开始处理
点击 Start Processing 按钮

处理结果

提取完成后会生成：

1_yuanchang_(Vocals).wav → 人声文件
1_yuanchang_(Instrumental).wav → 伴奏文件

文件重命名

将 1_yuanchang_(Vocals).wav 重命名为 yuanchangvocal.wav
将 1_yuanchang_(Instrumental).wav 重命名为 yuanchangbeijing.wav

🤖 第四步：训练A歌手音色模型

启动训练界面

解压 kelong.zip，得到 ruanjian666 文件夹
运行 声音模拟.bat 进入界面
选择界面上方的 “训练” 选项卡

参数配置

参数名称	推荐设置	说明
实验名	`xiaoxi01`（英文）	模型名称，不要使用中文
训练文件夹路径	`D:\AI\fanchang\train`	存放训练素材的路径
总训练轮数	`300-500`	数值越大训练时间越长，效果越好
保存频率	`50`	每训练50轮保存一次模型
batch_size	`6`	配置越低数字越小（每轮输入样本数）
只保存最新的“.ckpt”文件	`Yes`	节省磁盘空间

开始训练

点击 “一键训练” 按钮，等待训练完成。

模型保存位置

训练完成的模型保存在：
kelong\ruanjian666\assets\weights

清理缓存文件

kelong\ruanjian666\logs\xiaoxi01 (自己模型的名字)

🎙️ 第五步：使用模型进行翻唱

启动推理界面

运行 D:\AI\fanchang\kelong\ruanjian666\声音模拟.bat
选择界面上方的 “模型推理” 选项卡
点击 “刷新音色列表和索引路径”

参数设置

参数选项	设置值
推理音色	选择刚才训练的A歌手模型
输入音频路径	`D:\AI\fanchang\mydata\yuanchangvocal.wav`
变调参数	见下表

变调参数对照表

转换类型	参数值
男声 → 男声	`0`
女声 → 女声	`0`
男声 → 女声	`10`
女声 → 男声	`-10`

💡 建议：初次使用建议设置为 0

开始转换

点击 “转换” 按钮，等待处理完成。

保存结果

将生成的音频下载并重命名为 vocal.wav（这就是A歌手翻唱B歌手歌曲的人声部分）

🎬 第六步：合成最终作品

使用视频编辑软件（如剪映）将人声和伴奏合并。

操作步骤

打开剪映
点击 “开始创作”
导入音频
- yuanchangbeijing.wav（伴奏）
- vocal.wav（克隆人声）
轨道排列
- 上层轨道：人声 vocal.wav
- 下层轨道：伴奏 yuanchangbeijing.wav
对齐并导出
将两条轨道对齐后，导出为音频文件即可

🔄 快速流程（已有模型时）

如果你已经训练好了A歌手的音色模型，只需执行以下步骤：

1️⃣ 提取B歌手人声和伴奏

按照 第三步 的流程操作

2️⃣ 使用模型转换

按照 第五步 的流程操作

3️⃣ 合成最终作品

按照 第六步 的流程操作

❓ 常见问题

Q1: 为什么路径不能有中文？

A: 许多AI工具对中文路径支持不佳，可能导致程序崩溃或无法识别文件。

Q2: 训练需要多长时间？

A: 取决于你的硬件配置和训练轮数。一般300轮需要几小时到十几小时不等。

Q3: 显存不够怎么办？

A: 降低 batch_size 参数，例如从6改为4或更小。

Q4: 生成的声音不像怎么办？

A: 可以尝试：

增加训练轮数
使用更高质量的训练素材
增加训练素材的时长（5-10分钟最佳）

📌 注意事项

⚠️ 请勿用于商业用途或侵犯他人权益
⚠️ 软件联系方式非文档作者联系方式
⚠️ 确保有足够的硬盘空间（建议至少10GB）
⚠️ 训练过程中请勿关闭程序或断电
⚠️ 建议定期保存模型检查点

📚 相关资源

视频教程：https://b23.tv/ZzAySpu
文件下载：https://pan.quark.cn/s/7a30057c83fa
格式转换工具：https://file-converter.io/

**🎵 享受创作的乐趣，请合法使用！🎵**

🚀 AutoDL 算力云部署完整指南

发现一个bug:训练->输入实验名: 不能是已经使用过的，就算删除了模型文件也不行，只要之前用过，下次就不要使用了

📌 第一步：创建云服务器实例

1. 注册平台
👉 访问：https://www.autodl.com/

2. 配置实例

进入 算力市场
选择显卡：RTX 4090
镜像配置：基础镜像 pytorch 2.8.0 → Python 3.12 → CUDA 12.8
点击 更多更换镜像 RVC-Project/Retrieval-based-Voice-Conversion-WebUI/RVC1006
点击 创建并开机

3. 获取登录凭证
进入 控制台 → 容器实例，复制登录信息：

# 登录命令示例
ssh -p 15320 root@connect.bjb2.seetacloud.com

# 密码示例
VtKgh4SW

💡 使用你自己获取的登录信息

📂 第二步：上传项目文件

上传项目和解压时建议使用autodl的无卡模型启动减少花费
1. 下载并安装 WinSCP
https://cn-winscp.com/

2. 配置连接

配置项	填写内容
主机名	`connect.bjb2.seetacloud.com`
端口	`15320`
用户名	`root`
密码	`VtKgh4SW`

3. 上传文件

登录后将 fanchang.zip 拖拽到/root/autodl-tmp文件夹
fanchang.zip链接：https://pan.quark.cn/s/a70c1778b0e4

⚙️ 第三步：解压并启动程序

打开终端：控制台 → 容器实例 → JupyterLab → 终端

1 2	# 初始化base环境 conda init

关掉终端点击➕号新开一个终端

# 进入项目目录
cd /root/autodl-tmp

# 解压文件 如果之前解压过了就不要解压了
unzip fanchang.zip

# 进入程序目录
cd kelong/ruanjian666


# 启动服务
python infer-web.py --pycmd python --port 6006

🎯 第四步：训练与下载模型

访问界面
控制台 → 容器实例 → JupyterLab → 自定义服务→ http://127.0.0.1:6006后面的网址点开

开始训练
操作方式与本地训练相同，train下的音频文件要求英文

配置项	参数值
实验名称 (Experiment name)	xiaoxi02 ⚠️ 注意不要使用之前用过的
训练文件路径	`/root/autodl-tmp/train`
保存频率 (Save frequency)	50
训练总轮数 (Total training epochs)	300
每GPU批次大小 (Batch size per GPU)	6
仅保存最新checkpoint	✅ 是 (节省磁盘空间)

📊 配置摘要

🎯 实验: xiaoxi02
📁 数据: /root/autodl-tmp/train
🔄 周期: 300 epochs (每5轮保存)
💾 批次: 6/GPU
🗂️ 存储策略: 仅保留最新模型

下载模型
训练完成后，下载路径：

1	autodl-tmp/kelong/ruanjian666/assets/weights

清理缓存文件

路径：autodl-tmp/kelong/ruanjian666/logs/xiaoxi02 (自己模型的名字)

1
2
3

cd /root/autodl-tmp/kelong/ruanjian666/logs
rm -rf xiaoxi02

💾 下载后可直接在本地使用，无需重复训练

✅ 完成！

模型已可在本地直接使用
将autodl-tmp/kelong/ruanjian666/assets/weights里的文件复制到本地kelong/ruanjian666/assets/weights