发现一个bug:训练->输入实验名: 不能是已经使用过的,就算删除了模型文件也不行,只要之前用过,下次就不要使用了

AI 声音克隆翻唱完整教程

⚠️ 重要声明
本软件以 MIT 协议开源,作者不对软件具备任何控制力。使用软件者、传播软件导出的声音者需自负全责。请遵守相关法律法规,尊重他人版权和肖像权。


📋 项目概述

本教程将指导你如何使用AI技术克隆歌手A的声音,让其翻唱歌手B的歌曲。

系统要求

辅助工具


📁 目录结构

建议在 D:\AI\fanchang 下创建以下文件夹结构:

1
2
3
4
5
6
D:\AI\fanchang\
├── UVR5/ # 人声分离软件
├── kelong/ # 声音克隆软件
├── mydata/ # 存放音频数据(自建)
├── train/ # 存放A歌手人声素材(自建)
└── 说明.txt

⚠️ 注意:所有路径请避免使用中文字符和空格!所有文件和文件夹命名时使用英文不要使用数字


🎵 准备工作:声音素材

开始之前,你需要准备以下音频文件:

素材类型 文件名示例 要求 时长建议
A歌手声音(纯人声) fanchangvocal.wav 纯人声,无伴奏 5-10分钟
B歌手歌曲(含伴奏) yuanchang.wav 完整歌曲 -

📥 第一步:下载软件

下载链接

🔗 网盘地址https://pan.quark.cn/s/7a30057c83fa

软件包说明

软件包 功能说明
kelong.zip 声音克隆与翻唱
UVR5.zip 人声分离(提取人声和伴奏)

解压后请确保路径中不含中文和空格!


🎤 第二步:提取A歌手纯人声

操作步骤

  1. 打开软件
    运行 UVR5\Ultimate Vocal Remover\UVR.exe

  2. 参数设置

参数选项 设置值
Select Input 选择 fanchang.wav
Select Output D:\AI\fanchang\mydata
CHOOSE PROCESS METHOD 选择 VR Architecture
GPU Conversion ✅ 勾选
其他三个选项 ❌ 不勾选
  1. 开始处理
    点击 Start Processing 按钮开始提取

处理结果

提取完成后,在 D:\AI\fanchang\mydata 下会生成:

  • 1_fanchang_(Vocals).wav → 人声文件
  • 1_fanchang_(Instrumental).wav → 伴奏文件

后续操作

1_fanchang_(Vocals).wav 重命名为 fanchangvocal.wav,并移动到 D:\AI\fanchang\train 文件夹下。


🎵 第三步:提取B歌手人声和伴奏

操作步骤

  1. 打开软件
    运行 UVR5\Ultimate Vocal Remover\UVR.exe

  2. 参数设置

参数选项 设置值
Select Input 选择 yuanchang.wav
Select Output D:\AI\fanchang\mydata
CHOOSE PROCESS METHOD 选择 VR Architecture
GPU Conversion ✅ 勾选
其他三个选项 ❌ 不勾选
  1. 开始处理
    点击 Start Processing 按钮

处理结果

提取完成后会生成:

  • 1_yuanchang_(Vocals).wav → 人声文件
  • 1_yuanchang_(Instrumental).wav → 伴奏文件

文件重命名

  • 1_yuanchang_(Vocals).wav 重命名为 yuanchangvocal.wav
  • 1_yuanchang_(Instrumental).wav 重命名为 yuanchangbeijing.wav

🤖 第四步:训练A歌手音色模型

启动训练界面

  1. 解压 kelong.zip,得到 ruanjian666 文件夹
  2. 运行 声音模拟.bat 进入界面
  3. 选择界面上方的 “训练” 选项卡

参数配置

参数名称 推荐设置 说明
实验名 xiaoxi01(英文) 模型名称,不要使用中文
训练文件夹路径 D:\AI\fanchang\train 存放训练素材的路径
总训练轮数 300-500 数值越大训练时间越长,效果越好
保存频率 50 每训练50轮保存一次模型
batch_size 6 配置越低数字越小(每轮输入样本数)
只保存最新的“.ckpt”文件 Yes 节省磁盘空间

开始训练

点击 “一键训练” 按钮,等待训练完成。

模型保存位置

训练完成的模型保存在:
kelong\ruanjian666\assets\weights

清理缓存文件

kelong\ruanjian666\logs\xiaoxi01 (自己模型的名字)


🎙️ 第五步:使用模型进行翻唱

启动推理界面

  1. 运行 D:\AI\fanchang\kelong\ruanjian666\声音模拟.bat
  2. 选择界面上方的 “模型推理” 选项卡
  3. 点击 “刷新音色列表和索引路径”

参数设置

参数选项 设置值
推理音色 选择刚才训练的A歌手模型
输入音频路径 D:\AI\fanchang\mydata\yuanchangvocal.wav
变调参数 见下表

变调参数对照表

转换类型 参数值
男声 → 男声 0
女声 → 女声 0
男声 → 女声 10
女声 → 男声 -10

💡 建议:初次使用建议设置为 0

开始转换

点击 “转换” 按钮,等待处理完成。

保存结果

将生成的音频下载并重命名为 vocal.wav(这就是A歌手翻唱B歌手歌曲的人声部分)


🎬 第六步:合成最终作品

使用视频编辑软件(如剪映)将人声和伴奏合并。

操作步骤

  1. 打开剪映
    点击 “开始创作”

  2. 导入音频

    • yuanchangbeijing.wav(伴奏)
    • vocal.wav(克隆人声)
  3. 轨道排列

    • 上层轨道:人声 vocal.wav
    • 下层轨道:伴奏 yuanchangbeijing.wav
  4. 对齐并导出
    将两条轨道对齐后,导出为音频文件即可


🔄 快速流程(已有模型时)

如果你已经训练好了A歌手的音色模型,只需执行以下步骤:

1️⃣ 提取B歌手人声和伴奏

按照 第三步 的流程操作

2️⃣ 使用模型转换

按照 第五步 的流程操作

3️⃣ 合成最终作品

按照 第六步 的流程操作


❓ 常见问题

Q1: 为什么路径不能有中文?

A: 许多AI工具对中文路径支持不佳,可能导致程序崩溃或无法识别文件。

Q2: 训练需要多长时间?

A: 取决于你的硬件配置和训练轮数。一般300轮需要几小时到十几小时不等。

Q3: 显存不够怎么办?

A: 降低 batch_size 参数,例如从6改为4或更小。

Q4: 生成的声音不像怎么办?

A: 可以尝试:

  • 增加训练轮数
  • 使用更高质量的训练素材
  • 增加训练素材的时长(5-10分钟最佳)

📌 注意事项

  1. ⚠️ 请勿用于商业用途或侵犯他人权益
  2. ⚠️ 软件联系方式非文档作者联系方式
  3. ⚠️ 确保有足够的硬盘空间(建议至少10GB)
  4. ⚠️ 训练过程中请勿关闭程序或断电
  5. ⚠️ 建议定期保存模型检查点

📚 相关资源


**🎵 享受创作的乐趣,请合法使用!🎵**

🚀 AutoDL 算力云部署完整指南


发现一个bug:训练->输入实验名: 不能是已经使用过的,就算删除了模型文件也不行,只要之前用过,下次就不要使用了

📌 第一步:创建云服务器实例

1. 注册平台
👉 访问:https://www.autodl.com/

2. 配置实例

  • 进入 算力市场
  • 选择显卡:RTX 4090
  • 镜像配置:基础镜像 pytorch 2.8.0 → Python 3.12 → CUDA 12.8
  • 点击 更多 更换镜像 RVC-Project/Retrieval-based-Voice-Conversion-WebUI/RVC1006
  • 点击 创建并开机

3. 获取登录凭证
进入 控制台容器实例,复制登录信息:

1
2
3
4
5
# 登录命令示例
ssh -p 15320 root@connect.bjb2.seetacloud.com

# 密码示例
VtKgh4SW

💡 使用你自己获取的登录信息


📂 第二步:上传项目文件

上传项目和解压时建议使用autodl的无卡模型启动减少花费
1. 下载并安装 WinSCP
https://cn-winscp.com/

2. 配置连接

配置项 填写内容
主机名 connect.bjb2.seetacloud.com
端口 15320
用户名 root
密码 VtKgh4SW

3. 上传文件


⚙️ 第三步:解压并启动程序

打开终端:控制台容器实例JupyterLab终端

1
2
# 初始化base环境
conda init

关掉终端点击➕号新开一个终端

1
2
3
4
5
6
7
8
9
10
11
12
# 进入项目目录
cd /root/autodl-tmp

# 解压文件 如果之前解压过了就不要解压了
unzip fanchang.zip

# 进入程序目录
cd kelong/ruanjian666


# 启动服务
python infer-web.py --pycmd python --port 6006

🎯 第四步:训练与下载模型

访问界面
控制台容器实例JupyterLab自定义服务http://127.0.0.1:6006后面的网址点开

开始训练
操作方式与本地训练相同,train下的音频文件要求英文

配置项 参数值
实验名称 (Experiment name) xiaoxi02
⚠️ 注意不要使用之前用过的
训练文件路径 /root/autodl-tmp/train
保存频率 (Save frequency) 50
训练总轮数 (Total training epochs) 300
每GPU批次大小 (Batch size per GPU) 6
仅保存最新checkpoint ✅ 是
(节省磁盘空间)

📊 配置摘要

  • 🎯 实验: xiaoxi02
  • 📁 数据: /root/autodl-tmp/train
  • 🔄 周期: 300 epochs (每5轮保存)
  • 💾 批次: 6/GPU
  • 🗂️ 存储策略: 仅保留最新模型

下载模型
训练完成后,下载路径:

1
autodl-tmp/kelong/ruanjian666/assets/weights

清理缓存文件

路径:autodl-tmp/kelong/ruanjian666/logs/xiaoxi02 (自己模型的名字)

1
2
3
cd /root/autodl-tmp/kelong/ruanjian666/logs
rm -rf xiaoxi02

💾 下载后可直接在本地使用,无需重复训练


✅ 完成!

模型已可在本地直接使用
将autodl-tmp/kelong/ruanjian666/assets/weights里的文件复制到本地kelong/ruanjian666/assets/weights