окрестности
- windows 10 64bit
- python 3.8
- pytorch 1.7 + cu101
- ffmpeg
предисловие
Сегодня я познакомлю вас с инструментом для синтеза речи.MockingBird
, вы можете имитировать звук, который вы хотите, всего за 5 секунд.Что похвально, так это то,MockingBird
Китайский язык также поддерживается.
Установить
Установить первымffmpeg
, который используется для обработки аудио и видео. Скачайте скомпилированные бинарники с официального сайтаffmpeg.org/download.Контракты…, попробуйте загрузить более новую версию и добавить ее путь в системную переменную окружения
создать совершенно новыйpython
виртуальная среда
conda create -n pytorch1.7 python=3.8
conda activate pytorch1.7
Далее переходим к загрузкеMockingBird
исходный код и установить соответствующие зависимости
git clone https://github.com/babysor/MockingBird.git
cd MockingBird
# 安装gpu版torch和torchvision
pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
# 安装其他依赖
pip install -r requirements.txt
# 这个库是用来进行噪音过滤的
pip install webrtcvad
# 如果是linux的话,使用apt安装ffmpeg
sudo apt install ffmpeg portaudio19-dev
pip install pyaudio
Для тестирования также необходимо скачать предварительно обученную модель
Ссылка на сайт:Disk.Baidu.com/Yes/1Ваш домашний 3G WZ ww…
Код извлечения:nbmc
После завершения загрузкиsaved_models
папка в исходном каталогеsynthesizer
в папке
контрольная работа
При использовании предварительно обученной модели, предоставленной автором для тестирования, будет сообщено об ошибке
RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder.embedding.weight: copying a param with shape torch.Size([70, 512]) from checkpoint, the shape in current model is torch.Size([75, 512]).
Эта ошибка требует изменения исходного файлаsynthesizer/utils/symbols.py
,будет
_characters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz1234567890!\'(),-.:;? '
изменить на
_characters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz12340!\'(),-.:;? '
Затем вы можете приступить к тестированию
python demo_toolbox.py
Запишите тест прямо здесь, нажмитеRecord
, нажмите, когда закончитеPlay
можно играть.Encoder
выберитеpretrained
,Synthesizer
выберитеceshi
, щелкните в верхнем правом фреймеSynthesize and vocode
, вы можете услышать синтезированный звук после завершения