NeMo 做語音識別

來源

https://github.com/NVIDIA/NeMo

預訓練模型來源

https://ngc.nvidia.com/catalog/models

編譯Docker

git clone https://github.com/NVIDIA/NeMo.git
cd NeMo

不使用 jupyter 並建立新的文件,修改 Dockerfile 尾部加上

WORKDIR /app   

編譯

DOCKER_BUILDKIT=1 docker build -t raidavid/nemo .

取得 stt 測試

cd ~/
cd nemosst/

執行

docker run --gpus all \
-it \
-d \
-v /home/ubuntu/nemosst:/app \
--shm-size=8g \
-p 6006:6006 \
--name nemo \
raidavid/nemo

使用預訓練模型測試效果

語音合成

開啟 test.py 並執行

建立訓練資料

開啟並執行 create_train_data.py

python  create_train_data.py \
                --audiopath \
                dataset/audiofiles/ \
                --textpath \
                dataset/txtfiles/ \
                --traindatalist \
                dataset/traindatalist.json \
                --testdatalist \
                dataset/testdatalist.json \
                --testratio \
                0.2

訓練

待續…

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *