Nvidia Jetson Nano 2GBで日本語音声を話すようにするプロジェクトを開始した。
ESPNET-TTS(Text to speech)を参考にして、ホストPCで動かしていた日本語音声生成のInferenceをJetson Nanoに移行した。
Tacotron2とMulti-band MelGANを使用して、音声生成スピードを上げるようにした。
Pytorch1.7でDockerを使用せず必要なモジュールをインストールした。
レスポンスはホストPCよりかなり遅いが、ちゃんと動作している。
Pythonのプログラムを実行すると、漢字混じりのテキストファイルの文章を日本語音声に変換して出力する。
Jetson Nanoには音声出力端子がないので、直接、スピーカーやイヤフォンで音声を聞くことができない。
簡易的に音声を聞くには、HDMI接続のデスプレイにスピーカー機能があれば使用できる。
もしそれでも音声が出ない場合は以下の設定を試してみるといい。
画面左下のメニューから、サウンドとビデオ -> PulseAudio音量調節 を開く。
HDMI Digitalを代替として設定する
設定タブのBuilt-in AudioをOffにする
コメント powered by CComment