weblog smart AI gadgets - Home

JetSpeech(Jetson nanoが日本語を喋る)

Nvidia Jetson Nano 2GBで日本語音声を話すようにするプロジェクトを開始した。ESPNET-TTS(Text to speech)を参考にして、ホストPCで動かしていた日本語音声生成のInferenceをJetson Nanoに移行した。Tacotron2とMulti-band MelGANを使用して、音声生成スピードを上げるようにした。Pytorch1.7でDockerを使用せず必要なモジュールをインストールした。レスポンスはホストPCよりかなり遅いが、ちゃんと動作している。

JetSpeech(Jetson nanoが日本語を喋る)

NVIDIA JETSON NANO 2GBでPytorch 1.7

Nvidia Jetson nano 2GB 開発KITでPytorch 1.7をインストールして使ってみた。左のRaspberry Piと比べると一回り大きいSBCボードだ。巨大なヒートシンクが付いて高そう。上に付いている空冷ファンは別売だが、フル動作時にはかなり熱くなるので必要だと思う。

NVIDIA JETSON NANO 2GBでPytorch 1.7

JSSS日本語音声コーパスでParallelWaveGAN

JSSS日本語音声コーパスでParallelWaveGANの学習済みモデル(Pre-trained model)を作成し、文章を朗読してもらった。おしゃべりオームとどう違うかな。このように色々な日本語音声コーパスが公開されてきているのは有り難い。オームも喜ぶだろう。

JSSS日本語音声コーパスでParallelWaveGAN

三流小説家(GPT-2 Japanese Pre-trained Model)

OpenAIが公開したGPT-2 モデルをベースにしてPytorch用の日本語事前学習モデルを作成した。事前学習用の日本語コーパスにはjawikipediaと青空文庫を使用した。Ubuntu20.04上のPytorch 1.6で動作させた。GPT-2の文章生成用の導入フレーズとして以下の文章を使用した。 "私は三流小説家と言われているのは知っているが、小説家に一流も二流も、三流もない、小説を書くだけだ。批評家は嫌いだ。女も嫌いだ" 以下のように文章生成用コマンドでパラメータと導入フレーズを入力するとGPU使用で、数秒で文章を作成してくれる。run-rootフォルダに日本語Pre-trained modelが保存されている。

三流小説家(GPT-2 Japanese Pre-trained Model)

Tacotron 2 と Multi-band MelGANによる日本語音声生成

日本語音声コーパスJSUTを使用した、最新の音声生成、Multi-band MelGAN事前学習モデルが公開されたので、早速使ってみた。自前ではなかなか困難な、100万学習ステップの大規模なモデルなので、ありがたく使わせてもらいました。前回と同様に日本語テキスト解析にOpenJTalk、音響モデルにTacotron2を使用して、今回、音声波形変換VocoderにMelGANを使って比較した。結論として、より流暢な生々しい日本語を話すAIになったみたい。滑舌がよりなめらかになったのは、学習ステップの効果か。

Tacotron 2 と Multi-band MelGANによる日本語音声生成

日本語BERTをJupyter Notebookで試す

＊この記事の内容が少し古くなったので、AIによる自然言語処理に更に興味があるかた向けに記事を追加しました。＊人が書いたのと区別できないほどの文章を自動生成できると言われている日本語GPT2を初心者でも手軽にJupyter Notebookで試せます。＊GitHubにNotebookファイルがあるので参考にしてください。 BERTでの日本語処理方法を、手軽にJupyter Notebookで試せるようにした。東北大学の研究室で公開している、訓練済み日本語BERTモデルがTransformersで利用できるようになって、かなり使いやすくなった。使い方を、私を含めたBERET初心者にもわかりやすいようにサンプルを作ってみた。

日本語BERTをJupyter Notebookで試す

日本語BERTで音声Chatbot

Googleの最新のDeepLearningによる自然言語処理技術BERTの日本語対応が進んでいる。PyTorch版はhuggingface/transformersで活発に移植、開発されている。日本語BERTをEncoderとするChatbotの作成方法がGithubに挙がっていたので、これを参考にしてテキスト入力された質問を、日本語音声で回答するChatbotを作ってみた。日本語音声は以前作った、Wavenetによる日本語音声の生成を活用している。

日本語BERTで音声Chatbot

Ubuntu 20.04でPyTorch 1.5を使う

Ubuntu20.04LTSがリリースされたので、早速、最新版のPytorch1.5をインストールして使ってみた。 Pytorchはpip3でインストールするので、まずpip3をインストールしてtorchその他をインストール。 sudo apt updatesudo apt install python3 python3-pippip3 install torch torchvisionpip3 install tensorflow-gpu tensorboard これで、pytorch1.5, tensorflow2の最新版がインストールされた。

Ubuntu 20.04でPyTorch 1.5を使う

前へPage 5 of 6次へ