Tacotron 2 と Multi-band MelGANによる日本語音声生成

日本語音声コーパスJSUTを使用した、最新の音声生成、Multi-band MelGAN事前学習モデルが公開されたので、早速使ってみた。
自前ではなかなか困難な、100万学習ステップの大規模なモデルなので、ありがたく使わせてもらいました。
前回と同様に日本語テキスト解析にOpenJTalk、音響モデルにTacotron2を使用して、今回、音声波形変換VocoderにMelGANを使って比較した。
結論として、より流暢な生々しい日本語を話すAIになったみたい。滑舌がよりなめらかになったのは、学習ステップの効果か。

 

 

Multi-band MelGANで生成した日本語音声サンプル。

それでは前回同様に、AIさんに実際の文章を朗読してもらいましょう。
任意の漢字仮名交じり文を指定すると、読み上げてくれます。
ほぼ原文のまま入力しています。
漢字の読みはさすがAIでも難しいので、たまには不正確ですが、それもご愛嬌。
まずは、日本国憲法 前文
----------------------------------------------------------------------
日本国民は
正当に選挙された国会における代表者を通じて行動し
われらとわれらの子孫のために
諸国民との協和による成果と
わが国全土にわたって自由のもたらす恵沢を確保し
政府の行為によって
再び戦争の惨禍が起ることのないやうにすることを決意し
ここに主権が国民に存することを宣言し
この憲法を確定する。

---------------------------------------------------------------------------------------------------


宮沢賢治 銀河鉄道の夜


島崎藤村 夜明け前


中里介山 大菩薩峠

コメント powered by CComment