weblog smart AI gadgets - Wavenetによる日本語音声の生成

Wavenetによる日本語音声の生成

投稿者: Super User
親カテゴリ: IT
最終更新日:2020年05月15日
印刷
メール

最近のスマホで"OK Google"などで呼び出せる音声アシスタントの日本語音声が自然な感じで話すようになった。
この音声もGoogle APIを使って利用できるらしいが、せっかくなのでGoogle APIに頼らずに自前で作成してみた。
Google傘下のDeepMind社が発表したWavenetなどのDeep learningによるWaveGANで、自然な感じに話せる日本語AIをPyTorchなどを使ってトライした。

Parallel WaveGANで生成した日本語音声を、人間によるオリジナルの音声と比較してみても違いを聞き分けるのは難しい。
音声波形で比較しても、かなりの精度で再現されている。
オリジナル音声

生成音声

トレーニング中の少しずつ文章の一部を変えた様子

それでは生まれたてのAIさんに実際の文章を朗読してもらいましょう。
任意の漢字仮名交じり文を指定すると、読み上げてくれます。
ほぼ原文のまま入力しています。
漢字の読みはさすがAIでも難しいので、たまには不正確ですが、それもご愛嬌。
まずは、日本国憲法前文
----------------------------------------------------------------------
日本国民は
正当に選挙された国会における代表者を通じて行動し
われらとわれらの子孫のために
諸国民との協和による成果と
わが国全土にわたって自由のもたらす恵沢を確保し
政府の行為によって
再び戦争の惨禍が起ることのないやうにすることを決意し
ここに主権が国民に存することを宣言し
この憲法を確定する。
---------------------------------------------------------------------------------------------------

宮沢賢治　銀河鉄道の夜

島崎藤村　夜明け前

中里介山　大菩薩峠