三流小説家(GPT-2 Japanese Pre-trained Model)

OpenAIが公開したGPT-2 モデルをベースにしてPytorch用の日本語事前学習モデルを作成した。 事前学習用の日本語コーパスにはjawikipediaと青空文庫を使用した。
Ubuntu20.04上のPytorch 1.6で動作させた。
GPT-2の文章生成用の導入フレーズとして以下の文章を使用した。

"私は三流小説家と言われているのは知っているが、小説家に一流も二流も、三流もない、小説を書くだけだ。批評家は嫌いだ。女も嫌いだ"

以下のように文章生成用コマンドでパラメータと導入フレーズを入力するとGPU使用で、数秒で文章を作成してくれる。
run-rootフォルダに日本語Pre-trained modelが保存されている。

gpt-2-gen run-root --tokens-to-generate 200 --top-p 0.9 "私は三流小説家と言われているのは知っているが、小説家に一流も二流も、三流もない、小説を書くだけだ。批評家は嫌いだ。女も嫌いだ"
モデルをロード中: run-root
導入フレーズ: 私は三流小説家と言われているのは知っているが、小説家に一流も二流も、三流もない、小説を書くだけだ。批評家は嫌いだ。女も嫌いだ

から読む、読もうとするから小説を書くんだろう」と語っている。 短編『森の玉座』の作者カール・ウィルヘルム・シュミットとは「私の物語はまだまったく知らなかった」と語っており、同じ短編を書くことで作家になってしまったことにありそうにしたがっている。 スミソニアン博物館の学芸員会に所属し、この場所を舞台とした小説を執筆している。 スミソニアン博物館は「1925年出版のボストン市歴史協会記念の図書館」に指定された歴史収蔵品の一つであるが、他の博物館のものとは異なる。 エディとシャーロットは1925年5月25日に初めて共演し、エディンバラの日曜学校で国語と英語を教えた。 またウィンザー城には1926年から1926年まで、今日の子供と子供のホームがある。 シャーロット・シンフォニーは「グリーン・パッセージ」を書き、フランチャイジーはニューヨーク・ヘラルド映画社に、1927年に始まり、サム・シングが編集した映画『雨蛙』を製作している。 シャーロット・シンフォニー・ピクチャーズが1929年に


 このプロジェクトでいろいろ試してみたが、"危険すぎる"文章生成AIと言われているだけあって、なかなか興味深い、秀逸な文章を作成してくれる。


私は三流小説家と言われているのは知っているが、小説家に一流も二流も、三流もない、小説を書くだけだ。批評家は嫌いだ。猫も嫌いだ、と振り返っている。 荒川 哲(あらかわ さとる)は、江戸時代前期から中期にかけて活躍した和紙作家。 江戸の荒川に、旗本・渡辺崋山が私塾を開いたのが、江戸の浅草「銀座の露」の露と言われ、幕末に「江戸小品」を世に送り出した。 その作手には、渡辺崋山が私塾を開き、浅草の「銀座の露」と呼ばれる出版物が世に送り出された。 また、幕末に「金字塔」と呼ばれる墨書刊行物があり、江戸・江戸・江戸を往復して様々な趣向から戯画・文人墨客を装おうとしていた。 絵師としては「銀座猿飛」の筆名を使い、江戸に「銀座の露」と呼ばれる墨物を置いた。 浅草の露とは、銀座の露(現在の文京区)を指すが、浅草猿飛(現在の台東区)、あるいは浅草猿飛の「猿飛」と誤解されることが多い


銀座の露、浅草の露、銀座猿飛、浅草猿飛 などはGPTの創作造語だが、なかなか文学的表現だ。
事前学習途中のバージョンなので、"江戸"を繰り返したりもする。

今後が楽しみだ。