weblog smart AI gadgets - トップクラスの日本語LLM KARAKURI LMをローカルPCで試す

トップクラスの日本語LLM KARAKURI LMをローカルPCで試す

投稿者: Super User
親カテゴリ: IT
最終更新日:2024年02月20日
印刷
メール

日本語LLMとして最高性能を達成したという700億パラメータのKarakuri-LMをローカルPC上で試した。

karakuri-lm-70b-chatはLlama2-70bをベースに日本語で事前学習して、更にchatデータでファインチューニングしたモデル。
70b(700億)パラメータの大規模モデルでもあり、日本語benchmarkで最高性能を達成したとのこと。
このクラスの大規模モデルを個人のローカルPC環境で動作させるのは至難の技だが、量子化モデルも公開されているので安価なローカルホスト上のwebuiで動かせるか試した。
できるだけ精度を落としたくないので、q4(4bit精度)、q5ではなくq8(8bit精度)モデルを使った。

使用環境は
Ubuntu 22.04 Ryzen7 CPU 64GBにRTX3090(24GiB) + RTX3060(12GiB)の２枚のNvidia GPU CUDA Version 12.3

lllama.cppとtext-generation-webuiを使ってCPUとGPUコラボの二刀流でチャレンジ。
OpenAI互換のローカルサーバーとして動かすことにした。

まずは８ビット量子化モデルをダウンロード。
karakuri-lm-70b-chat-v0.1-q8_0.gguf.aとkarakuri-lm-70b-chat-v0.1-q8_0.gguf.bの２つの分割ファイルをダウンロード。
ダウンロード後、ファイルを結合してモデルを復元。
cat karakuri-lm-70b-chat-v0.1-q8_0.gguf.* > karakuri-lm-70b-chat-v0.1-q8_0.gguf
次にtext-generation-webuiをgit cloneする。
cloneしたtext-generation-webui/modelsフォルダにkarakuri-lm-70b-chat-v0.1-q8_0.ggufモデルを置く。

これで準備完了。73.5GBのq8モデルをGPU(24+12=36GiB)とCPUで共同で動かす。
text-generation-webuiフォルダに入りインストールを開始する。
cd ~/text-generation-webui
./start_linux.sh
インストールが始まると、選択枝があるがNvidia cuda12を選ぶといい。
AMD の選択肢もあるのでAMDのGPUでも動くかもしれない。
インストールがうまく行くとローカルPC上でブラウザでアクセスできる。
http://127.0.0.1:7860
CTRL+Cキーを押してインストールを終了して、再度スタートする。
./start_linux.sh --extensions openai --loader llama.cpp --n-gpu-layers 36 --model karakuri-lm-70b-chat-v0.1-q8_0.gguf
モデルの36/81レイヤーをGPU処理に割り当てている。
うまくスタートしたら再度http://127.0.0.1:7860にアクセスしてみる。
Send a message 行に質問を書いてGenerateボタンを押すとチャットを開始する。
karakuri-lm-chatはバイリンガルなので、言語を選べる。
Parametersタブでモデルのパラメータを設定できる。