トップクラスの日本語LLM KARAKURI LMをローカルPCで試す 日本語LLMとして最高性能を達成したという700億パラメータのKarakuri-LMをローカルPC上で試した。 karakuri-lm-70b-chatはLlama2-70bをベースに日本語で事前学習して、更にchatデータでファインチューニングしたモデル。70b(700億)パラメータの大規模モデルでもあり、日本語benchmarkで最高性能を達成したとのこと。このクラスの大規模モデルを個人のローカルPC環境で動作させるのは至難の技だが、量子化モデルも公開されているので安価なローカルホスト上のwebuiで動かせるか試した。できるだけ精度を落としたくないので、q4(4bit精度)、q5ではなくq8(8bit精度)モデルを使った。 使用環境はUbuntu 22.04 Ryzen7 CPU 64GBにRTX3090(24GiB) + RTX3060(12GiB)の2枚のNvidia GPU CUDA Version 12.3 lllama.cppとtext-generation-webuiを使ってCPUとGPUコラボの二刀流でチャレンジ。OpenAI互換のローカルサーバーとして動かすことにした。 ITTech/AI ChatGPT llama2 karakuri-lm KARAKURI
コード専用生成AI WizardCoder日本語入力対応 Microsoftが公開したコード専用生成AI WizardCoderの日本語入力対応を試してみた。MetaがLlama2を公開したあと、Llama2ベースのコード専用生成AI Code Llamaを公開した。今回MicrosoftがC更にCode LlamaベースのWizardCoderを公開したので試してみた。WizardCoder-Python-34B-V1.0はChatGPTを超えたとうたっている。しかもLlama2ライセンスで商用利用可能。日本語でコード生成を指示できるのかな?リソースの制約があるのでWizardCoder-Python-7B-V1.0で試してみた。7B(70億パラメータ)モデルはVRAM 16GB搭載GPUで動きそうなので、専用GPUボードを使わずに、汎用APU(CPU+GPU) Ryzen 5600Gに16GB VRAMを割り当てて動かしてみた。Ubuntu22.04 Pytorch 2.0.1 ROCm 5.4.2の環境で動作する。WizardCoder対応のFastChatを使用した。 ITTech/AI FastChat ChatGPT llama2 WizardCode code llama Microsoft Meta
究極のローコスト16GB GPU、AMD Ryzen 5600GでAIソフト実行 AMD Ryzen 5600G APUを16GB VRAMのGPUとして使って、LLM(大規模言語モデル)Llama2/vicunaやStableDiffusion(SD)を実行する方法。AMDのROCmオープン・ソフトウエア・プラットフォームはNvidia CUDA互換でPytorchでも使えるが、AMDは公式にはRyzen 5600G APUの対応は言及してない。ところがやり方次第で、5600Gを16GB VRAM内蔵のGPUとして使用できる。16GB VRAM内蔵のグラボはそこそこ高価だが、5600Gは現在16,000円程度で買えるので、ローコスト、ローパワーの、ハイパフォーマンスグラボになる。Pytorchは現在の最新版で動作。実際にLlama2/vicuna v1.5やSDで試すと、CPUの倍以上のスピードで実行した。 動作環境マザーボード ASROCK B450M Pro4 BIOS 8.01CPU… ITTech/AI pytorch Stable Diffusion FastChat llama2 Vicuna v1.5 AMD ROCm
Llama 2ベースのLLM FastChat/Vicuna v1.5をローカルで動作 Meta/Llama 2ベースのFastChat/Vicuna v1.5をローカルPCで試してみた。とうとう、Vicuna のllama2バージョンが公開された。従来のVicuna v1.3はMeta/Llamaを使用しているので、商用利用が制限されていたが、Vicuna v1.5は商用利用も可能で、130億パラメータの13B-16Kトークン対応版もある。vicuna-13b-v1.5をローカルPCで実際に動かした。GPUはRTX3090+GTX1080tiの2枚の少し変則的な組み合わせでも動く。動作に必要なGPUメモリの合計は26GB以上になる。vicuna-7b-v1.5だと、専用グラフィックスボードがなくても、Ryzen 5 5600Gでも動作するのを確認した。Ubuntu22.04の環境で動かした。名前はRyokoさんなんだ! AIの危険性について尋ねてみるとまあまあ、ちゃんと答えてくれる。 地元、横浜は知ってるかな。多言語対応のLLMで、日本語にもかなりのレベルで対応してる。 llamaベースでこのレベルまで出来てるLLMはほとんどないので、Vicuna v1.5を使って本格的な商用アプリが開発できるかもしれない。興味のあるかたは問い合わせをしてみてください。 ITTech/AI FastChat ChatGPT Vicuna llama2 Vicuna v1.5
Stability AIのStableVicuna,オープンソースChatBotを動かす Stability AIから、"世界初のオープンソースRLHF LLMチャットボット"が謳い文句のChatGPT競合品?が出たので早速使ってみた。既にリリースされているFastChat(Vicuna-13b)130億パラメータLLM(大規模言語モデル)をRLHF(人間のフィードバックからの強化学習)で更にファインチューニングしたモデルだそうだ。Vicuna-13bは既に、色々試しているので、比較してみた。StableVicuna-13Bを使うためにはLLaMA13bのライセンスが必要なので、申請する必要がある。Vicuna-13bと同様に、llama-13bとstable-vicuna-13b-deltaのweightを変換してマージするとstable-vicuna-13bが得られる。変換するには64GB以上のCPUメモリが必要。更に、stable-vicuna-13bを実行するには26GB以上のVRAMを搭載したGPUボードが必要になる。実際にデモ用のpythonコードを元に動かしてみた。 python mystable_vicuna.py TransformersとPyTorchを使ってテキスト分類用のpythonプログラムを書いてくれとお願いする。すると実際にそれらしいpythonコードを作ってくれる。 ### Human: Write a Python script for text classification using Transformers and PyTorch… ITTech/AI ChatGPT Stability AI StaleVicuna opensource LLM RLHF
ChatGPT代替えプロジェクトFastChat(Vicuna-13B)を安価なGPUで動作 ChatGPTより小規模のLLMモデルで90%の性能がうたい文句のFastChat(Vicuna)をより低価格なGPUで動作させる方法を考えてみた。FastChatはオープンソースで公開されていて、自前のローカルな環境でも動かすことができるほどコンパクトなLLMだ。オンプレミスで試験的に評価、運用することも可能。それでも、vicuna-13b(130億パラメータ)モデルをフルスペックの16bit精度でinferrence(会話)するにはNvidia A100 40/80GB クラスのGPUカードが標準的には必要だ。下手な車が買えそうな値段だが。これを手持ちのRTX3090(24GB) + GTX1080Ti(11GB)でも動かせるようにした。これでぐっとGPUの敷居が低くなって、だれでも簡単に自前で使えるモデルになりそうだ。vicuna-7bとvicuna-13bではかなり性能に差がある、vicuna-13bを精度を落として8bitで使うと、微妙だが、無視できない差が出る。せっかくのLLM(大規模言語モデル)なので、やはりvicunna-13bをフルスペックの16bit精度で動かしたい。vicuna-13bをフルスペックで動作させるには26GB以上のGPU VRAMが必要となる。RTX3090(24GB) + GTX1080Ti(11GB)の2枚のボードで合計35GB VRAMなので余裕で動作しそうだが今までFastChatでは動作させることができなかったが、FastChatのGitHubに私の修正コードをPR(Pull Request)したら承認され、本体(main)にマージされたので、現在のFastChatの最新版では動作するようになっている。これで、RTX3090/4090(24GB) + RTX2060/3060/4070(12GB) クラスのボード構成でも動く。うまくいけば24GB + 8GB VRAMや16GB+12GB… ITTech/AI FastChat ChatGPT Vicuna-13B Vicuna Generative AI GPU device_map max_memory on-premises
ai_Ueharaさんが村上春樹がノーベル文学賞を受賞出来るか答えた ChatGPTクラスのチャットAI、FastChat(vicuna-13b)にai_Ueharaさんが、村上春樹氏がノーベル文学賞を受賞できるか答えてくれた。ai_Ueharaさんは画像生成AI(Stable Diffusion)で生成された人工知能のアバターです。今回はFastChatをCLI(コマンドライン)で使ってみました。python3 -m fastchat.serve.cli --model-name path/to/vicuna-13b --load-8bit チャットAIとの会話はこうなりました。 Human: こんにちわ、今日は日曜日ですね。Assistant: そうですね、こんにちは。日曜日ですね。 Human: アップル社の時価総額を知ってますか。 Assistant: Apple Inc.'s market capitalization is… ITTech/AI Stable Diffusion FastChat ChatGPT Vicuna-13B Vicuna ai_Uehara
チャットGPTに匹敵する性能の日本語対応チャットAI FastChat(Vicuna) ChatGPTに匹敵する性能の日本語対応チャットAI FastChatがオープンソースとして公開されたので、実際にPCにインストールして使ってみた。FastGPTのVicuna Weight(LLM)はoriginalのLLaMA weightsにVicunaの差分を合わせて変換して保存する。 python3 -m fastchat.model.apply_delta \ --base /path/to/llama-13b \ … ITTech/AI GPT FastChat ChatGPT Vicuna-13B Vicuna Generative AI GPT-4