LLM のパラメータは通常 FP16 で保存されます。量子化はこれを INT8 や INT4 に圧縮し、必要な VRAM を半分以下に減らせる場合があります。
LLM のパラメータは通常 FP16 で保存されます。量子化はこれを INT8 や INT4 に圧縮し、必要な VRAM を半分以下に減らせる場合があります。
ollama や llama.cpp でモデル名に「Q4_K_M」「Q5_K_M」などの表記が並びます。Q4_K_M〜Q5_K_M がバランス推奨とされます。
モデル重みのビット数を下げてメモリを節約します。
一般 PC でも大型モデルをローカル動作できます。
精度がわずかに落ちる場合があります(FP16 比 1〜5% 程度)。
ローカル LLM 構築や API コスト削減に役立ちます。
Q4_K_M がバランス推奨という目安を覚えると入門に十分です。
GGUF、AWQ、bitsandbytes