一般語彙

量子化

りょうしか

モデルの重みを低ビット数で表現し、メモリと計算量を減らす技術です。

体験区分：少しだけ触った推奨読者レベル：Level 3-4

LLM のパラメータは通常 FP16 で保存されます。量子化はこれを INT8 や INT4 に圧縮し、必要な VRAM を半分以下に減らせる場合があります。

ollama や llama.cpp でモデル名に「Q4_K_M」「Q5_K_M」などの表記が並びます。Q4_K_M〜Q5_K_M がバランス推奨とされます。

イメージ

開発フローでの位置

モデル選定

→

VRAM 確認

→

モデル取得

→

推論実行

2026.04·ready

「Q4_K_M 量子化で Llama 3 70B が手元で動いたので、API を呼ばずに済みました。」

量子化の見方

579

この用語の見どころ

役割

モデル重みのビット数を下げてメモリを節約します。

うれしさ

一般 PC でも大型モデルをローカル動作できます。

注意点

精度がわずかに落ちる場合があります（FP16 比 1〜5% 程度）。

どこで役立つか

ローカル LLM 構築や API コスト削減に役立ちます。

はじめに

Q4_K_M がバランス推奨という目安を覚えると入門に十分です。

深掘り先

GGUF、AWQ、bitsandbytes

非エンジニアのつまずき

私のコメント