id: J-19(誌面表示: J-19) · 物理ページ: 578–579(pages=2) · category: term_general · figure_type: comparison · status: ready · evaluation_date: 2026-04-30
tagline 33/25-45何を 70/60-200どこで 75/60-200会話例 45/25-50見1 24/15-40見2 23/15-40見3 31/15-40見4 25/15-40見5 31/15-40見6 21/15-50
← J-18 MoE 目次 J-20 Big Data →
一般語彙
578

量子化

りょうしか
モデルの重みを低ビット数で表現し、メモリと計算量を減らす技術です。
体験区分:少しだけ触った 推奨読者レベル:Level 3-4

何をしてくれるか

LLM のパラメータは通常 FP16 で保存されます。量子化はこれを INT8 や INT4 に圧縮し、必要な VRAM を半分以下に減らせる場合があります。

どこで出会うか

ollama や llama.cpp でモデル名に「Q4_K_M」「Q5_K_M」などの表記が並びます。Q4_K_M〜Q5_K_M がバランス推奨とされます。

比較図
2026.04·ready
「Q4_K_M 量子化で Llama 3 70B が手元で動いたので、API を呼ばずに済みました。」
量子化の見方
579
この用語の見どころ
1
役割

モデル重みのビット数を下げてメモリを節約します。

2
うれしさ

一般 PC でも大型モデルをローカル動作できます。

3
注意点

精度がわずかに落ちる場合があります(FP16 比 1〜5% 程度)。

4
どこで役立つか

ローカル LLM 構築や API コスト削減に役立ちます。

5
はじめに

Q4_K_M がバランス推奨という目安を覚えると入門に十分です。

6
深掘り先

GGUF、AWQ、bitsandbytes

非エンジニアのつまずき
  • 「量子化」という言葉が硬く、性能トレードオフを感覚的に掴みづらいです
  • フロンティアモデルのレンジ分けに量子化のコツがあるはずですが、表に出ない部分が多いです
私のコメント
  • 第一印象:モデル名の 4bit / 8bit 表記で量子化を知りました。
  • 良い点:スマホでも動くモデルが出てきてエッジ実行の可能性が広がります。
  • ダメな点:やりすぎると性能劣化が顕著になります。
  • 誰向けか:リソース制約の環境でモデルを動かしたい人向けです。
開発フローでの位置
モデル選定
VRAM 確認
モデル取得
推論実行
関連用語
参考 (未記入) checked —
J-19·term_general
バイブコーディング図鑑