GPU が計算に使うデータを保持するメモリです。LLM 推論ではモデルパラメータ・中間活性・KV キャッシュをここに置きます。容量が不足するとモデルが動きません。
GPU が計算に使うデータを保持するメモリです。LLM 推論ではモデルパラメータ・中間活性・KV キャッシュをここに置きます。容量が不足するとモデルが動きません。
ローカル LLM を試すときに最初にぶつかる制約です。「このモデルは VRAM 何 GB 必要?」という確認がスタートになります。
GPU が推論に使うパラメータ・KV キャッシュを保持します。
容量を把握すれば、動かせるモデルの上限を事前に計算できます。
CPU のシステムメモリ(RAM)とは独立した GPU 専用領域です。
ローカル LLM の選定や、API 利用か自前推論かの判断に使います。
「モデルサイズ × 量子化精度 = 必要 VRAM」の目安計算を押さえます。
GPU(J-77)、パラメータ数(J-22)、量子化(J-19)