一般語彙

VRAM

ブイラム

Video RAM の略。GPU に直結した高速メモリで、LLM 推論時にモデルパラメータを格納します。

体験区分：調査ベース推奨読者レベル：Level 3-4

GPU が計算に使うデータを保持するメモリです。LLM 推論ではモデルパラメータ・中間活性・KV キャッシュをここに置きます。容量が不足するとモデルが動きません。

ローカル LLM を試すときに最初にぶつかる制約です。「このモデルは VRAM 何 GB 必要？」という確認がスタートになります。

比較図

2026.04·ready

「RTX 5090 の 32GB VRAM だと、4bit 量子化の 70B モデルがギリ動く感じです。」

VRAMの見方

609

この用語の見どころ

役割

GPU が推論に使うパラメータ・KV キャッシュを保持します。

うれしさ

容量を把握すれば、動かせるモデルの上限を事前に計算できます。

注意点

CPU のシステムメモリ（RAM）とは独立した GPU 専用領域です。

どこで役立つか

ローカル LLM の選定や、API 利用か自前推論かの判断に使います。

はじめに

「モデルサイズ × 量子化精度 = 必要 VRAM」の目安計算を押さえます。

深掘り先

GPU（J-77）、パラメータ数（J-22）、量子化（J-19）

非エンジニアのつまずき

私のコメント

開発フローでの位置

モデル選定

→

VRAM 試算

→

環境確認

→

実行判断

→

推論実行