行列の掛け算(GEMM)を汎用コアより高速に処理します。FP16・BF16・FP8 など混合精度演算に対応し、LLM の学習や推論で必要な大規模行列計算を短時間でこなせます。
行列の掛け算(GEMM)を汎用コアより高速に処理します。FP16・BF16・FP8 など混合精度演算に対応し、LLM の学習や推論で必要な大規模行列計算を短時間でこなせます。
GPU スペック表や AI 学習環境の選定記事で「Tensor コア数 × 世代」として登場します。H100・RTX 40 シリーズ選びで TFLOPS を比較する場面が代表的です。
GPU 内で行列演算だけを高速処理する専用ユニットです。
LLM 学習・推論の所要時間が大幅に短縮できます。
世代ごとに対応精度が異なり、FP8 は H100 以降でのみ有効です。
GPU 選定や訓練コスト試算の場面で判断基準になります。
「行列演算を速くする専用コア」という役割を押さえれば十分です。
GPU、H100、量子化