一般語彙

VLM

ビジョンランゲージモデル

Vision Language Model の略。画像とテキストを同時に理解できる言語モデルです。

体験区分：少しだけ触った推奨読者レベル：Level 3-4

画像をトークン列に変換して LLM に渡し、「この図は何を示すか」「スクショのどこが崩れているか」をテキストで答えます。OCR 的な解析やグラフの数値読み取りにも使えます。

ChatGPT や Claude に画像を貼ると背後で動いています。UI スクショのレイアウト崩れを指摘させたり、Playwright MCP と組み合わせてデバッグする場面で登場します。

イメージ

開発フローでの位置

入力準備

→

画像エンコード

→

LLM 統合

→

テキスト出力

2026.04·ready

「Claude に UI のスクショを渡して、VLM 機能でレイアウト崩れを指摘してもらいました。」

VLMの見方

571

この用語の見どころ

役割

画像とテキストを統合して理解する言語モデルです。

うれしさ

「見せて説明させる」操作でデバッグや解析を自動化できます。

注意点

VLM / LMM / LVM は別概念で、業界で混在しています。

どこで役立つか

UI 確認・グラフ読み取り・OCR 代替など視覚処理全般で活躍します。

はじめに

「画像も読める LLM」と認識しておけば入門として十分です。

深掘り先

LLM、ViT（Vision Transformer）、マルチモーダル

非エンジニアのつまずき

私のコメント