id: J-15(誌面表示: J-15) · 物理ページ: 570–571(pages=2) · category: term_general · figure_type: structure · status: ready · evaluation_date: 2026-04-29
tagline 46/25-45 ↑1何を 83/60-200どこで 88/60-200会話例 46/25-50見1 24/15-40見2 29/15-40見3 28/15-40見4 33/15-40見5 29/15-40見6 34/15-50
← J-14 LLM 目次 J-16 Fine-tuning →
一般語彙
570

VLM

ビジョン ランゲージ モデル
Vision Language Model の略。画像とテキストを同時に理解できる言語モデルです。
体験区分:少しだけ触った 推奨読者レベル:Level 3-4

何をしてくれるか

画像をトークン列に変換して LLM に渡し、「この図は何を示すか」「スクショのどこが崩れているか」をテキストで答えます。OCR 的な解析やグラフの数値読み取りにも使えます。

どこで出会うか

ChatGPT や Claude に画像を貼ると背後で動いています。UI スクショのレイアウト崩れを指摘させたり、Playwright MCP と組み合わせてデバッグする場面で登場します。

構造図
2026.04·ready
「Claude に UI のスクショを渡して、VLM 機能でレイアウト崩れを指摘してもらいました。」
VLMの見方
571
この用語の見どころ
1
役割

画像とテキストを統合して理解する言語モデルです。

2
うれしさ

「見せて説明させる」操作でデバッグや解析を自動化できます。

3
注意点

VLM / LMM / LVM は別概念で、業界で混在しています。

4
どこで役立つか

UI 確認・グラフ読み取り・OCR 代替など視覚処理全般で活躍します。

5
はじめに

「画像も読める LLM」と認識しておけば入門として十分です。

6
深掘り先

LLM、ViT(Vision Transformer)、マルチモーダル

非エンジニアのつまずき
  • LLM とごっちゃになりやすく、マルチモーダル化で用語の切り分けが難しいです
私のコメント
  • 第一印象:ロボットのビジョン文脈で初めて知った言葉です
  • 良い点:言語モデルと視覚モデルを切り分けて正確に指せる点が良いです
  • ダメな点:LLM も馴染まない中、VLM を日常会話で使うのはさらにハードルが高いです
  • 誰向けか:AI 活用を推進する人で、用語を厳密に使いたい人向けです
開発フローでの位置
入力準備
画像エンコード
LLM 統合
テキスト出力
関連用語
参考 (未記入) checked —
J-15·term_general
バイブコーディング図鑑