画像をトークン列に変換して LLM に渡し、「この図は何を示すか」「スクショのどこが崩れているか」をテキストで答えます。OCR 的な解析やグラフの数値読み取りにも使えます。
画像をトークン列に変換して LLM に渡し、「この図は何を示すか」「スクショのどこが崩れているか」をテキストで答えます。OCR 的な解析やグラフの数値読み取りにも使えます。
ChatGPT や Claude に画像を貼ると背後で動いています。UI スクショのレイアウト崩れを指摘させたり、Playwright MCP と組み合わせてデバッグする場面で登場します。
画像とテキストを統合して理解する言語モデルです。
「見せて説明させる」操作でデバッグや解析を自動化できます。
VLM / LMM / LVM は別概念で、業界で混在しています。
UI 確認・グラフ読み取り・OCR 代替など視覚処理全般で活躍します。
「画像も読める LLM」と認識しておけば入門として十分です。
LLM、ViT(Vision Transformer)、マルチモーダル