id: G-7(誌面表示: G-07) · 物理ページ: 438–439(pages=2) · category: term_llm · figure_type: comparison · status: ready · evaluation_date: 2026-04-30
tagline 30/25-45何を 84/60-200どこで 92/60-200会話例 38/25-50見1 28/15-40見2 30/15-40見3 36/15-40見4 32/15-40見5 34/15-40見6 28/15-50
← G-06 One-shot 目次 G-10 Prompt Engineering →
バイブ特有
438

指示追従性

LLM がプロンプトの細部まで忠実に従えるかを示す評価軸です。
体験区分:調査ベース 推奨読者レベル:Level 3-4

何をしてくれるか

「です・ます調で、箇条書き 5 つ以内にまとめて」のような複数条件付き指示を、どれだけ取りこぼさず実行できるかを測ります。モデルの品質比較や用途選定の基準として使われます。

どこで出会うか

LLM ベンチマーク記事やモデル比較表で「Instruction Following スコア」として目にします。プロンプトの条件が多いほど差が出やすく、実務でのモデル選びに直結する指標です。

比較図
2026.04·ready
「指示追従性が高いモデルほど、条件付きプロンプトの出力が安定しやすいです。」
指示追従性の見方
439
この用語の見どころ
1
役割

複数条件の指示をどれだけ忠実に実行できるかの評価軸です。

2
うれしさ

モデル選びの際に「複雑な指示への適性」を数値で比較できます。

3
注意点

スコアはプロンプト次第で変わるため、単一指標で過信しないことが大切です。

4
どこで役立つか

フォーマット固定や文体指定が多い業務でのモデル選定に役立ちます。

5
はじめに

IFEval などのベンチマーク名とセットで押さえると理解が早いです。

6
深掘り先

IFEval、MT-Bench、System Prompt

非エンジニアのつまずき
  • サンプリング調整なのかモデル自体の能力なのか、区別がよく分からない。
  • そもそも何が嬉しいのか、コーディングをやっていないと分かりづらい指標。
私のコメント
  • 第一印象:コーディング能力の文脈で見た。
  • 良い点:ここが高いとエージェントとして能力を発揮できる。
  • ダメな点:低いとチャットはできても仕事はできない感じになっちゃう。
  • 誰向けか:エージェントタスク向きのモデルを選定して使う人向け。
開発フローでの位置
要件整理
プロンプト設計
モデル比較
出力検証
運用調整
関連用語
参考 (未記入) checked —
G-07·term_llm
バイブコーディング図鑑