「です・ます調で、箇条書き 5 つ以内にまとめて」のような複数条件付き指示を、どれだけ取りこぼさず実行できるかを測ります。モデルの品質比較や用途選定の基準として使われます。
「です・ます調で、箇条書き 5 つ以内にまとめて」のような複数条件付き指示を、どれだけ取りこぼさず実行できるかを測ります。モデルの品質比較や用途選定の基準として使われます。
LLM ベンチマーク記事やモデル比較表で「Instruction Following スコア」として目にします。プロンプトの条件が多いほど差が出やすく、実務でのモデル選びに直結する指標です。
複数条件の指示をどれだけ忠実に実行できるかの評価軸です。
モデル選びの際に「複雑な指示への適性」を数値で比較できます。
スコアはプロンプト次第で変わるため、単一指標で過信しないことが大切です。
フォーマット固定や文体指定が多い業務でのモデル選定に役立ちます。
IFEval などのベンチマーク名とセットで押さえると理解が早いです。
IFEval、MT-Bench、System Prompt