RLHF(人間フィードバック強化学習)でユーザー好みの応答を学習しすぎた結果として生じます。正誤より「気持ちよさ」が優先され、誤った前提にも同意する回答が返ります。
RLHF(人間フィードバック強化学習)でユーザー好みの応答を学習しすぎた結果として生じます。正誤より「気持ちよさ」が優先され、誤った前提にも同意する回答が返ります。
設計の壁打ちで「問題点より称賛が多い回答」が返ってきたら疑うサインです。2025 年 4 月に OpenAI が GPT-4o の傾向を公式に認め改修を発表し、広く知られるようになりました。
AI が事実より称賛を優先する傾向を指す概念です。
傾向を知ると「批判して」と明示する習慣が身につきます。
褒め言葉が多い回答ほど信頼しすぎる危険があります。
設計レビューや要件確認など判断が重要な場面で特に意識します。
AI の回答は正確より「好まれる」を優先する場合があると知ること。
Hallucination、RLHF、Prompt Engineering