どのモデルが優れているかを「人間の感覚」で評価します。2 モデルに同じ質問を投げて勝者を投票し、その結果を ELO レーティングで集計します。
どのモデルが優れているかを「人間の感覚」で評価します。2 モデルに同じ質問を投げて勝者を投票し、その結果を ELO レーティングで集計します。
新モデル発表記事や比較記事で「Chatbot Arena ランキング上位」という表現を見かけます。lmarena.ai で自分でも対戦形式を試せ、感覚的にモデルの差を体験できます。
人間の投票を集計し、モデルの総合的な会話力を順位化します。
自動採点では測れない「読んだ感じの良さ」を数値にできます。
投票者の偏りや質問の分布でスコアが動くことがあります。
モデル選定の第一歩として、体感に近い比較軸を得られます。
匿名対戦形式と ELO の仕組みが出発点です。
ELO レーティング、MMLU、SWE-Bench