LMSYS が運営する人手投票型モデル評価基盤です。匿名 2 モデルに同じ質問を投げて好みの回答を選び、ELO レーティングでリーダーボードを公開します。
LMSYS が運営する人手投票型モデル評価基盤です。匿名 2 モデルに同じ質問を投げて好みの回答を選び、ELO レーティングでリーダーボードを公開します。
新モデル記事で「LMSYS ランキングで上位」と紹介される場面が典型です。「LMSYS Arena」「LMArena」「Chatbot Arena」が混在しがちです。
人手投票の ELO でモデルの「体感品質」を順位化します。
数値ベンチと違い、実用文脈の印象がスコアに反映されます。
LMSYS・Chatbot Arena・LMArena は別名で同系列のサービスです。
モデル選定時に「世間の体感評価」を一覧で確認できます。
運営主体 LMSYS と Chatbot Arena(E-50)の関係を把握するのが出発点です。
Chatbot Arena、ELO レーティング、SWE-Bench Verified