概要: モデル応答の厳密な匿名性は、LM Arena のような投票ベースのリーダーボードの信頼性を左右する重要な要素です。 一方、先行研究は TF-IDF やバッグオブワードのような単純な統計的特徴を用いてこの仮定を崩そうとする試みをしていますが、これらの手法は、スタイル的に似ているまたは同族のモデルを区別する判別力に欠けることが多いです。 このような限界を克服し、脆弱性の深刻さを露呈させるために、INTERPOLを導入します。 INTERPOL は、補間された嗜好データを用いてターゲットモデルを他のモデルと識別することを学習する、モデル駆動の識別フレームワークです。 具体的には、INTERPOL は表面的な統計的特徴が見逃す深いスタイルパターンを、モデル補間を通じて難易度の高いネガティブサンプルを合成し、適応的なカリキュラム学習戦略を採用することによって捉えます。 広範な実験により、INTERPOL は識別精度において既存のベースラインを大幅に上回ることを示します。 さらに、Arena戦データ上のランキング操作シミュレーションを通じて、我々の発見が現実世界における脅威を定量化します。
InterPol: 補間された嗜好学習による LM Arena の匿名性解除
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- INTERPOL は、補間された嗜好データを用いてターゲットモデルを識別することにより LM Arena の応答の匿名性を解除する、モデル駆動の識別フレームワークである。
- モデル補間を通じて難易度の高いネガティブサンプルを合成し、単純な統計的特徴が見逃す深い文体パターンを浮き彫りにする適応的カリキュラム学習戦略を採用している。
- 実験結果は INTERPOL がモデル識別精度で既存のベースラインを上回ることを示しており、匿名リーダーボードの脆弱性を浮き彫りにしている。
- 著者らは Arena の対戦データにおけるランキング操作をシミュレートし、実世界での脅威を定量化するとともに、LM 評価プラットフォームの公正性と信頼性への影響を評価する。




