QAQ: 高品質な合成コード指示を選択するための双方向の意味的一貫性

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • QAQはReverse Mutual Information (RMI)を導入して、合成コード指示のデータ品質を評価します。回答がクエリをどれだけうまく予測できるか($Q|A$)を測定することで、従来のA|Qベースの選択手法に付きまとうノイズと幻覚に対処します。
  • 本研究は、RMIが極端に低い場合と極端に高い場合の両方で品質の問題を示すことを示します。低いRMIは意味的なずれを示し、非常に高いRMIはLLMsが容易に識別できる欠陥パターンを反映している可能性があります。
  • 強力なモデルと弱いモデルの間の意見の不一致を活用して、妥当でありながら難しいサンプルを識別し、より堅牢なデータ選択戦略を可能にします。
  • WarriorCoderデータセットでは、層別RMIを用いてデータのうち25%のみを選択するだけで、全データ訓練と同等の性能を達成し、既存のデータ選択手法を大幅に上回り、データ量と計算コストを削減します。
要旨: 合成データはコード生成モデルの訓練に不可欠となっているが、現在の指標では検出が難しい重大なノイズと幻覚を導入します。Instruction-Following Difficulty (IFD) のような既存のデータ選択手法は通常、クエリに対してモデルがどれだけ難しく答えを生成するかを評価します($A|Q$)。しかし、この指標はノイズの多い合成データではあいまいで、低い確率は内在的なタスクの複雑さとモデル生成幻覚を区別できません。ここで、回答がクエリを予測する能力を逆方向から評価する新しいデータ選択フレームワークQAQを提案します:$Q|A$。回答に条件づけられたクエリの情報量増加を定量化するためにReverse Mutual Information (RMI)を定義します。われわれの分析は、RMIの極端な値の両端が品質問題を示すことを明らかにします。低RMIは意味的ずれを示し、過度に高いRMIはLLMsが容易に識別できる欠陥パターンを含む可能性があります。さらに、強力なモデルと弱いモデルの間の意見の不一致に基づく選択戦略を導入し、妥当でありながら難しいサンプルを識別します。WarriorCoderデータセットでの実験では、層別RMIを用いてデータのわずか25%を選択するだけで、全データ訓練と同等の性能を達成し、既存のデータ選択手法を大幅に上回ります。私たちのアプローチは、合成データキュレーションにおける双方向の意味的一貫性の重要性を強調し、計算コストを削減しつつモデル能力を損なうことなくスケーラブルな道を提供します。