REALM:信頼性のある専門知識を考慮したノイズ付き注釈からの言語モデル微調整

arXiv cs.LG / 2026/4/21

📰 ニュースModels & Research

要点

  • この論文は、多数決や平均化のように注釈者を一律に扱うのではなく、クラウドワーカーの専門性のばらつきを反映して微調整する非教師あり手法REALMを提案する。
  • REALMは、各注釈で観測されるラベルを「モデルの予測」と「一様ランダムな推測」の混合としてモデル化し、各注釈者の学習された専門性スカラーで重み付けする。
  • REALMをマルチタスク設定へ拡張し、タスクごとの注釈者の信頼性の違いを捉える学習済みの専門性行列を用いる。
  • 5つの質問応答ベンチマークで、ノイズ付き注釈をシミュレーションしつつ3サイズのFlan-T5を微調整した実験では、素朴なノイズ付きSFTに対して一貫して改善が見られる(最も敵対的な条件で最大約50%の精度向上)。
  • 改善効果はモデルの能力(キャパシティ)とともに増大し、データセット、モデルサイズ、複数のノイズ種別を通じて頑健性が示されている。

Abstract

大規模言語モデルの教師ありファインチューニングは、人手による注釈データに依存しますが、注釈パイプラインでは、専門性が異なる複数のクラウドワーカーが関与することが日常的です。標準的な実務では、多数決や単純平均によってラベルを集約し、注釈者の識別情報を捨てることで、信頼性の低い注釈者の誤りをモデルがそのままパラメータに取り込む原因になります。我々は、REALMという方法を提案します。REALMは、各注釈者に対するスカラーの専門性(expertise)値とモデルのパラメータを、完全に教師なしで共同学習します。注釈者の識別情報以外の監督(supervision)を一切必要としません。主要なアイデアは、観測された各ラベルを、注釈者が学習した専門性によって重み付けされた、モデルの予測と一様なランダムな当て推量の混合としてモデル化することです。さらに、タスクごとの注釈者の信頼性を捉える学習済みの専門性行列によって、REALMをマルチタスク設定へ拡張します。我々は5つの質問応答ベンチマークで評価し、シミュレートしたノイズ付き注釈のもとで、Flan-T5を3つのサイズそれぞれファインチューニングします。提案アルゴリズムは、単一タスクおよびマルチタスクの大部分の設定において、データセット、モデルサイズ、ノイズ種別のすべてにわたり、一貫して素朴なノイズ付きSFTを上回ります。最も敵対的(adversarial)な状況では精度が最大で50\%改善し、さらにモデルの能力(capacity)が大きくなるほど利得が増大します。