Abstract
大規模言語モデルの教師ありファインチューニングは、人手による注釈データに依存しますが、注釈パイプラインでは、専門性が異なる複数のクラウドワーカーが関与することが日常的です。標準的な実務では、多数決や単純平均によってラベルを集約し、注釈者の識別情報を捨てることで、信頼性の低い注釈者の誤りをモデルがそのままパラメータに取り込む原因になります。我々は、REALMという方法を提案します。REALMは、各注釈者に対するスカラーの専門性(expertise)値とモデルのパラメータを、完全に教師なしで共同学習します。注釈者の識別情報以外の監督(supervision)を一切必要としません。主要なアイデアは、観測された各ラベルを、注釈者が学習した専門性によって重み付けされた、モデルの予測と一様なランダムな当て推量の混合としてモデル化することです。さらに、タスクごとの注釈者の信頼性を捉える学習済みの専門性行列によって、REALMをマルチタスク設定へ拡張します。我々は5つの質問応答ベンチマークで評価し、シミュレートしたノイズ付き注釈のもとで、Flan-T5を3つのサイズそれぞれファインチューニングします。提案アルゴリズムは、単一タスクおよびマルチタスクの大部分の設定において、データセット、モデルサイズ、ノイズ種別のすべてにわたり、一貫して素朴なノイズ付きSFTを上回ります。最も敵対的(adversarial)な状況では精度が最大で50\%改善し、さらにモデルの能力(capacity)が大きくなるほど利得が増大します。