概要: 高品質なラベル付きデータは、信頼できる機械学習および深層学習モデルを訓練するために不可欠です。しかし、手作業によるアノテーションは費用がかかり、かつエラーが起こりやすいままです。プログラムによるラベリングは、ラベル関数(LF)を用いることでこの課題に対処します。LFとは、学習データセットのための弱いラベルを自動的に生成するヒューリスティック規則のことです。しかし、既存の自動LF生成手法は、大規模言語モデル(LLM)を用いて表層的なヒューリスティックを合成するか、あるいは手作りのプリミティブ上でモデルベースの合成を行う、いずれかに依存しています。これらのアプローチは、多くの場合、カバレッジが限定的であり、ラベル品質も信頼できないものになりがちです。本論文では、EXPONAという、自動化されたプログラム的ラベリングのための枠組みを提案します。EXPONAは、LF生成を、多様性と信頼性のバランスを取るという原理に基づいたプロセスとして定式化します。EXPONAは、表層、構造、意味という観点から、複数レベルのLFを体系的に探索します。さらにEXPONAは、相補的な信号を保持しつつ、不 noisy あるいは冗長なヒューリスティックを抑制するための信頼性を考慮したメカニズムを適用します。EXPONAを評価するために、多様な領域にまたがる11の分類データセットに対して大規模な実験を実施しました。実験結果は、EXPONAが一貫して最先端の自動LF生成手法を上回ることを示しています。具体的には、EXPONAはほぼ完全なラベルカバレッジ(最大98.9%)を達成し、弱いラベル品質を最大87%まで改善し、重み付きF1において下流タスクの性能を最大46%向上させました。これらの結果は、EXPONAの複数レベルのLF探索と信頼性を考慮したフィルタリングの組み合わせにより、生成されるLF集合におけるカバレッジと精度のバランスが取られることで、多様なタスクにわたりより一貫したラベル品質と下流性能が実現できたことを示しています。
ラベル関数の構造化された探索と活用による自動データ注釈
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コストがかかり誤りやすい手作業による注釈という課題に対し、ラベル関数(ヒューリスティック規則)を用いて、ML学習用の弱ラベルを自動生成することで解決することを目指している。
- 過去の自動ラベル関数生成手法は、表層的なLLMのヒューリスティックに依存した場合や、制約付きプリミティブによる合成に頼った場合に、カバレッジの不足や品質の不確実性という問題を抱えやすいと主張している。
- 提案するEXPONAフレームワークは、LF生成を構造化されたプロセスとして捉え、多様性(表層・構造・意味の各視点にまたがる複数レベルのLFを探索すること)と信頼性(ノイズの多い、または冗長なヒューリスティックを抑制すること)のバランスを取る。
- 11の分類データセットでの実験により、EXPONAは最大98.9%のラベルカバレッジを達成し、弱ラベルの品質を最大87%向上させ、下流タスクの重み付きF1を最大46%、最先端手法に比べて改善できることを示している。
- 全体として、信頼性を考慮したフィルタリングに基づく多レベル探索は、より一貫した弱ラベル集合を生成し、多様な領域において下流タスクの性能をより良くすることが示唆される。

