生物医学時系列データのアノテーションにおけるサンプル選択戦略としてのインタラクティブ2D可視化の評価
arXiv cs.LG / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究では、生物医学時系列のアノテーションに向けて3つのサンプル選択戦略—ランダムサンプリング(RND)、ファーステストファースト走査(FAFT)、2D可視化ユーザインタフェース手法(2DV)—を、限られたアノテーション予算のもとで実際の人間のアノテータを用いて評価する。
- 4つの分類タスク(乳児の運動性評価、発話の感情認識など)にわたって、2DVはアノテータ間のラベルを集約した場合に最も良い総合結果を示す。
- 乳児の運動性評価において、2DVは希少クラスを捉える点で特に有効であるが、各アノテータのラベルに基づいて学習する場合には、ラベル分布のばらつきがモデル性能を低下させうる。この点ではFAFTがより良い。
- 発話の感情認識では、2DVは専門家アノテータに対して他手法を上回り、さらに非専門家においても、個々のアノテータのラベル集合を考慮した場合に専門家と同程度の性能を達成する。
- リスク分析では、アノテータ数や専門性が不確実な場合にはRNDが最も安全な選択肢である一方、ばらつきが大きいため2DVが最も高い失敗リスクを伴うことが示される。また、インタビューからは2DVがアノテーションをより魅力的にすることも確認された。
- 著者らは、特にアノテーション予算が極端にタイトでない場合に、生物医学時系列のラベリングに対する2DVベースのサンプリングが有望であると結論づけている。



