エネルギーに基づくオープンセット能動学習による物体分類

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来の能動学習の「クローズドセット」前提を見直し、未ラベルデータに既知クラスと未知クラスの両方が含まれ得るオープンセット状況に対応します。
提案手法は、エネルギーに基づくデュアルステージの能動学習フレームワークで、まずエネルギーに基づく既知/未知セパレータで未知らしいサンプルを除外し、その後エネルギーに基づくサンプルスコアラで除外後の既知サンプルを情報量で評価します。
エネルギーの地形（エネルギーランドスケープ）を利用して、既知クラスには低いエネルギー、未知クラスには高いエネルギーを割り当てることで、無関係なカテゴリへのアノテーション予算の浪費を抑えます。
CIFAR-10/100、TinyImageNet（2D）およびModelNet40（3D）を含むベンチマーク実験で、既存のオープンセット手法よりもアノテーション効率と分類性能が向上することを示しています。

要旨: アクティブラーニング（AL）は、注釈のためにラベルなしデータのプールから最も価値の高いサンプルを選択することで、深層学習におけるラベリングコストを最小化するための重要な手法として登場してきました。従来のALは、データセット内のすべてのクラスが既知であり、一貫しているというクローズドセット仮定のもとで動作します。しかし、現実のシナリオでは、ラベルなしデータに既知クラスと未知クラスの両方が含まれるオープンセット条件がしばしば生じます。このような環境では、標準的なAL手法がうまく機能しません。未知カテゴリに属するサンプルを誤って照会してしまい、注釈予算を非効率に消費することになります。本論文では、オープンセットALのための新しいデュアルステージ・エネルギーベースの枠組みを提案します。提案手法は、2つの専門化したエネルギーベースモデル（EBM）を用います。1つ目は、エネルギーベースの既知／未知セパレータであり、未知クラスに属する可能性が高いサンプルを除外します。2つ目は、エネルギーベースのサンプルスコアラであり、除外された既知サンプルの情報量を評価します。エネルギーランドスケープを用いることで、提案モデルは、エネルギーを既知サンプルでは低く、未知サンプルでは高く割り当てることにより、ラベルなしプール内の既知クラスと未知クラスに由来するデータ点を識別し、ラベリング対象として関心のあるクラスのサンプルのみが選択されるようにします。これらの要素を統合することで、本アプローチは各イテレーションにおける学習への影響を最大化しつつ、効率的で的を絞ったサンプル選択を実現します。2D（CIFAR-10、CIFAR-100、TinyImageNet）および3D（ModelNet40）の物体分類ベンチマークに関する実験では、本枠組みが既存手法を上回り、オープンセット環境において注釈効率と分類性能の両方で優れた結果を達成することが示されます。