Abstract
ブラインドスポット質量は、機械学習におけるデプロイメントのカバレッジ・リスクを定量化するためのGood-Turing枠組みである。現代のMLシステムでは、運用状態の分布が重い裾(heavy-tailed)を持つことが多く、有限の学習および評価データにおいて、構造的に十分に支持されていない「有効だが稀な状態」の長い裾が存在する。その結果として「カバレッジの盲目性(coverage blindness)」という形が生じる。すなわち、モデルは標準的なテストセットでは正確に見える一方で、デプロイメント状態空間の広い領域にわたって信頼できない可能性がある。
本研究では、経験的な支持が閾値tau未満である状態に割り当てられた総確率質量を推定するデプロイメント指標である、ブラインドスポット質量B_n(tau)を提案する。B_n(tau)はGood-Turingの未観測種(unseen-species)推定を用いて計算され、信頼性にとって重要であり、かつ十分に支持されていないレジームに運用上の分布のうちどれほどの質量が存在するかを、原理に基づいて推定するものである。さらに、全体の性能を支持される成分とブラインド成分に分解し、容量の限界とデータの限界を切り分けることで、カバレッジが課す精度の上限も導出する。
我々は、手首装着型の慣性データを用いたウェアラブル・ヒト行動認識(HAR)において、この枠組みを検証する。次に、275回の入院を含むMIMIC-IVの病院データベースにおいて同一の解析を再現する。そこで、ブラインドスポット質量の曲線は、臨床状態の抽象化が異なる場合でも、tau = 5で同じ95%へ収束する。この、構造的に独立なドメイン間での再現——モダリティ、特徴空間、ラベル空間、アプリケーションが異なる——により、ブラインドスポット質量が、特定のアプリケーション固有のアーティファクトではなく、組合せ的なカバレッジ・リスクを定量化する一般的なML手法であることが示される。
ブラインドスポット分解は、どの活動または臨床レジームがリスクを支配するかを特定し、安全なデプロイメントのために、産業実務者に対して、対象を絞ったデータ収集、正規化/再正規化、および物理学またはドメインに基づく制約に関する実行可能な指針を提供する。