知識ランドマークに基づくインフォームド・マシンラーニング

arXiv cs.LG / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、知識とデータを組み合わせてより汎化可能なMLモデルを構築するための統一的な枠組みとして「インフォームド・マシンラーニング」を提示する。
数値データセットを、入出力の情報の粒（input-output information granules）として表現されるより高次の「知識ランドマーク」と統合するKD-ML（Knowledge-Data Machine Learning）を導入する。
著者らは、詳細なKD-ML設計プロセスを開発し、データへの適合と、知識ランドマークから導かれる制約を課す粒度付き正則化器のバランスを取る拡張損失関数を提案する。
損失のハイパーパラメータや、データのノイズレベル、知識ランドマークの粒度といった要因が、モデル性能やガイダンスにどのように影響するかを分析する。
物理法則に支配された2つのベンチマークでの実験により、KD-MLは一貫してデータ駆動型のMLベースラインを上回り、物理関連の状況における知識拡張学習の利点が示唆される。

要旨: 情報駆動型機械学習（Informed Machine Learning）は、知識とデータに基づいてモデルを統一的な基盤の上で構築するための、統一された概念的およびアルゴリズム的枠組みを構築することで、機械学習（ML）の実行可能な一般化として登場してきた。物理方程式を含む物理インフォームドMLは、情報駆動型機械学習の発展の一つである。本研究では、KD-ML（Knowledge-Data ML）と呼ぶ、知識の断片（granular knowledge landmarks）という形で表現された粒度の細かい知識の目印と数値データを統合する、知識-データMLの新しい方向性を提案する。本研究は、データと知識がいくつかの基本的な点で補完的であることを主張する。すなわち、データは精密（数値）で局所的であり、通常は入力空間のある領域に限定される。一方、知識はグローバルであり、より高い抽象度のレベルで定式化される。知識は情報粒（information granules）として表現でき、知識の目印（knowledge landmarks）と呼ばれる、入出力情報粒の集合として整理できる。この明確な補完性に基づき、KD-MLモデルの包括的な設計プロセスを開発し、利用可能な数値データに基づいてモデルを最適化する役割を担う成分を加法的に取り込むとともに、2つ目の成分は粒度のある正則化器として機能し、粒度制約（知識の目印）に従うようにする、独自の拡張損失関数 L を定式化する。さらに、損失関数に位置づけられたハイパーパラメータが、データと知識の寄与と導く役割のバランスをどのように取るかを示し、データの品質（ノイズ水準）および知識の目印の粒度レベルに関連するいくつかの本質的な傾向を明らかにする。物理に支配された2つのベンチマークに対する実験により、提案するKDモデルが一貫してデータ駆動型MLモデルよりも優れていることを示す。