群同型に基づく非教師ありでの対象間関係の学習

arXiv cs.LG / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、統計的相関に頼るのではなく、群演算から得られる階層的な構造を用いて対象間の関係を表現学習する非教師あり手法を提案している。
  • 代数の「準同型(ホモモルフィズム)」に着想を得た制約をニューラルネットワーク内に導入し、画素レベルの変化を、平行移動や変形といった解釈可能な変換成分に構造的に分解できるようにしている。
  • 動的画像シーケンスを用いて、統合アーキテクチャにより対象のセグメンテーションと運動法則の抽出を同時に学習し、正解ラベルなしで実現する。
  • 追跡・回避など発達科学の知見に基づく相互作用シーンでの実験により、複数の対象を個別の潜在スロットに分割でき、さらに接近・後退といった相対運動を1次元の加法的潜在空間として正確に構造化できることを示している。

Abstract

現在の深層学習モデルは、大規模なデータセットから統計的な相関を学習することで高い性能を達成していますが、これは人間の学習とはまったく対照的です。これらのモデルは、特に言語以前の乳児に見られるような柔軟性を欠いており、限られた経験から世界の基礎構造を自律的に獲得し、新しい状況に適応することができません。本研究では、統計的独立ではなく、群演算における階層的な関係に基づく教師なし表現学習手法を提案し、乳児の認知発達を計算論的にモデル化することを目指します。提案モデルは、物体のセグメンテーションと、動的画像系列からの運動法則の抽出を同時に行う統合アーキテクチャを特徴とします。ニューラルネットワーク内に構造的制約として代数からの同型写像(Homomorphism)を導入することで、モデルはピクセルレベルの変化を、平行移動や変形のような意味のある分解された変換成分へと構造的に分離します。発達科学の知見に基づく相互作用場面(追跡と回避タスク)を用いて、実験により、モデルが教師ラベル(正解ラベル)なしで複数の物体を個別のスロットにセグメント化できることを示します。さらに、接近や離反のような物体間の相対運動が、一次元の加法的潜在空間へ正確に写像され、構造化されることを確認しました。これらの結果は、統計的相関学習のみに依存するのではなく、代数幾何学的な制約を導入することで、物理的に解釈可能な「分離(disentangled)表現」を獲得できることを示唆しています。本研究は、乳児が環境の法則を構造として内在化する過程の理解に貢献し、発達知能を備えた人工システムを構築するための新しい視点を提供します。