要旨: マルチモーダルな知識を正確に表現することは、現実世界のシナリオにおけるイベント予測にとって極めて重要である。しかし、既存の研究は主として静的な設定に焦点を当てており、マルチモーダル知識の動的な獲得と融合を見落としている。1) 知識獲得のレベルでは、異なるモダリティの時間に敏感な情報、特に動的な構造モダリティをどのように学習するか。既存の動的学習手法は、多様な空間にまたがる浅い構造や、単純なユニスペースに限定されることが多く、深い関係性を考慮した幾何学的特徴を捉えるのが難しい。2) 知識融合のレベルでは、進化するマルチモーダル融合特徴をどのように学習するか。静的な共注意(coattention)に基づく既存の知識融合手法は、異なるモダリティが将来の出来事に対して持つ履歴上の寄与の変動を捉えることができない。そこで本研究では、マルチモーダル時間的知識を効率的に獲得し融合するための、Dynamic Multispace Representation Learning(DyMRL)を提案する。1) 前者の課題に対して、DyMRLはユークリッド空間、双曲空間、複素空間における時間特有の構造特徴を、関係に基づくメッセージパッシングの枠組みに統合し、深い表現を学習する。これは、連想的思考、高次の抽象化、論理的推論といった人間の知性を反映している。事前学習済みモデルは、DyMRLに時間に敏感な視覚および言語の知性を与える。2) 後者の懸念に対して、DyMRLは高度な二重融合進化アテンション機構を取り入れ、対称的なやり方で、異なるタイムスタンプにおいて異なるモダリティへ動的な学習の重点を等しく割り当てる。学習したマルチモーダルな時間的知識を履歴から活用してDyMRLのイベント予測性能を評価するために、4つのマルチモーダル時間的知識グラフのベンチマークを構築する。大規模な実験により、DyMRLが最先端の動的な単一モダリティ手法および静的なマルチモーダル手法のベースラインを上回ることを示す。
DyMRL:知識グラフにおけるマルチモーダル事象予測のためのダイナミック・マルチスペース表現学習
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、静的な表現仮定にとどまらず、知識グラフにおけるマルチモーダル事象予測を改善することを目的としたダイナミック・マルチスペース表現学習手法DyMRLを提案する。