逐次モンテカルロによるスケーラブルなモデルベースクラスタリング

arXiv stat.ML / 2026/4/17

📰 ニュースModels & Research

要点

  • 本論文は、追加データが得られるまでクラスタ割り当ての不確実性が解消されにくいオンラインクラスタリングを扱っています。
  • 伝統的なSMCが抱える主なメモリ制約を、クラスタリング課題を「おおむね独立なサブ問題」に分解することで緩和する新しいSMCアルゴリズムを提案します。
  • 提案手法は、テキストデータに代表されるように複雑な分布に従うクラスタのもとでのクラスタリングを扱えるよう設計されています。
  • 著者らは知識ベース構築問題を動機として手法を説明し、従来のSMCが苦手とする状況でも高精度かつ効率的にクラスタリングを解けることを示します。

Abstract

オンラインクラスタリング問題では、クラスタ割り当ての候補に関して観測されるまでは解決できない不確実性がしばしば大量に存在します。この難しさは、テキストデータのようにクラスタが複雑な分布に従う場合にはさらに増幅されます。逐次モンテカルロ(SMC)手法は、この不確実性を時間とともに表現し更新する自然な方法を与えますが、大規模問題に対しては記憶容量の要求が過大で実行が困難です。本研究では、クラスタリング問題を概ね独立した部分問題へ分解する新しいSMCアルゴリズムを提案し、アルゴリズム状態のよりコンパクトな表現を可能にします。提案手法は、知識ベース構築問題の知見に動機づけられており、従来のSMCが苦手とする他の設定を含むこの状況において、我々の方法がクラスタリング問題を正確かつ効率的に解くことができることを示します。