AI Navigate

文字列データに対する外れ値検出アルゴリズムの比較

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 新しい arXiv 論文は、文字列データの外れ値検出アルゴリズムを2つ比較します。1つは重み付き Levenshtein 距離を用いた LOF の変種、もう1つは階層的左正規表現学習器です。
  • 最初の手法は、階層的文字クラスを組み込んだ Levenshtein ベースの指標を用いてデータ密度を計算し、LOF を文字列データに適用するように適応させます。
  • 2番目の手法は、期待データを表す正規表現を推定する階層的左正規表現学習器に基づく新しい外れ値検出アルゴリズムを導入します。
  • 実験結果は、両アルゴリズムが文字列データの外れ値検出を概念的に可能にすることを示し、正規表現ベースのアプローチは期待構造が外れ値と明確に異なる場合に優れ、LOF 系の変種は期待データとの編集距離が十分に分離される場合に良好な性能を示します。
  • 本研究は文字列データの外れ値検出のギャップを埋め、システムログファイルのデータクリーニングおよび異常検知への応用が示唆されます。
本文: arXiv:2603.11049v1 アナウンス種別: 新規 要旨: アウトライア検出は機械学習の分野で広く研究されており、重要な問題です。しかし、文字列データの外れ値検出に関する研究は少なく、ほとんどの文献は数値データの外れ値検出に焦点を当てています。堅牢な文字列データの外れ値検出アルゴリズムは、データクリーニングやシステムログファイルの異常検知を支援できると考えられます。本論文では、2つの文字列データの外れ値検出アルゴリズムを比較します。まず、レーベンシュタイン距離を用いてデータ密度を計算し、階層的文字クラスを組み込むことで LOF を文字列データに適用するように調整した、よく知られた局所外れ値ファクターアルゴリズムの変種を導入します。階層的文字クラスを考慮した異なる重み付けの Levenshtein 距離を提示し、特定の文字列データセットにアルゴリズムを調整できるようにします。次に、階層的左正規表現学習器に基づく新しいタイプの外れ値検出アルゴリズムを導入し、期待データを表す正規表現を推定します。さまざまなデータセットとパラメータを用いて実験的に示す通り、両アルゴリズムは概念的に文字列データの外れ値を見つけることができます。正規表現ベースのアルゴリズムは、期待値が外れ値の構造と十分に異なる明確な構造を持つ場合に外れ値を見つけるのに特に優れていることを示します。対照的に、局所外れ値因子アルゴリズムは、期待データとの編集距離が、期待データ間の編集距離と十分に異なる場合に外れ値を見つけるのに最も適しています。