文字列データに対する外れ値検出アルゴリズムの比較

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

新しい arXiv 論文は、文字列データの外れ値検出アルゴリズムを2つ比較します。1つは重み付き Levenshtein 距離を用いた LOF の変種、もう1つは階層的左正規表現学習器です。
最初の手法は、階層的文字クラスを組み込んだ Levenshtein ベースの指標を用いてデータ密度を計算し、LOF を文字列データに適用するように適応させます。
2番目の手法は、期待データを表す正規表現を推定する階層的左正規表現学習器に基づく新しい外れ値検出アルゴリズムを導入します。
実験結果は、両アルゴリズムが文字列データの外れ値検出を概念的に可能にすることを示し、正規表現ベースのアプローチは期待構造が外れ値と明確に異なる場合に優れ、LOF 系の変種は期待データとの編集距離が十分に分離される場合に良好な性能を示します。
本研究は文字列データの外れ値検出のギャップを埋め、システムログファイルのデータクリーニングおよび異常検知への応用が示唆されます。

本文: arXiv:2603.11049v1 アナウンス種別: 新規要旨: アウトライア検出は機械学習の分野で広く研究されており、重要な問題です。しかし、文字列データの外れ値検出に関する研究は少なく、ほとんどの文献は数値データの外れ値検出に焦点を当てています。堅牢な文字列データの外れ値検出アルゴリズムは、データクリーニングやシステムログファイルの異常検知を支援できると考えられます。本論文では、2つの文字列データの外れ値検出アルゴリズムを比較します。まず、レーベンシュタイン距離を用いてデータ密度を計算し、階層的文字クラスを組み込むことで LOF を文字列データに適用するように調整した、よく知られた局所外れ値ファクターアルゴリズムの変種を導入します。階層的文字クラスを考慮した異なる重み付けの Levenshtein 距離を提示し、特定の文字列データセットにアルゴリズムを調整できるようにします。次に、階層的左正規表現学習器に基づく新しいタイプの外れ値検出アルゴリズムを導入し、期待データを表す正規表現を推定します。さまざまなデータセットとパラメータを用いて実験的に示す通り、両アルゴリズムは概念的に文字列データの外れ値を見つけることができます。正規表現ベースのアルゴリズムは、期待値が外れ値の構造と十分に異なる明確な構造を持つ場合に外れ値を見つけるのに特に優れていることを示します。対照的に、局所外れ値因子アルゴリズムは、期待データとの編集距離が、期待データ間の編集距離と十分に異なる場合に外れ値を見つけるのに最も適しています。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

日経XTECH

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

Dev.to

文字列データに対する外れ値検出アルゴリズムの比較

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ