JVM 向けのカラム型アナリティクスエンジンである Stratum に、ネイティブの異常検知を追加しました。SQL だけで分離フォレスト(Isolation Forest)モデルを学習し、スコアリングします — Python も、エクスポート用のパイプラインも不要です:
SELECT * FROM transactions WHERE ANOMALY_SCORE('fraud_model') > 0.7; 1 トランザクションあたり 6 マイクロ秒、SIMD によって高速化され、クエリエンジンの内部で動作します。全文では、なぜそれを作ったのか、分離フォレストがどのように機能するのか、そして PyOD/scikit-learn とのベンチマークについて説明しています:
https://datahike.io/notes/anomaly-detection-in-your-database/
Stratum はオープンソース(Apache 2.0)です: https://github.com/replikativ/stratum
実装に関する質問には喜んでお答えします — 分離フォレストは Vector API の SIMD を使った純粋な Java で、スコアリングはクエリ実行パイプラインに統合されているため、ゾーンマップのプルーニングとチャンク化されたストリーミングの恩恵を受けます。
[link] [comments]




