埋め込みベクトルのクラスタリングという課題に特化して新しいライブラリを書きました。埋め込みベクトルは非常に高次元であることが多く、そのため古典的なクラスタリングアルゴリズムでは、クラスタの品質や計算時間の性能のいずれにおいてもうまく動かしにくいことがあります。
EVōCは、UMAPやHDBSCANといった基盤から構築されており、埋め込みベクトルのクラスタリングのために再設計され、調整され、最適化されています。埋め込みベクトルのクラスタリングに今すぐUMAP + HDBSCANを使っているのであれば、EVōCははるかに短い時間でより良い品質の結果を提供できます。実際、EVōCはsklearnのMiniBatchKMeansに対するスケーリング性能で競争力があります。
Github: https://github.com/TutteInstitute/evoc
[リンク] [コメント]




