機械学習とトランスフォーマーモデルを用いた多言語金融詐欺検出:ベンガル語と英語の研究
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、正当なメッセージと詐欺メッセージのデータセットを用いた多言語ベンガル語・英語金融詐欺検出を調査し、TF-IDF特徴量を用いた古典的機械学習とトランスフォーマーベースのアーキテクチャを比較します。
- 5分割の層化交差検証において、線形SVMは91.59%の精度と91.30%のF1を達成し、トランスフォーマーモデル(89.49%の精度、88.88%のF1)を約2ポイント上回りました。
- トランスフォーマーアプローチは詐欺検出リコールが高く、94.19%を示した一方で、偽陽性率が高くなる傾向がありました。
- 結果は、精巧な特徴量を用いた古典的機械学習が多言語詐欺検出において依然として競争力を保持する一方、言語的多様性・コード混在・低リソース言語の制約による課題も浮き彫りにする;本研究は、長い詐欺メッセージ、緊急性を示す用語、URL、および電話番号といったパターンを特定します。
本文: arXiv:2603.11358v1 アナウンスタイプ: new 要旨:金融詐欺検出は、デジタル金融プラットフォームの急速な拡大の中で重要な研究課題として浮上してきました。機械学習アプローチは詐欺行為の識別において強い性能を示していますが、既存のほとんどの研究は英語データのみに焦点を当て、多言語コンテキストでの適用性を制限しています。ベンガル語(バンガリ語)は、2億5000万人以上が話すにもかかわらず、この領域ではほとんど調査されていません。本研究では、正当な金融メッセージと詐欺的な金融メッセージからなるデータセットを用いて、多言語のベンガル語-英語設定における金融詐欺検出を調査します。TF-IDF特徴量を使用した古典的機械学習モデル(ロジスティック回帰、線形SVM、アンサンブル分類器)を、トランスフォーマーベースのアーキテクチャと併用して評価します。5分割層化交差検証を用いた実験結果は、線形SVMが最良の性能を示し、91.59%の精度と91.30%のF1スコアを達成し、トランスフォーマーモデル(89.49%の精度、88.88%のF1)を約2パーセントポイント上回ることを示しています。トランスフォーマーは詐欺検出のリコールが高い(94.19%)ものの、偽陽性率が増加するという課題に直面します。探索的分析は、特徴的なパターンを明らかにします。詐欺メッセージは長く、緊急性を喚起する語を含み、URL(32%)と電話番号(97%)を頻繁に含みます。一方、正当なメッセージは取引確認と特定の通貨参照を特徴とします。我々の知見は、丁寧に設計された特徴量を用いた古典的機械学習が多言語詐欺検出において依然として競争力を持つことを示す一方、言語的多様性、コード混在、低リソース言語の制約がもたらす課題が強調されています。
