こんにちは、みなさん、
私は「エージェンティック・エコノミー」における特定のセキュリティ課題に対して、コンピュータビジョンのアプローチを取り組んでいます。つまり、数学的に難読化されているが位相的には異なる、悪意のある取引パターンを特定します。
問題
従来のルールベースのセキュリティエンジンや、標準的なGNNでさえしばしば苦手なのが「スプリッティング攻撃」です。これは、高価値な取引が数千ものマイクロ取引に分割され、統計的な閾値を回避するものです。しかし、これらのフローを2Dグラフのトポロジーとして投影すると、非常に特定の敵対的シグネチャ(スター・パターン、集中型ハブ、ミキシング・チェーン)が現れます。
アプローチ:グラフ分類のためのVLM
グラフ埋め込みに頼るのではなく、Qwen2-VL-2B-Instruct を用いたVision-Language(視覚と言語)アプローチを試してみました。直感として、VLMは2Dレイアウト上での構造的な関係性の認識に、ますます効率的になってきています。
技術仕様:
- ベースモデル: Qwen2-VL-2B-Instruct。
- ファインチューニング: LoRA(r=16, alpha=32)。対象は注意機構の投影(q, k, v, o)。
- データセット(Dogon-10K): NetworkXとMatplotlibを使って、10,000件の合成取引グラフ画像を生成しました。データセットは4つのクラスをカバーしています:
NORMAL、DRAIN_STAR、MIXING_CHAIN、COORDINATED_CLUSTER。 - ハードウェア/スタック: ROCmスタックを用いたAMD MI300X で学習しました。これは、視覚中心のタスクにおいてAMDの環境でPEFT/TRLをストレステストする良い機会でした。
なぜGNNよりVLM?
GNNはグラフデータの標準ですが、「画像ベース」のアプローチにより、各新しいチェーンのスキーマごとに専用のグラフ・オートエンコーダを構築する複雑さなしに、敵対的パターン認識のプロトタイピングをより高速に行えました。VLMが「視覚的な意図」を解釈できる能力は、分散した自然なエコシステムと、協調されたシビル攻撃を見分けるのに非常に効果的でした。
モデル&コード
LoRAの重みは、視覚的なグラフ分類を試したい方のためにHugging Faceで公開しています: Hugging Face: https://huggingface.co/Ibonon/imina_na_lora
推論エンジンとDogonデータセットジェネレータの完全なソースコードは現在整理中です。 GitHub: [製作中]
特に、他の方が抽象的なデータ構造(グラフやネットワークログなど)に対する視覚的な異常検知にVLMを使っているのか、ぜひ伺いたいです。
[リンク] [コメント]




