ブロックチェーンセキュリティのための視覚グラフ分類：AMD MI300X上でQwen2-VLを微調整した経験【D】

Reddit r/MachineLearning / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿では、数学的に難読化された不正なブロックチェーン取引パターンを、2Dグラフとして可視化したときに現れる位相的な特徴で識別するコンピュータビジョン／セキュリティ手法を説明しています。
著者は従来のグラフ埋め込みや一般的なGNNの代わりに、ビジョン・ランゲージモデルであるQwen2-VL-2B-Instructを微調整し、攻撃タイプに対応する視覚的なグラフトポロジーを分類します。
微調整はLoRA（r=16、alpha=32）で行い、注意機構の投影層（q、k、v、o）を対象にします。また、NetworkX／Matplotlibで生成した10,000枚の合成グラフ画像からなるDogon-10Kを用い、4クラスで学習します。
訓練と検証はROCmスタック上のAMD MI300Xで実施し、視覚系タスクにおけるPEFT/TRLワークフローをAMD環境でストレステストすることを目的としています。
LoRAの重みはHugging Faceで公開し、推論エンジンやデータセット生成器の全コードは後日公開予定で、抽象的な構造（グラフやネットワークログ）に対するVLMベースの視覚異常検知への取り組みを呼びかけています。

こんにちは、みなさん、

私は「エージェンティック・エコノミー」における特定のセキュリティ課題に対して、コンピュータビジョンのアプローチを取り組んでいます。つまり、数学的に難読化されているが位相的には異なる、悪意のある取引パターンを特定します。

問題

従来のルールベースのセキュリティエンジンや、標準的なGNNでさえしばしば苦手なのが「スプリッティング攻撃」です。これは、高価値な取引が数千ものマイクロ取引に分割され、統計的な閾値を回避するものです。しかし、これらのフローを2Dグラフのトポロジーとして投影すると、非常に特定の敵対的シグネチャ（スター・パターン、集中型ハブ、ミキシング・チェーン）が現れます。

アプローチ：グラフ分類のためのVLM

グラフ埋め込みに頼るのではなく、Qwen2-VL-2B-Instruct を用いたVision-Language（視覚と言語）アプローチを試してみました。直感として、VLMは2Dレイアウト上での構造的な関係性の認識に、ますます効率的になってきています。

技術仕様：

ベースモデル： Qwen2-VL-2B-Instruct。
ファインチューニング： LoRA（r=16, alpha=32）。対象は注意機構の投影（q, k, v, o）。
データセット（Dogon-10K）： NetworkXとMatplotlibを使って、10,000件の合成取引グラフ画像を生成しました。データセットは4つのクラスをカバーしています：NORMAL、DRAIN_STAR、MIXING_CHAIN、COORDINATED_CLUSTER。
ハードウェア／スタック： ROCmスタックを用いたAMD MI300X で学習しました。これは、視覚中心のタスクにおいてAMDの環境でPEFT/TRLをストレステストする良い機会でした。

なぜGNNよりVLM？

GNNはグラフデータの標準ですが、「画像ベース」のアプローチにより、各新しいチェーンのスキーマごとに専用のグラフ・オートエンコーダを構築する複雑さなしに、敵対的パターン認識のプロトタイピングをより高速に行えました。VLMが「視覚的な意図」を解釈できる能力は、分散した自然なエコシステムと、協調されたシビル攻撃を見分けるのに非常に効果的でした。