AI Navigate

ALIGN: 汎用性のある音声ニューロプロテーゼのための敵対的学習

arXiv cs.LG / 2026/3/20

📰 ニュースSignals & Early TrendsModels & Research

要点

  • ALIGNは、セッション不変の学習フレームワークで、マルチドメイン敵対的ニューラルネットワークを用いて皮質内音声BCIのセッション間一般化を実現します。
  • それは特徴エンコーダ、音素分類器、およびドメイン分類器を共同で訓練し、敵対的最適化を用いて、タスク関連情報を保持しつつセッション特有の手掛かりを抑制します。
  • このアプローチは半教師ありで、複数セッションのデータを活用して、ラベル付きデータを必要とせず未知のセッションへ適応します。
  • 実証的な結果は、以前に見たことのないセッションで音素誤り率と語彙誤り率をベースラインと比較して改善し、長期的なBCIデコードの堅牢性を示しています。

要旨: 皮質内脳機械インタフェース(BCIs)は、記録セッションを横断してデータを統合して学習させると、神経活動から音声を高い精度で解読できる。
現実的な展開では、しかし、ラベル付きデータなしで新しいセッションへ一般化する必要があり、セッション間の非定常性(例:電極の移動、神経の入れ替え、ユーザー戦略の変化)により性能が低下することが多い。
本論文では、マルチドメイン対向型ニューラルネットワークに基づくセッション不変学習フレームワーク ALIGN を提案します。これは半教師ありのクロスセッション適応のためのものです。
ALIGN は、潜在表現上で動作する音素分類器とドメイン分類器と協調して特徴エンコーダを訓練します。
敵対的最適化を通じて、エンコーダはタスクに関連する情報を保持しつつ、セッション固有の手掛かりを抑制するよう促されます。
私たちは皮質内音声デコードにおける ALIGN を評価し、未知のセッションでも一貫してより良く一般化することを確認しました。基準と比較して、音素誤り率と単語誤り率の両方を改善します。
これらの結果は、敵対的ドメインアライメントがセッションレベルの分布シフトを緩和し、長期的なBCIデコードを堅牢にする有効なアプローチであることを示しています。