デコーダを解読する:内皮質(intracortical)音声デコードのための文脈的シーケンス・ツー・シーケンスモデリング

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、主にフレーム単位の音素デコードに言語モデルを組み合わせる従来手法と比べて、文脈を考慮したシーケンス・ツー・シーケンスのデコードが内皮質の音声—言語デコードを改善し得るかを検討する。
  • area 6v の内皮質記録から、音素列、単語列、および補助的な音響特徴量を同時に予測するマルチタスクの Transformer エンコーダ—デコーダを提案する。
  • 脳の日々のニューラル非定常性に対処するため、著者らは Neural Hammer Scalpel(NHS)キャリブレーションモジュールを導入し、グローバルなアラインメントと特徴量ごとのモジュレーションを組み合わせる。
  • Willett et al. のデータセット上で、本手法は音素において最先端の性能(誤り率14.3%)を報告し、単語デコードも改善する(直接デコードで WER 25.6%、候補生成と再スコアリングで WER 19.4%)。
  • 保持データ(held-out days)とアテンションパターンの分析から、時間的距離が大きいほど性能が低下すること、またアテンションに基づく表現には反復する時間的チャンク化が見られる一方で、音素デコーダと単語デコーダではセグメントの使い方が異なることが示唆される。