エンドツーエンド音声復号のための種をまたぐニューラル基盤モデル

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、音声ブレイン・コンピュータ・インタフェース向けに、段階的な音素からテキストへのパイプラインを単一の微分可能モデルに置き換えるエンドツーエンドのBrain-to-Text(BIT)ニューラルフレームワークを提案する。
  • クロスタスク・クロススペシーズで事前学習されたニューラルエンコーダを用いて表現を生成し、試行された(attempted)音声と想像された(imagined)音声の両方へ転移させることで、タスク間の一般化性能を向上させる。
  • n-gram言語モデルを組み合わせたカスケード構成では、事前学習済みエンコーダがBrain-to-Text ’24および’25ベンチマークで新たな最先端(state-of-the-art)結果を達成する。
  • 音声の大規模言語モデルとエンドツーエンドで統合し、対照学習によってモダリティ間整合を学習すると、BITは従来のエンドツーエンド手法に比べて単語誤り率(Word Error Rate)を24.69%から10.22%へ大幅に低減する。
  • 著者らは、小規模な音声LLMでもエンドツーエンド復号を有意に改善できること、また自手法が試行された音声と想像された音声の埋め込み(embeddings)を整列させることで、より頑健な性能につながると報告している。

要旨: 音声ブレイン・コンピュータ・インタフェース(BCI)は、神経活動をテキストに変換することで、麻痺のある人のコミュニケーションを回復することを目指している。ほとんどのシステムはカスケード(直列)型の枠組みを用い、まず音素をデコードしてから、n-gram言語モデル(LM)によって文を組み立てる。そのため、すべての段階を同時に共同最適化することができない。ここでは、単一の微分可能なニューラルネットワークによって神経活動を首尾一貫した文へと変換する、エンドツーエンドのBrain-to-Text(BIT)フレームワークを提案する。我々のアプローチの中核は、タスク間・種間の事前学習を行ったニューラルエンコーダであり、その表現は、試行された音声と想像された音声の両方に転移する。このようなカスケード設定でn-gram LMを用いる場合、事前学習済みエンコーダがBrain-to-Textの『24および『25ベンチマークにおいて新たな最先端(SOTA)を確立する。音声の大規模言語モデル(LLM)とエンドツーエンドで統合し、クロスモーダル整合のためのコントラスティブ学習で学習することで、BITは先行するエンドツーエンド手法の単語誤り率(WER)を24.69%から10.22%へと低減する。特に、小規模な音声LLMがエンドツーエンドのデコーディングを大幅に改善することを見出した。記録を更新する性能に加えて、BITは試行された音声と想像された音声の埋め込みを整合させ、タスク間の汎化を可能にする。総じて本アプローチは、大規模で多様なニューラルデータセットの統合を前進させ、シームレスな微分可能最適化を支えるエンドツーエンドのデコーディング枠組みへの道を拓く。