要旨: 発話の生成と知覚は、人間が日常的にコミュニケーションを行う主要な手段です。過去の脳からテキストへのデコーディング研究は、主に単一のモダリティとアルファベット言語に焦点を当ててきました。ここでは、発話の生成と知覚の両方に対する、普通話(マンダリン中国語)における統一的な脳→文デコーディングフレームワークを提示します。 このフレームワークは強力な一般化能力を示し、単一文字データのみで訓練した場合でも文レベルのデコーディングを可能にし、訓練中に見られなかった文字や音節をサポートします。 さらに、それはモダリティ間の神経ダイナミクスを直接かつ統制された比較を可能にします。 普通話の音声は、まず神経信号から漢語拼音(Hanyu Pinyin)に含まれる音節成分、すなわち声母と韻母を分類することからデコードされ、その後、声調のない拼音音節の列を中国語の文へ対応づけるポストトレーニング済みの大規模言語モデル(LLM)が用いられます。 LLMデコーディングを強化するため、70億パラメータのLLMを基盤とする3段階のポストトレーニングと2段階の推論フレームワークを設計し、総合的な性能は、数百億〜数千億パラメータ規模の商用LLMを上回る水準に達しています。 さらに、普通話の発話生成と知覚にはいくつかの特徴が観察されました。発話生成は聴覚知覚より広い皮質領域における神経反応を伴い、両モダリティに反応するチャネルは類似した活動パターンを示しましたが、知覚は生成に対して時間的遅延を示しました。また、デコーディング性能は半球間で概ね同等でした。 本研究は、統一デコーディングフレームワークの実現可能性を示すだけでなく、普通話の発話生成と知覚の神経特性に関する洞察も提供します。 これらの進歩は、表意-音節言語における脳からテキストへのデコードへ寄与し、複数のモダリティをサポートする神経言語デコードシステムの実現へ道を開きます。
返却形式: {"translated": "翻訳されたHTML"}

