発話と知覚を横断する統一的な脳からテキストへのデコーディングへ

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、標準中国語（普通话）の発話生成と知覚の両方に対応する統一的な脳-文デコードフレームワークを提案し、単一文字データのみで訓練されても文レベルのデコードを可能にする。
このシステムは、神経信号から音節成分（声母と韻母）をデコードし、ポストトレーニング済みの70億パラメータの言語モデルを用いて、声調なしのピンイン音節列を中国語の文へ対応づける。3段階のポストトレーニングと2段階の推論設計を用いることで、より大規模なモデルを上回る性能を示す。
本研究は、発話生成が知覚よりも広範な皮質領域を関与すること、両モダリティに応答するチャンネルが類似した活動パターンを示すこと、知覚が発話生成より時間的ダイナミクスで遅れることを明らかにした。
このフレームワークは、未知の文字や音節への高い一般化能力を示し、表意文字と音節文字を併用する言語における脳からテキストへのデコードと、モーダル間の神経比較を可能にする道を拓く。

要旨: 発話の生成と知覚は、人間が日常的にコミュニケーションを行う主要な手段です。過去の脳からテキストへのデコーディング研究は、主に単一のモダリティとアルファベット言語に焦点を当ててきました。ここでは、発話の生成と知覚の両方に対する、普通話（マンダリン中国語）における統一的な脳→文デコーディングフレームワークを提示します。このフレームワークは強力な一般化能力を示し、単一文字データのみで訓練した場合でも文レベルのデコーディングを可能にし、訓練中に見られなかった文字や音節をサポートします。さらに、それはモダリティ間の神経ダイナミクスを直接かつ統制された比較を可能にします。普通話の音声は、まず神経信号から漢語拼音（Hanyu Pinyin）に含まれる音節成分、すなわち声母と韻母を分類することからデコードされ、その後、声調のない拼音音節の列を中国語の文へ対応づけるポストトレーニング済みの大規模言語モデル（LLM）が用いられます。 LLMデコーディングを強化するため、70億パラメータのLLMを基盤とする3段階のポストトレーニングと2段階の推論フレームワークを設計し、総合的な性能は、数百億〜数千億パラメータ規模の商用LLMを上回る水準に達しています。さらに、普通話の発話生成と知覚にはいくつかの特徴が観察されました。発話生成は聴覚知覚より広い皮質領域における神経反応を伴い、両モダリティに反応するチャネルは類似した活動パターンを示しましたが、知覚は生成に対して時間的遅延を示しました。また、デコーディング性能は半球間で概ね同等でした。本研究は、統一デコーディングフレームワークの実現可能性を示すだけでなく、普通話の発話生成と知覚の神経特性に関する洞察も提供します。これらの進歩は、表意-音節言語における脳からテキストへのデコードへ寄与し、複数のモダリティをサポートする神経言語デコードシステムの実現へ道を開きます。

返却形式: {"translated": "翻訳されたHTML"}

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

発話と知覚を横断する統一的な脳からテキストへのデコーディングへ

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer