MoshiRAG：フルデュプレックス音声言語モデルのための非同期型知識検索

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高価なモデルのスケーリングに依存せずにフルデュプレックス音声から音声への言語モデルの事実性を向上させることを目的とした、モジュール型の検索拡張アプローチ「MoshiRAG」を提案する。
知識を必要とするクエリに対して知識検索を非同期に起動する枠組みを用い、会話中に自然に生じるタイミングの隙間を活用して、ターンテイキングを妨げることなく検索を完了する。
MoshiRAGは、コンパクトなフルデュプレックス・インターフェースと、より強力な外部知識ソースからの選択的な検索とを組み合わせることで、リアルタイムの対話性（ポーズ、割り込み、相づち）を維持する。
著者らは、フルデュプレックスの応答性を保ちながら、公に公開されている主要な非デュプレックス音声言語モデルと同等の事実性が得られると報告している。
設計はプラグ・アンド・プレイであり、学習し直すことなく異なる検索手法を差し替え可能だと主張されており、領域外の数学的推論タスクでも追加の強い結果が得られている。

要旨: 音声から音声への言語モデルは、会話型AIの自然さを高めるために、近年登場してきました。特に、フルデュプレックス・モデルは、ポーズ（間）の扱い、割り込み、バックスチャネルを含むリアルタイムのインタラクティビティによって特徴づけられます。しかし、事実性の向上は依然として未解決の課題です。モデル規模を拡大すればこのギャップを埋められる可能性はありますが、そうするとリアルタイム推論が極めて高コストになってしまいます。本研究では、より強力な知識ソースにアクセスするために、コンパクトなフルデュプレックス・インターフェースと選択的なリトリーバルを組み合わせるモジュール型アプローチである MoshiRAG を提案します。非同期フレームワークにより、モデルは知識を必要とするクエリを特定し、その応答を外部情報に基づけることができます。応答の開始から主要な情報の提供までの自然な時間的ギャップを活用することで、検索処理は自然な会話の流れを維持したまま完了できます。このアプローチにより、MoshiRAG は、フルデュプレックス・システムが本来備えているインタラクティビティを維持しつつ、公に公開された最良の非デュプレックス音声言語モデルに匹敵する事実性を達成します。さらに、柔軟な設計により、再学習なしで「差し替え可能（プラグ・アンド・プレイ）」なリトリーバル手法をサポートし、領域外の数学的推論タスクにおいても強い性能を示します。