Josh Talksによる「Human-1」：実世界の会話に基づくヒンディー語フルデュプレックス対話モデリングの枠組み

arXiv cs.CL / 2026/4/28

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文は、割り込み・発話の重なり・相づちといった自然な会話の振る舞いを扱うことを目的に、「Human-1」としてヒンディー語向けのフルデュプレックス音声対話システムをオープンかつ再現可能な形で提案しています。
Moshiのデュプレックス音声アーキテクチャを基に、カスタムのヒンディー語トークナイザを追加し、14,695人の話者から集めた実世界の自発会話26,000時間を、話者ごとのチャネル分離を使って学習し、ターンテイキングや重なりのパターンを自然な相互作用から直接学びます。
ヒンディー語のテキスト生成では、元の英語トークナイザを置き換え、テキストの語彙に依存するパラメータを再初期化しつつ、事前学習済みの音声コンポーネントは維持します。
学習は、大規模な事前学習の後に会話データ1,000時間で微調整を行う2段階のレシピで構成されています。
prompted dialogue continuationによる評価で、自動指標と人手評価の両方により、モデルがヒンディー語で自然で意味のあるフルデュプレックスな会話挙動を生成できることが示され、他のインド諸言語への展開も視野に入れています。

要旨: 全二重（フルデュプレックス）の音声対話システムは、割り込み、重なり、バックスチャネルなどの自然な会話行動をモデル化できますが、このようなシステムはインドの言語に対してはほとんど未検討のままです。我々は、最先端のデュプレックス音声アーキテクチャであるMoshiを、カスタムのヒンディー語トークナイザーを用いて適応し、14,695人の話者から収集した実際の自発的会話26,000時間を、別々の話者チャネル付きで学習することにより、ヒンディー語向けの初のオープンで再現可能な全二重の音声対話システムを提示します。これにより、自然なやり取りから交替（ターンテイキング）と重なりのパターンを直接学習できるようになります。ヒンディー語のテキスト生成を支えるために、元の英語トークナイザーを置き換え、事前学習済みの音声コンポーネントを保持したまま、テキストの語彙に依存するパラメータを再初期化します。我々は、二段階の学習レシピ――大規模な事前学習の後に、対話データ1,000時間で微調整する――を提案します。自動評価指標と人手による判断の両方を用いた、「プロンプト付き対話継続」パラダイムによる評価の結果、得られたモデルは、ヒンディー語において自然で意味のある全二重の会話行動を生成することを示しました。本研究は、ヒンディー語および他のインドの言語に対するリアルタイムのデュプレックス音声対話システムへの第一歩となります。