マイクロ言語モデルが即時応答を可能にする

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

スマートウォッチやスマートグラスのようなエッジ端末では、厳しい電力・計算制約により、最小規模でも大規模言語モデルを常時動かすのが難しい。
本論文は、マイクロ言語モデル（μLM）として、8M〜30Mパラメータの超コンパクトモデルを提案し、文脈に基づく応答の最初の4〜8語をオンデバイスで即座に生成する。
クラウド側のモデルが続きを補完し、協調生成フレームワークによりクラウド待ち時間をユーザーが感じにくい形で、会話の途中でも滑らかにハンドオフできる。
この極端に小さいスケールでも有用な言語生成が成立し、μLMが既存の70M〜256Mクラスの複数モデルと同等の性能を示す。
モデルのチェックポイントとデモ、さらにオンデバイスの冒頭が誤った場合の3つのエラー訂正手法も提示されている。

要旨: スマートウォッチやスマートグラスのようなエッジデバイスは、電力および計算の制約により、最小でも100M〜1Bパラメータの言語モデルでさえ継続的に動作させることができません。しかし、クラウド推論を用いると、応答型アシスタントだという幻想を壊してしまうような数秒のレイテンシが生じます。そこで本研究では、マイクロ言語モデル（ $\mu$ LMs）を提案します。これは、超コンパクトなモデル（8M〜30Mパラメータ）であり、デバイス上で文脈に根ざした応答の最初の4〜8語を瞬時に生成し、続いてクラウドモデルが残りを完了します。これにより、クラウドのレイテンシを隠蔽します。本研究では、これほど極端なスケールにおいても有用な言語生成が成立することを示し、提案モデルが既存の70M〜256M級のいくつかのモデルに匹敵することを確認します。さらに、協調生成の枠組みを設計し、クラウドモデルを「応答者」ではなく「継続者（continuator）」として捉え直します。これにより、中途の文での途切れない引き渡しと、ローカル側のオープナーが失敗した場合に備えた、3つの誤り訂正手法による構造化された優雅なリカバリを実現します。実験結果は、 $\mu$ LMsが、より大きなモデルによってシームレスに完了される応答の開始を可能にすることを示しており、桁違いの非対称な協調が達成できることを実証します。これにより、極めて資源制約の大きいデバイスに対して応答性のあるAIを解き放ちます。モデルのチェックポイントとデモは https://github.com/Sensente/micro_language_model_swen_project で公開されています。