PersonalQ:効率的推論のためにパーソナライズされた拡散モデルを選択・量子化・提供する

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、要求の曖昧さと、素朴な量子化によって生じる忠実度の損失の両方に対処することで、パーソナライズされた拡散モデルのチェックポイント・リポジトリを効率的に提供するための統一フレームワーク「PersonalQ」を提案する。
  • PersonalQのチェックポイント「check-in」段階では、意図に応じたハイブリッド検索に加えて、LLMベースの再ランキングを用い、複数のチェックポイント意図が依然として妥当である場合に限って短い確認質問のみを行う。
  • ユーザープロンプトを書き換え、選択されたチェックポイントの正準(canonical)な「トリガートークン」を挿入することで、選択から下流処理までを結び付ける共通の信号を作り出す。
  • 付随するTrigger-Aware Quantization(TAQ)は、クロスアテンションにおいてトリガーを意識した混合精度を用い、トリガー条件付きのキー/バリュー行(および注意重み)を保持しつつ、その他の経路を積極的に量子化してメモリ効率を高める。
  • 実験では、検索/再ランキングのベースラインに対して意図との整合が改善されること、また、従来の拡散の事後学習量子化手法よりも優れた圧縮–品質のトレードオフが得られることが示され、パーソナライズされたチェックポイントの大規模な展開を後押しする。