AI Navigate

ID-LoRA: アイデンティティ主導の音声・映像パーソナライゼーションを実現する In-Context LoRA

arXiv cs.CV / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ID-LoRA は被写体の外観と声を単一の生成パスで共同生成し、テキストプロンプト、参照画像、および短い音声クリップを用いて両方のモダリティを同時に制御します。
  • パラメータ効率的な In-Context LoRA を介して LTX-2 の音声・映像結合拡散バックボーンを適応させ、参照トークンと生成トークンを区別するために負の時間位置を使用します。
  • アイデンティティ・ガイダンスを導入します。参照信号の有無で予測を対比させることで話者固有の特徴を増幅する分類器なしガイダンスの変種です。
  • 人間の嗜好研究では、ID-LoRA は Kling 2.6 Pro より声の類似性で 73%、話すスタイルで 65% の評価を得ており、クロス環境設定での利得があることが示され、単一GPU上で約 3,000 件のトレーニングペアを使用するアプローチです。コード/モデル/データは公開予定です。
本文: arXiv:2603.10256v1 アナウンス種別: cross 要旨:既存のビデオ個人化手法は視覚的類似性を保つ一方で、ビデオとオーディオを別々に扱います。視覚的シーンへのアクセスがないと、音声モデルは画面上の動作と音を同期できません;そして従来の声のクローンモデルは参照録音のみに条件づけるため、テキストプロンプトは話し方のスタイルや音響環境を再指向できません。私たちは ID-LoRA(アイデンティティ主導の In-Context LoRA)を提案します。これは単一のモデルで被写体の外観と声を同時に生成し、テキストプロンプト、参照画像、短い音声クリップを用いて両方のモダリティを共同で支配します。ID-LoRA はパラメータ効率的な In-Context LoRA を介して LTX-2 の音声・映像結合拡散バックボーンを適応させ、私たちの知る限り、単一の生成パスで視覚的外観と声を個人化する初の手法です。二つの課題が生じます。参照トークンと生成トークンは同じ位置エンコーディング空間を共有するため、識別するのが難しくなります。我々はこれに負の時間的位置を用いて対処し、参照トークンを分離した RoPE 領域に配置しつつ内部の時間的構造を保持します。話者特性はノイズ除去中に薄まる傾向があるため、私たちはアイデンティティ・ガイダンスを導入します。これは参照信号の有無で予測を対比させ、話者固有の特徴を増幅する分類器なしガイダンスの変種です。人間の嗜好研究では、ID-LoRA は Kling 2.6 Pro より声の類似性で 73%、話すスタイルで 65% の評価を得ており、環境を跨ぐ設定でも Kling を上回る改善が見られます。予備的なユーザー調査は、共同生成が物理的に根拠のある音響合成に有用な帰納バイアスを提供することを示唆します。ID-LoRA は単一の GPU で約 3K のトレーニングペアのみでこれらの結果を達成します。コード、モデル、データは公開される予定です。