要旨: 音声駆動の両手ピアノ動作生成には、複雑な音楽構造の正確なモデリングと、ダイナミックな手間(クロスハンド)の協調の制御が必要です。しかし、既存の手法の多くは、象徴的な事前知識を欠く音響のみの表現に依存していたり、柔軟性に欠ける相互作用メカニズムを用いていたり、計算コストの高い短いシーケンス生成に制限されていたりします。これらの制約に対処するために、我々は正確かつ協調的な両手ピアノ動作合成のためのフローマッチング(flow-matching)フレームワークであるPianoFlowを提案します。本手法では、学習時に優先的なモダリティとしてMIDIを戦略的に活用し、こうした構造化された音楽的事前知識を蒸留することで、オーディオのみの推論を維持しながら深い意味理解を実現します。さらに、役割に応じた注意(role-aware attention)と時間ゲーティングにより、動的な手間(クロスハンド)の協調を明示的に捉える非対称なロール・ゲート付き相互作用モジュールを導入します。任意の長さのシーケンスに対してリアルタイムのストリーミング生成を可能にするために、チャンク間で途切れのない時間的整合性を保証する自己回帰的なフロー継続方式を設計します。PianoMotion10Mデータセットでの大規模な実験により、PianoFlowが定量的・定性的の両面で優れた性能を達成し、さらに従来手法と比較して推論を9 imes以上高速化することが示されています。
PianoFlow:音楽認識によるストリーミング対応ピアノ動作生成と両手協調
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PianoFlowは、音声駆動の両手ピアノ動作生成に関するarXivの研究提案であり、音楽構造の正確なモデリングと、両手間のダイナミックな協調を目標とする。
- 本手法は、MIDIを特権的な学習モダリティとして用い、象徴的な音楽的事前知識を注入しつつ、生成時には音声のみで推論可能にする。
- PianoFlowでは、不対称なロール・ゲート付き相互作用モジュールを導入し、役割に応じた注意(role-aware attention)と時間的ゲーティングによって、手をまたぐ協調を明示的にモデル化する。
- 任意の長さのシーケンスに対するリアルタイム・ストリーミングを支えるため、チャンク間の時間的な一貫性を維持する自己回帰的なフロー継続スキームを追加する。
- PianoMotion10Mデータセットでの実験では、先行手法よりも質的・量的性能が向上し、推論が9倍以上(9×)高速であると報告されている。




