ボトルネック残差畳み込みに基づく高精度光学式音楽認識手法

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、光学式音楽認識（OMR）において、残差ボトルネック畳み込みとBiGRUによる系列モデリングを組み合わせ、楽譜画像から記号表現へ変換するエンドツーエンドの枠組みを提案している。
ResNet-v2スタイルの残差ボトルネックブロックとマルチスケール拡張畳み込みを用いたCNNで、細かな記号の特徴と楽譜の全体的な五線構造の両方を捉える。
Connectionist Temporal Classification（CTC）ロスを用いることで、画像領域と出力系列の間の明示的なアラインメント注釈なしに予測を行える。
Camera-PrIMuSおよびPrIMuSの2つのデータセットで評価し、シーケンス誤り率（Camera-PrIMuSで7.52%、PrIMuSで8.11%）やシンボル誤り率（それぞれ0.45%、0.49%）など良好な結果を示している。
さらに、ピッチ／タイプ／ノートの精度はいずれも約99%と高く、学習効率も高い（平均で1エポックあたり約1.74秒）ことが報告されている。

要旨: 光学式楽譜認識（OMR）は、印刷または手書きの楽譜画像を、編集可能な記号表現へ変換することを目的とする。本論文では、残差ボトルネック畳み込みと双方向ゲート付きリカレントユニット（BiGRU）に基づくシーケンスモデリングを組み合わせた、エンドツーエンドのOMRフレームワークを提案する。ResNet-v2スタイルの残差ボトルネックブロックとマルチスケールの拡張畳み込みを用いた畳み込みニューラルネットワークにより、細かな記号の詳細と、楽譜上のスタッフ線の大域的な構造の両方を符号化する特徴を抽出する。抽出された特徴系列は、その後、BiGRUネットワークへ入力され、音楽記号間の時間的依存関係をモデル化する。モデルは、Connectionist Temporal Classification（CTC）損失を用いて学習され、明示的なアライメント注釈なしでエンドツーエンドの予測を可能にする。Camera-PrIMuSおよびPrIMuSデータセットでの実験結果は、提案フレームワークの有効性を示している。Camera-PrIMuSにおいて、提案手法はシーケンス誤り率（SeER） $7.52\%$ 、記号誤り率（SyER） $0.45\%$ を達成し、ピッチ、タイプ、音符の精度はそれぞれ $99.33\%$ 、 $99.60\%$ 、 $99.28\%$ である。平均学習時間はエポックあたり1.74~sであり、高い計算効率を示しつつ強力な認識性能を維持している。PrIMuSにおいても、本手法はSeER $8.11\%$ 、SyER $0.49\%$ を達成し、ピッチ、タイプ、音符の精度はそれぞれ $99.27\%$ 、 $99.58\%$ 、 $99.21\%$ である。さらに、きめ細かな誤り分析により、提案モデルの有効性が一層裏付けられる。