BLPR: 信頼度駆動型VLMフォールバックによる視点・照明変動下での頑健なナンバープレート認識

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

要点

  • BLPRはボリビア(ラパス)のナンバープレートを対象に、照明変化や視点歪みがある非制約環境でも頑健に検出・認識する2段階のLPDRフレームワークを提案している。
  • YOLOベースの検出器をBlenderで生成した合成データ(極端な遠近・照明)で事前学習し、その後現地ストリートデータで微調整することで実環境への適応を図っている。
  • 検出後は幾何学的に整形(rectification)し、文字認識モデルで読み取りを行う構成に加え、曖昧なケースでは信頼度に基づいて軽量VLM(Gemma3 4B)をフォールバックとして選択的に起動する。
  • 合成→実データのドメイン適応により多様な現実条件での頑健性を高め、公開データセットとしてボリビア初のLPDRデータを提供して評価を可能にしている。

要旨: 制約のない環境における頑健なナンバープレート認識は、特にデータ利用可能性が限られ、ボリビアのような独特の視覚的特徴を持つ、十分に代表されていない地域において依然として大きな課題です。実世界の条件下での認識精度は、照明の変化や視点の歪みといった要因によってしばしば低下します。これらの課題に対処するために、ボリビアのナンバープレート専用に設計した、新しい深層学習ベースのナンバープレート検出・認識(LPDR)フレームワークであるBLPRを提案します。提案システムは2段階のパイプラインに従います。すなわち、YOLOベースの検出器を、極端な遠近法や照明条件をシミュレートするためにBlenderで生成した合成データで事前学習し、その後、ボリビアのラパスで収集した路上データで微調整します。検出されたプレートは幾何学的に整形(rectify)され、文字認識モデルに渡されます。曖昧な状況における頑健性を高めるため、軽量な視覚言語モデル(Gemma3 4B)を、信頼度に基づくフォールバック機構として選択的に起動します。さらに、提案フレームワークは、合成から実世界へのドメイン適応を活用し、さまざまな実世界条件下での頑健性を向上させます。また、ボリビアのLPDRデータセットとして初の公開データセットを導入し、多様な視点および照明条件下での評価を可能にします。本システムは、実世界データにおいて文字レベルで89.6%の認識精度を達成し、困難な都市環境での実運用に向けた有効性を示しています。私たちのプロジェクトは https://github.com/EdwinTSalcedo/BLPR で公開されています。