YOLOとVision-Language OCRを用いたベンガル語ナンバープレート認識のための頑健な深層学習フレームワーク
arXiv cs.CV / 2026/3/12
📰 ニュースModels & Research
要点
- 本論文は、深層学習ベースの局在化モデルとOCRを組み合わせてテキストを抽出する頑健なベンガル語ナンバープレート認識システムを提案し、ベンガル語プレートで97.83%の精度とIoU 91.3%を達成した。
- U-Netを含む複数の物体検出アーキテクチャを評価し、YOLOv8を基盤とした2段階適応訓練戦略を提案して局在性能を高める。
- テキスト認識はVisionEncoderDecoderフレームワークを用いた系列生成問題として定式化され、ViT + BanglaBERTの組み合わせが文字誤り率0.1323、単語誤り率0.1068を達成した。
- このフレームワークは現実の多様な条件下で頑健性を示し、自動法執行およびアクセス制御などのスマート交通アプリケーションへの展開を想定している。
自動ナンバープレート認識(ALPR)システムは、知能的交通管理システムの重要な要素を構成します。しかし、ベンガル語ナンバープレートの検出は、複雑な文字体系と不均一なレイアウトのため依然として困難です。本論文は、ナンバープレートの局在化のための深層学習ベースの物体検出モデルと、テキスト抽出のOCRを統合した頑健なベンガル語ナンバープレート認識システムを提示します。局在化には、U-Netを含む複数の物体検出アーキテクチャと、YOLO (You Only Look Once) のいくつかのバリアントを比較します。本研究は、局在性能を向上させるためにYOLOv8アーキテクチャを基盤とする新しい二段階適応訓練戦略を提案します。提案手法は確立されたモデルを上回り、97.83%の精度と91.3%のIoUを達成しました。テキスト認識問題はVisionEncoderDecoderアーキテクチャを用いた系列生成問題として定式化され、評価されたエンコーダ-デコーダの組み合わせが検討されました。ViT + BanglaBERTの組み合わせは、文字レベルでより良い結果を示し、文字誤り率0.1323、単語誤り率0.1068を与えました。提案されたシステムは、本研究のためにキュレーションされた外部データセットでも一貫した性能を示しました。そのデータセットは訓練サンプルとは全く異なる環境と照明条件を提供しており、提案フレームワークの頑健性を示しています。総じて、提案するシステムはベンガル語ナンバープレート認識に対して頑健で信頼性のあるソリューションを提供し、照明、ノイズ、プレートスタイルの変化を含む多様な現実世界のシナリオで効果的に機能します。これらの強みは、自動化された法執行およびアクセス制御などのスマート交通アプリケーションへの展開に適していることを示しています。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
