バングラ手書き文字認識のためのマルチヘッド注意機構に基づく相互作用認識型アーキテクチャ:一次データセットの導入

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 新たに、手書きバングラ文字の認識向けに78クラス・各約650サンプルのバランス型「Primary Dataset」を構築し、年齢や職業層、右利き/左利きなどの多様性も含めたと報告している。
  • 提案手法として、EfficientNetB3、Vision Transformer、Conformerを並列統合し、マルチヘッドのクロスアテンション融合で特徴の相互作用を高める「interaction-aware hybrid deep learning architecture」を提示している。
  • 内製データセットで98.84%の精度、外部ベンチマークCHBCRで96.49%を達成し、クラス不均衡やクラス間の視覚類似性に対して良好な汎化が示された。
  • Grad-CAMによる可視化で、識別に寄与する領域を解釈可能にした点も含めている。
  • データセットとソースコードはHugging Faceで公開されており、研究・再利用を促進する内容となっている。

概要: 文字認識は、光学式文字認識(OCR)システムにおける基礎となる部分です。単語認識、文の転記、文書のデジタル化、言語処理といった高次の活動は、文字認識によって正確に実行できるものの一部です。それにもかかわらず、手書きのベンガル文字を認識することは容易ではありません。なぜなら、それらは筆運び(ストローク)のパターンが一貫せず、視覚的な文字の類似度が高い状態で、異なる書き方で記されているからです。利用可能なデータセットは通常、クラス内の多様性が限られており、クラス分布も不均衡です。これらの問題を克服するために、私たちはベンガル語の手書き文字の新しいバランス型データセットを構築しました。これは78クラスからなり、各クラスにはおよそ650サンプルが含まれます。基本文字、複合(Juktobarno)文字、および数を含んでいます。サンプルは多様な集団で構成されており、幅広い年齢層と社会経済的な層が含まれます。初等・中等教育の学生、大学生、および専門職の人々が協力しています。サンプルには右利きおよび左利きの書き手も含まれています。さらに、効率的ネット(EfficientNetB3)、ビジョントランスフォーマー(Vision Transformer)、およびコンフォーマー(Conformer)モジュールを並列に統合した、相互作用認識に基づくハイブリッド深層学習アーキテクチャを提案しました。マルチヘッドのクロスアテンション融合メカニズムにより、これらの各コンポーネント間で効果的な特徴の相互作用を可能にします。提案モデルは、構築したデータセットで98.84%の精度、外部のCHBCRベンチマークで96.49%の精度を達成し、高い汎化能力を示しています。加えて、Grad-CAMの可視化により、弁別的な領域を強調することで解釈可能性も提供します。本研究のデータセットとソースコードは次で公開されています: https://huggingface.co/MIRZARAQUIB/Bangla_Handwritten_Character_Recognition.

バングラ手書き文字認識のためのマルチヘッド注意機構に基づく相互作用認識型アーキテクチャ:一次データセットの導入 | AI Navigate