HalalBench:食品パッケージの原材料抽出を目的とした多言語OCRベンチマーク

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • HalalBenchは、食品パッケージの原材料ラベル抽出に特化した新しいオープン多言語OCRベンチマークであり、この用途における標準的な評価基準の欠如を埋めるものです。
  • ベンチマークには1,043枚の画像(実画像50枚、合成画像993枚)と、14言語にまたがる36,438件のCOCO形式アノテーションが含まれ、湾曲した包装表面や多言語の密集テキストといった実環境の難しさを反映しています。
  • docTR、ML Kit、EasyOCRなど4つのOCRエンジンを評価したところ、総じてF1は0.167〜0.193程度で、さらに日本語では完全に失敗(F1=0.000)しました。
  • クラスタリングを用いたポストプロセスのアブレーションによりF1が36%改善し、その知見は20か国以上で展開される実運用のハラールスキャナー「HalalLens」によって検証されています。
  • データセットとコードはオープンライセンスで公開されており、食品パッケージOCRの研究・ベンチマークを促進します。