マルチモーダル・インコンテキスト学習による少数ショット・ライター適応

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この研究は、文脈に基づく適応と標準的なOCR学習戦略を組み合わせることで、相補的な改善が得られることも報告している。

要旨: 最先端の手書き文字認識（HTR）モデルは標準ベンチマークで高い性能を示すものの、訓練データ中で十分に表れていない、非常に特定的なスタイルを持つ筆者に対してはしばしば苦戦します。未知で典型から外れた筆者に対応するため、筆者適応手法はHTRモデルを個々の筆跡スタイルに合わせてパーソナライズします。主要な筆者適応手法は、オフラインでのファインチューニング、または推論時のパラメータ更新のいずれかを必要とし、いずれも勾配計算と逆伝播を伴うため、計算コストが増大し、慎重なハイパーパラメータ調整が求められます。本研究では、マルチモーダルなインコンテキスト学習に触発された、新規のコンテキスト駆動型HTRフレームワーク3を提案します。これにより、パラメータ更新を一切行わずに、推論時に目標の筆者から得られるごく少数の例のみで筆者適応を実現できます。さらに、コンテキスト長の影響を示し、少数ショットのインコンテキスト適応を可能にする、8MパラメータのコンパクトなCNN-Transformerを設計します。また、コンテキスト駆動型と標準的なOCR訓練戦略を組み合わせることで、相補的な改善が得られることを示します。IAMおよびRIMESでの実験により、本手法はそれぞれ文字誤り率3.92%および2.34%で検証され、推論時にパラメータ更新を必要としないという条件のもと、筆者非依存のすべてのHTRモデルを上回ります。