タスクの類推によるゼロショット合成から実世界への手書き文字認識

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、完全なゼロショットの合成から実世界への手書き文字認識問題を扱い、実世界の対象領域における手書きデータを用いずに対象言語で動作することを目指している。
  • 1つ以上のソース言語における合成から実世界の手書きへと、モデルのパラメータがどのように変化すべきかを学習し、その「修正」を新たなターゲット言語へ転送する。
  • 複数のソース言語を用いる場合、各ソースの寄与を言語的類似度に基づいて重み付けし、転送をより適切に導く。
  • 5言語および6種類のモデルアーキテクチャにわたる実験により、合成のみのベースラインに対して一貫した改善が示されており、この手法は言語的に無関係なターゲット言語に対しても有効である。
  • 本研究の貢献は主に、頑健なHTR(手書き文字認識)の汎化を実現するための研究手法であり、高価なターゲット領域の実データ適応の必要性を減らす、または排除することにつながる。

Abstract

合成筆記で訓練された手書き文字認識(HTR)モデルは、実際の文字に対して一般化することがしばしば困難であり、既存の適応手法でも、対象ドメインからの実サンプルがまだ必要です。本研究では、対象言語の実データが利用できない、完全なゼロショットの合成から実への一般化設定に取り組みます。提案手法は、1つ以上のソース言語から合成筆記で訓練したときから実際の筆記へ移る際に、モデルパラメータがどのように変化するかを学習し、その学習した補正を新しいターゲット言語へ転移します。複数のソースを用いる場合には、それらを組み合わせる際に、言語的類似性に基づいて各ソースの寄与の重み付けを行います。5言語・6種類のアーキテクチャにわたる実験により、合成のみのベースラインに対して一貫した改善が示され、さらに、転移された補正がソース言語と無関係な言語に対しても有益であることが明らかになりました。