タスクの類推によるゼロショット合成から実世界への手書き文字認識

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、完全なゼロショットの合成から実世界への手書き文字認識問題を扱い、実世界の対象領域における手書きデータを用いずに対象言語で動作することを目指している。
1つ以上のソース言語における合成から実世界の手書きへと、モデルのパラメータがどのように変化すべきかを学習し、その「修正」を新たなターゲット言語へ転送する。
複数のソース言語を用いる場合、各ソースの寄与を言語的類似度に基づいて重み付けし、転送をより適切に導く。
5言語および6種類のモデルアーキテクチャにわたる実験により、合成のみのベースラインに対して一貫した改善が示されており、この手法は言語的に無関係なターゲット言語に対しても有効である。
本研究の貢献は主に、頑健なHTR（手書き文字認識）の汎化を実現するための研究手法であり、高価なターゲット領域の実データ適応の必要性を減らす、または排除することにつながる。

Abstract

合成筆記で訓練された手書き文字認識（HTR）モデルは、実際の文字に対して一般化することがしばしば困難であり、既存の適応手法でも、対象ドメインからの実サンプルがまだ必要です。本研究では、対象言語の実データが利用できない、完全なゼロショットの合成から実への一般化設定に取り組みます。提案手法は、1つ以上のソース言語から合成筆記で訓練したときから実際の筆記へ移る際に、モデルパラメータがどのように変化するかを学習し、その学習した補正を新しいターゲット言語へ転移します。複数のソースを用いる場合には、それらを組み合わせる際に、言語的類似性に基づいて各ソースの寄与の重み付けを行います。5言語・6種類のアーキテクチャにわたる実験により、合成のみのベースラインに対して一貫した改善が示され、さらに、転移された補正がソース言語と無関係な言語に対しても有益であることが明らかになりました。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

タスクの類推によるゼロショット合成から実世界への手書き文字認識

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵