ガイダンスを探しています。TrOCRのエンコーダ+GoogleのmT5多言語デコーダでモデルを作ろうとしていますが、単一データサンプルにオーバーフィットできません

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 開発者は、TrOCRのビジョンエンコーダとGoogleのmT5多言語デコーダ(ヒンディーのトークナイズ用)を組み合わせて、手書きおよび印刷されたヒンディー(デーヴァナーガリー)のOCRのPoCを構築しようとしています。
  • 隠れ次元サイズを合わせ、デコーダを差し替えても、結合したモデルは単一の学習例にオーバーフィットできず、損失が2〜3付近で頭打ちになり、整ったテキストではなく同じ文字の繰り返しのような退化した出力になります。
  • 学習率の変更や反復(repetition)に対するペナルティなど典型的な学習調整も試したが、それでもオーバーフィットできないため、エンコーダとデコーダの統合における根本的な不一致、または学習/ラベリングの問題が示唆されます。
  • リクエストは、TrOCRのエンコーダと互換性のあるより良いトークナイザ/デコーダの選択肢についての助言、または現在のTrOCRエンコーダ+mT5デコーダ構成でヒンディー出力を学習できるようにするための推奨を求めています。
  • 議論は、新しいモデルのリリースや成果物ではなく、seq2seq OCRアーキテクチャの互換性、トークナイゼーション、デコーダの条件付けに関する実践的なトラブルシューティングを中心に行われています。
Looking for guidance. Trying to create a model with TrOCR's encoder + Google's mT5 multilingual decoder but model fails to overfit on a single data sample

みなさんこんにちは、

私は、複雑なドキュメント内で、手書きと印字の両方のヒンディー語(デーヴァナーガリー文字)テキストを認識できるOCRシステムの概念実証(PoC)を構築する作業をしています。手書き認識用に学習された強力なビジョン・エンコーダをすでに備えているため、TrOCR(microsoft/trocr-base-handwritten)の上に構築しようと考えています。

いま直面している中心的な問題はデコーダ/トークナイザ側です。TrOCR のデフォルトのデコーダとトークナイザは英語のみで学習されており、ヒンディー語の出力が必要です。

これまで試したこと:

TrOCR のデコーダを google/mt5-small に置き換えました。これはヒンディー語のトークン化をネイティブにサポートします。隠れサイズ(hidden sizes)が一致していたので、うまくいくと期待しました。

しかし、モデルは単一のデータ点に対してさえも過学習(overfit)できませんでした。損失は下がるものの、最後はほぼ 2〜3 のあたりで停まり、意味のある単語や文を形成する代わりに文字が繰り返され続けます。学習率の変更、反復(repetition)へのペナルティの導入も試しましたが、過学習は起きません。

https://preview.redd.it/wh6ucn1mncrg1.png?width=2064&format=png&auto=webp&s=e6cea11021aa84f0d67b74be3a9eb5ffe61c3a74

ガイダンスが必要です。TrOCR のエンコーダとうまく組み合わせて動作できる別のトークナイザは他にありますか?それとも、この現在のセットアップ(TrOCR のエンコーダ+デコーダ)で改善する手助けをしてもらえますか。

submitted by /u/ElectronicHoneydew86
[link] [comments]