VLMのテキスト読み取りや/または顔の埋め込み抽出に渡す前に、裏向きの「自撮り」画像をさかさまになる前にキャッチしようとしています。QwenやFlorenceのようなモデルは反転データで学習されているので、裏向きのテキストには基本的にほとんど反応せず、プロンプトで促すのは彼らの基礎となる学習に逆らって戦っているだけのように見えます(大量の反転したデータを増強した学習を使っていたのだと思います)。現時点での最善の案は、テキストの切り抜きに対してEasyOCRを実行し、通常版と反転版のどちらがより高い読み取りスコアになるかを見ることです。こうしたOCRスコアの小細工は、本当にこれを扱う最良の方法なのでしょうか?それとも、私が見落としている賢くて小さなモデルのアプローチがあるのでしょうか?
[link] [comments]




