
課題:OCRにとってマンガは“ファイナルボス”な理由
標準的なOCR(光学文字認識)は、白いPDFなら簡単です。でもマンガは?それは悪夢です。対処すべきものは次のとおりです:
- 縦書きの文字の流れ(縦書き:Tategaki)。
- 画像上の文字:複雑な網点(ハーフトーン)パターンや線画に、セリフが重なり合っています。
- SFX(擬音語・擬態語):そのアートそのものの一部である、手書きの日本語文字。
開発者として、いわゆる“見た目の悪い白い箱”のアプローチを超えたかったのです。ここではLive3Dでどのように取り組んだかを紹介します。
アーキテクチャ:単なるAPIラッパー以上のもの
ほとんどの「AI翻訳者」は、フロントエンドとしてGoogle Lensを使っているだけです。私たちはAI Manga Translatorを、マルチステージのパイプラインとして構築しました:
- セグメンテーション&検出:カスタマイズしたビジョンモデルを使い、音声吹き出しと吹き出し以外のテキスト(脇注)を高い空間精度で検出します。
- 「消しゴム」(インペイント):ここでNano Banana Proモデルが光ります。空白を残すのではなく、AIがテキストの背後にあるピクセルを予測します。もし髪が吹き出しによって隠れていた場合、AIは拡散ベースのインペインティングで髪のストロークを再構成します。
- 文脈に基づくLLM翻訳:OCR出力を、日本語の敬称やマンガ特有のスラングを理解する専門エージェントへ渡します。
- 自動レイアウト:レイアウトエンジンが元の吹き出しのバウンディングボックスを計算し、フォントサイズ、行間、字間(カーニング)を動的に調整して、“プロのスキャン”のような見た目を実現します。
結果:速度と品質のトレードオフ
AIパイプラインに「クリーニング」と「タイプセッティング」を任せることで、章ごとの翻訳にかかる時間を、時間単位からページあたり数秒へと減らしました。
開発者コミュニティにとって興味深いのは遅延(レイテンシー)です。Nano Bananaエンジンで最適化した重みのおかげで、遅いサーバー側レンダリングを待たせずに、高解像度のマンガページを処理できるよう推論を最適化しました。
なぜ重要なのか
私たちは、コンテンツのローカライズが瞬時に行われる時代に入っています。私たちは単に言葉を翻訳しているのではなく、コンピュータビジョンによって表現の意図を保存しています。
試してみる
現在、APIとWebインターフェースを改良しています。コンピュータビジョンとNLPの交差領域に興味があるなら、ぜひ私たちの実装についての考えを聞かせてください。
こちらのツールを確認してください:[https://aimangatranslator.io/]
返却形式: {"translated": "翻訳されたHTML"}