スキャンレーションの未来を築く:インペインティング搭載AIマンガ翻訳をどのように構築したか

Dev.to / 2026/4/9

📰 ニュース

要点

  • この記事では、漫画がOCRに対して特に難しい理由を、縦書きのたて書き文字、文字が複雑なアートや網点(ハーフトーン)と重なり合うこと、さらに挿絵の中に埋め込まれた手書きのSFX文字があることなどを挙げて説明しています。
  • Live3Dは、精密な吹き出し/テキスト検出、拡散ベースのインペインティングにより元の文字を「消しつつ」隠れていたアートを再構成する処理、そしてLLMによる文脈に基づく翻訳を含む、複数段階のAIマンガ翻訳パイプラインを紹介しています。
  • 翻訳後に自動組版(バウンディングボックス計測と、フォント/レイアウトの動的な調整)を行うことで、スキャンのような見た目の美しさを維持しています。
  • 著者らは、章あたり数時間かかっていた翻訳時間を、ページあたり数秒にまで短縮するなどの大幅なワークフロー改善を報告しており、高解像度画像でもレイテンシを低く保つために推論/重みを最適化しています。
  • 本アプローチを、表現意図を損なわないコンテンツローカライズとして位置づけ、より幅広い利用のためにAPIおよびWebインターフェースを継続的に改良していることにも触れています。
  • categories: [


課題:OCRにとってマンガは“ファイナルボス”な理由
標準的なOCR(光学文字認識)は、白いPDFなら簡単です。でもマンガは?それは悪夢です。対処すべきものは次のとおりです:

  • 縦書きの文字の流れ(縦書き:Tategaki)。
  • 画像上の文字:複雑な網点(ハーフトーン)パターンや線画に、セリフが重なり合っています。
  • SFX(擬音語・擬態語):そのアートそのものの一部である、手書きの日本語文字。

開発者として、いわゆる“見た目の悪い白い箱”のアプローチを超えたかったのです。ここではLive3Dでどのように取り組んだかを紹介します。

アーキテクチャ:単なるAPIラッパー以上のもの
ほとんどの「AI翻訳者」は、フロントエンドとしてGoogle Lensを使っているだけです。私たちはAI Manga Translatorを、マルチステージのパイプラインとして構築しました:

  1. セグメンテーション&検出:カスタマイズしたビジョンモデルを使い、音声吹き出しと吹き出し以外のテキスト(脇注)を高い空間精度で検出します。
  2. 「消しゴム」(インペイント):ここでNano Banana Proモデルが光ります。空白を残すのではなく、AIがテキストの背後にあるピクセルを予測します。もし髪が吹き出しによって隠れていた場合、AIは拡散ベースのインペインティングで髪のストロークを再構成します。
  3. 文脈に基づくLLM翻訳:OCR出力を、日本語の敬称やマンガ特有のスラングを理解する専門エージェントへ渡します。
  4. 自動レイアウト:レイアウトエンジンが元の吹き出しのバウンディングボックスを計算し、フォントサイズ、行間、字間(カーニング)を動的に調整して、“プロのスキャン”のような見た目を実現します。

結果:速度と品質のトレードオフ
AIパイプラインに「クリーニング」と「タイプセッティング」を任せることで、章ごとの翻訳にかかる時間を、時間単位からページあたり数秒へと減らしました。

開発者コミュニティにとって興味深いのは遅延(レイテンシー)です。Nano Bananaエンジンで最適化した重みのおかげで、遅いサーバー側レンダリングを待たせずに、高解像度のマンガページを処理できるよう推論を最適化しました。

なぜ重要なのか
私たちは、コンテンツのローカライズが瞬時に行われる時代に入っています。私たちは単に言葉を翻訳しているのではなく、コンピュータビジョンによって表現の意図を保存しています。

試してみる
現在、APIとWebインターフェースを改良しています。コンピュータビジョンとNLPの交差領域に興味があるなら、ぜひ私たちの実装についての考えを聞かせてください。

こちらのツールを確認してください:[https://aimangatranslator.io/]

返却形式: {"translated": "翻訳されたHTML"}