このプロジェクトにはほぼ1年取り組んできました。マンガのページを翻訳するうえで良い成果を上げています。
一般的には、テキスト検出のためのYOLOモデル、カスタムOCRモデル、インペイントのためのLaMaモデル、翻訳用の多数のLLM、そして画像内に翻訳テキストをブレンドするカスタムテキストレンダリングエンジンを組み合わせています。
オープンソースでRustで書かれており、CUDAが同梱されたスタンドアロンのアプリケーションで、セットアップは不要です。
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/3/14
このプロジェクトにはほぼ1年取り組んできました。マンガのページを翻訳するうえで良い成果を上げています。
一般的には、テキスト検出のためのYOLOモデル、カスタムOCRモデル、インペイントのためのLaMaモデル、翻訳用の多数のLLM、そして画像内に翻訳テキストをブレンドするカスタムテキストレンダリングエンジンを組み合わせています。
オープンソースでRustで書かれており、CUDAが同梱されたスタンドアロンのアプリケーションで、セットアップは不要です。
Publickey
Publickey
Dev.to
Dev.to
Dev.to