みなさんこんにちは、
Wordレポートを自動的に生成できるローカルAIモデルのセットアップについて、助言を探しています。
すでに手作業で作成したレポートが約500件あり、これらの構造を理解し、同じ形式で新しいレポートを生成し始められるように、モデルを学習(トレーニング)または微調整したいと考えています。
レポートは次のように構成されています:
- 画像
- 各画像の上にあるテキストによる説明
つまり基本的には、私は次のことができるシステムが必要です:
画像を理解する
既存のレポートと同様の形式の説明文を生成する
すべてを整形されたWordドキュメントとして出力する
プライバシーの理由から、ローカルで(オフラインで)動かせるものを希望しています。
この目的には、どのモデルやアプローチが最適でしょうか?
- ビジョン言語モデルを微調整すべきですか?
- それとも、既存のレポートを使ったような検索(RAG)を利用すべきですか?
おすすめ(モデル、ツール、またはワークフローなど)があれば、とてもありがたいです。
[link] [comments]




