マルチステップ画像生成AIで、LLMが会話にない場面を描く問題に試した工夫

Zenn / 4/30/2026

💬 OpinionTools & Practical UsageModels & Research

共有:

Key Points

マルチステップの画像生成AIで、会話に出てこない場面をLLMが描いてしまう（会話外の状況生成）問題が発生する点に着目している。
その問題に対し、生成過程での条件付けや参照情報の扱い方を工夫することで、会話内容と画像要素の整合を取りにいくアプローチを試している。
LLMが画像生成の文脈を過剰に補完してしまう挙動を前提に、入力設計側で抑制・誘導する考え方が示されている。
マルチステップ生成では各ステップの出力が次の条件に影響するため、どこで制御すべきか（会話外生成の芽を早期に潰す）という実装観点が重要だと示唆している。

はじめに会話を絵にしてXにシェアする、というアイデアの個人開発をしていました。ユーザーとAIの会話を読み込んで、その内容に合うアニメ調のイラストを自動生成するサービスです。技術スタックはReact Router 7 + Hono + Mastra + Replicate (Flux 1.1 Pro) です。開発の中で何度もぶつかった問題があります。LLMが、会話に登場しない場面まで描いてしまうことです。たとえば「今日は唐揚げを揚げて、ちょっと焦がしちゃった」のように料理の話しかしていない会話なのに、抽出される場面の中に「公園で散歩する」「本を読む」のようなものが混ざります。こ...

Continue reading this article on the original site.

Read original →