ByteDanceの調査で、長文ドキュメント学習はLMMに質問させる方が文章の文字起こしより有効だと判明

THE DECODER / 2026/5/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ByteDanceのSeed調査では、小型の7B LMMが、はるかに大きなモデルよりも長く画像が多いドキュメントに関する質問への回答で高い信頼性を示すことが分かりました。
学習時に見たことのない文書より最大4倍長い資料でも、モデルは良好に機能します。
ページの文字起こしは行わず、モデルに質問へ答えさせることで、関連する箇所を自力で見つけるように学習させるアプローチが採用されています。
この結果は、長文ドキュメント学習において、文字起こし中心のパイプラインよりも「質問駆動＋検索・関連箇所特定型」の学習戦略が有効である可能性を示唆しています。

AIドキュメントスキャナーが、渦巻く書類の山から関連する論文を選別し、選択したドキュメントに色鮮やかなビームを導く。

ByteDance Seedは、7Bモデルが、トレーニング中に見たどんなデータよりも4倍長い、長く画像が多いドキュメントに関しても、はるかに大きなモデルよりも確実に質問に答えられることを示しています。ページを文字起こしするのではなく、このモデルは、自分自身で質問に答え、適切な該当箇所を見つけることで学習します。

この記事 ByteDanceの調査では、LMMに質問をする方が、長文ドキュメントのトレーニングのために文字起こしさせるよりも効果が高いことが判明はThe Decoder に最初に掲載されました。