要旨: 合成データ生成(SDG)は、Large Language Models(LLM)を活用することで、微調整によって、より小型ではあるが資源および計算効率の高いLLMの性能を向上させるための有効なアプローチとして、近年認められ、広く採用されるようになってきました。SDGにおける重要な課題は、生成されるデータの品質と多様性を確実にすることです。本論文では、生成データの多様性と分布を埋め込み空間において分析し、特定の近傍内における例の密度と、その領域から引き出した例に対する予測精度との間に強い相関があることを示します。この洞察に基づき、埋め込みベースのサンプリングのための対象(ターゲット)化されたパイプラインを提示し、それによってデータの多様性を高め、いくつかのベンチマークにわたって性能を一貫して改善することを示します。
複雑な推論タスク向けの効率的な埋め込みベース合成データ生成
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMベースのSDGによって生成される合成データが、品質・多様性の目標を満たせないことがある理由を検討し、その挙動を埋め込み空間上で分析する。
- 埋め込み近傍(近傍内)の局所的な例密度と、その領域から引き当てたサンプルに対する予測精度との間に強い相関があることを見出す。
- この洞察を用いて、著者らは多様性を高め、複雑な推論タスクの分布をより適切にカバーすることを目的とした、ターゲット付きの埋め込みベースサンプリング・パイプラインを提案する。
- その手法は、生成例の多様性と代表性を制御しつつ、複数のベンチマークにわたって一貫して性能を改善することが報告されている。
