Table-LLM-Specialist:反復型ジェネレータ・バリデータのファインチューニングによる表タスク向け言語モデル専門家
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、「Table-LLM-Specialist」と呼ばれる自己学習型のファインチューニング手法を提案し、人手による高コストなラベル付けなしで、NL-to-Codeやデータクリーニングのような複雑な表タスクにおける言語モデルの性能向上を目指す。
- 表タスクの二つの定式化(生成的 vs. 分類的)に基づくジェネレータ–バリデータの学習データ戦略を活用し、合成の学習例を反復的に生成・検証する。
- LlamaおよびOpenAI GPTモデル(GPT-3.5およびGPT-4)での実験により、この手法が表タスクの品質を向上させることが示されており、場合によってはGPT-4レベルに到達、またはそれを超えるGPT-3.5ベースのファインチューニングが可能になる。
- より小型のモデルでも高品質を実現できるため、導入コストとレイテンシを削減できることが報告されている。また、体系的に生成された多様なデータにより、汎化性能も改善される。
- Microsoftによれば、ファインチューニング済みモデルはExcelに組み込まれており、自動化された表データのクリーニング用途として本番環境に展開されている。著者らはGitHubを通じてコードを提供している。
