C-Mining:幾何学的ミスアライメントによる文化データ合成のための種(シード)探索を教師なしで行う手法
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM(大規模言語モデル)で用いる文化データ合成のための「種(シード)」となる高品質データポイントを、教師なしで自動発見する枠組みC-Miningを提案する。
- 既存のシード選定は手作業やバイアスの入りうるLLM抽出に依存し、測定可能な基準が不足しているが、本手法は「定量化ギャップ」を埋めることを目的とする。
- C-Miningは、事前学習済み埋め込み空間における言語間の幾何学的ミスアライメントを用いて、文化的な固有性を計算可能な発見シグナルへと変換する。
- 探索時にノイズを除外しつつ、多言語コーパスから人手やLLMの監督なしでCulture Points(CPs)を抽出でき、シード準備コストを150倍以上削減できると報告している。
- 採掘した知識を使って指示追従(instruction-tuning)データセット合成を誘導し、文化理解と推論能力が向上し、CulturalBench-Hardで+6.03の改善と最先端基準の上回りが示される。