C-Mining:幾何学的ミスアライメントによる文化データ合成のための種(シード)探索を教師なしで行う手法

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM(大規模言語モデル)で用いる文化データ合成のための「種(シード)」となる高品質データポイントを、教師なしで自動発見する枠組みC-Miningを提案する。
  • 既存のシード選定は手作業やバイアスの入りうるLLM抽出に依存し、測定可能な基準が不足しているが、本手法は「定量化ギャップ」を埋めることを目的とする。
  • C-Miningは、事前学習済み埋め込み空間における言語間の幾何学的ミスアライメントを用いて、文化的な固有性を計算可能な発見シグナルへと変換する。
  • 探索時にノイズを除外しつつ、多言語コーパスから人手やLLMの監督なしでCulture Points(CPs)を抽出でき、シード準備コストを150倍以上削減できると報告している。
  • 採掘した知識を使って指示追従(instruction-tuning)データセット合成を誘導し、文化理解と推論能力が向上し、CulturalBench-Hardで+6.03の改善と最先端基準の上回りが示される。

Abstract

大規模言語モデル(LLM)における文化的整合の達成は、合成データ生成にますます依存しています。このような合成において最も重要な最初のステップはシードの選別(キュレーション)ですが、現在の手法では、これらのシードを選ぶための定量化可能な基準が欠けています。既存のアプローチは、拡張不可能な手作業によるキュレーション、またはバイアスの影響を受けやすいLLM抽出に依存しており、文化固有性を測定可能な信号というより抽象的な概念として扱っています。本論文では、この「定量化ギャップ」に取り組み、主観的な選別プロセスとしての文化シードの発見を、計算可能なデータマイニングの問題設定へと変換する教師なしフレームワークであるC-Miningを提案します。私たちの手法は、事前学習済みの埋め込み空間における文化概念の異言語間ミスアラインメントを、定量化可能な発見(ディスカバリー)の信号として活用する、新しい幾何学的洞察を利用します。言語的排他性が顕著で幾何学的な孤立性が大きい特徴をもつ領域を、体系的に特定しつつ、ノイズを能動的に除外することで、C-Miningは人手やLLMの監督に依存せず、原データの多言語コーパスから高忠実度なCulture Points(CP)を自動抽出します。これにより、準備コストを150倍以上削減します。さらに、得られた知識を活用して、多様なインストラクション・チューニング用データセットの合成を導きます。大規模な実験により、このシード中心のアプローチが、文化理解と推論能力を大幅に向上させることを示し、CulturalBench-Hardで+6.03ポイントの改善を達成し、最先端のベースラインを上回ります。高品質な文化データ合成のための、スケーラブルで定量化可能な解決策を提供します。