LLMによる推論ベースの教師なしテキストクラスタの洗練
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMを埋め込み生成器としてではなく意味の判断者(semantic judge)として用いることで、任意の教師なしクラスタリングアルゴリズムによって生成されたクラスタを洗練させる枠組みを提案する。
- LLMの3つの推論段階――一貫性の検証、冗長性の裁定(重複するクラスタの統合/棄却)、完全に教師なしのラベル付けの基礎づけ(label grounding)――を適用し、教師データなしでクラスタ品質を向上させる。
- 2つの異なるプラットフォームのソーシャルメディアコーパスでの実験により、従来のトピックモデルおよび新しい表現ベースのベースラインと比較して、クラスタの一貫性が改善され、人間の意図により沿ったラベル付け品質が得られることが示される。
- 人手評価では、ゴールドスタンダードの注釈が与えられていないにもかかわらず、LLMが生成したラベルとの間で強い一致が確認される。さらに、頑健性テストにより、時間・分量条件を一致させた場合のプラットフォーム間での安定性が示唆される。
- 著者らは、LLMの推論が、教師なしテキスト分析をより信頼でき、解釈可能にするための一般的な検証/洗練メカニズムとして機能し得ると主張する。




