要旨: 高品質なテキスト表現は自然言語理解(NLU)にとって重要ですが、ベトナム語のような低資源言語は、注釈付きデータが限られていることにより課題に直面しています。PhoBERT や CafeBERT のような事前学習モデルは良好な性能を示しますが、その有効性はデータ不足によって制約されています。対照学習(CL)は、文表現を改善するための有望なアプローチとして近年注目されており、モデルが意味的に類似した文と相違した文を効果的に区別できるようにします。私たちは、既存の自然言語推論(NLI)データセットを活用して、ベトナム語の文埋め込みを最適化するために特化した新しい教師あり対照学習フレームワーク ViCLSR(Vietnamese Contrastive Learning for Sentence Representations)を提案します。さらに、教師あり学習のために既存のベトナム語データセットを適応させ、CL 手法との互換性を確保するためのプロセスも提案します。実験の結果、ViCLSR は、ViNLI(+6.97% F1)、ViWikiFC(+4.97% F1)、ViFactCheck(+9.02% F1)、UIT-ViCTSD(+5.36% F1)、ViMMRC2.0(+4.33% Accuracy)などの5つのベンチマーク NLU データセットにおいて、強力な単言語事前学習モデルである PhoBERT を大幅に上回ることを示しました。ViCLSR は、教師あり対照学習がベトナム語の NLU タスクにおける資源制約に効果的に対処し、低資源言語に対する文表現学習を改善できることを示しています。さらに、対照学習モデルの優れた性能に寄与している要因を明らかにするために、実験結果について詳細な分析を行います。ViCLSR は、自然言語処理タスクの推進における研究目的で公開されます。
ViCLSR:自然言語理解タスクのための自然言語推論(NLI)を用いた教師ありコントラスト学習フレームワーク
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ViCLSRは、自然言語推論(NLI)データを活用することで、低資源の自然言語理解タスクに向けたベトナム語文埋め込みを改善することを目的とした、教師ありコントラスト学習フレームワークである。
- 本研究では、既存のベトナム語データセットを教師ありコントラスト学習に適応させ、コントラスト学習(CL)パイプラインと互換性を持たせる方法を提案している。
- 実験の結果、ViCLSRは5つのベトナム語NLUベンチマークにおいて、単言語の事前学習ベースラインであるPhoBERTを大幅に上回り、データセットに応じて約+4%からほぼ+9%までの改善が報告されている。
- 本論文では、教師ありコントラスト学習がこの設定でより高い性能を達成する理由の主要因を特定するために、実験結果を分析している。
- ViCLSRは研究利用のために公開され、文表現学習および低資源言語のNLU性能の向上に貢献することを目指している。



