IndoBERT-Relevancy: インドネシア語テキスト向けの文脈条件付き関連性分類器
arXiv cs.CL / 2026/3/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、所与のトピック文脈に対して候補となるインドネシア語テキストが関連しているかどうかを判定するための、文脈条件付き分類器である IndoBERT-Relevancy を提案する。
- IndoBERT Large(335Mパラメータ)を基盤としており、188トピックにわたる31,360件のラベル付き(トピック, テキスト)ペアからなる新しいデータセットで学習されている。
- 著者らは、反復的で失敗駆動のデータセット構築アプローチを用い、単一のデータソースだけでは頑健な関連性分類に必要なカバレッジを十分に満たせないことを見出している。
- 特定の弱点に対処するためのターゲット付き合成データを追加し、形式的・非形式的の両方のインドネシア語で F1 スコア 0.948、精度 96.5% を達成している。
- 得られたモデルは、関連性フィルタリングや関連するNLPパイプラインで再利用できるように HuggingFace 上で公開されている。



