IndoBERT-Relevancy: インドネシア語テキスト向けの文脈条件付き関連性分類器

arXiv cs.CL / 2026/3/30

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、所与のトピック文脈に対して候補となるインドネシア語テキストが関連しているかどうかを判定するための、文脈条件付き分類器である IndoBERT-Relevancy を提案する。
IndoBERT Large（335Mパラメータ）を基盤としており、188トピックにわたる31,360件のラベル付き（トピック, テキスト）ペアからなる新しいデータセットで学習されている。
著者らは、反復的で失敗駆動のデータセット構築アプローチを用い、単一のデータソースだけでは頑健な関連性分類に必要なカバレッジを十分に満たせないことを見出している。
特定の弱点に対処するためのターゲット付き合成データを追加し、形式的・非形式的の両方のインドネシア語で F1 スコア 0.948、精度 96.5% を達成している。
得られたモデルは、関連性フィルタリングや関連するNLPパイプラインで再利用できるように HuggingFace 上で公開されている。

Abstract

与えられたトピックに対して、あるテキストが関連しているかどうかを判断することは、自然言語処理における基本的なタスクであるにもかかわらず、インドネシア語（Bahasa Indonesia）ではほとんど未踏のままである。感情分析や固有表現抽出とは異なり、関連性の分類（relevancy classification）では、2つの入力の関係を同時に推論することがモデルに求められる：すなわち、トピックの文脈（topical context）と候補となるテキスト（candidate text）である。私たちはIndoBERT-Relevancyを導入する。これは、IndoBERT Large（335Mパラメータ）をベースに構築され、文脈に条件付けられた関連性分類器であり、188のトピックにまたがる31,360件のラベル付きペアからなる新しいデータセットで学習した。反復的で失敗に駆動されたデータ構築プロセスを通じて、頑健な関連性分類には単一のデータソースでは不十分であること、また、特定のモデルの弱点に対して狙いを定めた合成データが効果的にその弱点を補えることを示す。最終モデルは、F1スコア0.948、精度96.5%を達成し、インドネシア語のフォーマルなテキストとインフォーマルなテキストの両方を扱える。モデルはHuggingFaceで公開されている。