並列文書のスマートなバイリンガル集中クロール
arXiv cs.CL / 2026/3/25
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、並列(相互に翻訳された)文書のための総当たり型クロールが非効率である点に対し、並列コンテンツをより早い段階で狙い撃ちする「スマート」なクロール戦略を提案する。
- 事前学習済みの多言語Transformerエンコーダに基づくニューラルアプローチを用い、2つのURLおよびペアに基づくタスクに対して微調整する:URLから文書の言語を予測すること、ならびに2つのURLが並列文書を指しているかどうかを予測すること。
- 著者らは、各モデルを個別に評価したのち、統合されたクロールツールとして評価し、それぞれの構成要素が単独でも有効であることを示す。
- URLからの言語モデルと、URLペアの並列性モデルを組み合わせることで、クロール中に特定の言語ペアの並列コンテンツをより早く発見できるようになり、無駄なダウンロードを減らし、従来手法よりも多くの並列文書を見つけられることが示される。