HeceTokenizer: トルコ語のリトリーバルのための音節ベースのトークン化アプローチ

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • HeceTokenizerはトルコ語の決定的な6パターンの音韻構造を活用し、約8,000種類の閉集合・OOV-freeなシラブル(音節)単位のトークナイザを構築する手法として提案されています。
  • 1.5MパラメータのBERT-tinyをトルコ語Wikipediaサブセットでスクラッチから事前学習(MLM)し、TQuADのRetrievalベンチマークで評価しています。
  • Recall@5は50.3%を達成し、200倍大きいモルフォロジー駆動のベースライン(46.92%)を上回っています。
  • さらに、細粒度のチャンクベースのリトリーバル戦略と組み合わせることで、音節の言語的規則性が検索タスクに有効で、かつリソース効率の良い帰納バイアスになり得ることを示唆しています。

概要: HeceTokenizerは、トルコ語の決定論的な6パターンの音韻構造を活用して、約8,000種類のユニークな音節タイプからなる、クローズドで未知語(OOV)を含まない語彙を構築する、音節ベースのトークナイザです。BERT-tinyエンコーダ(1.5Mパラメータ)は、マスク付き言語モデリングの目的を用いて、トルコ語Wikipediaの一部集合に対してスクラッチから学習され、Recall@5を用いてTQuADの検索ベンチマークで評価されます。微細なチャンクベースの検索戦略と組み合わせることで、HeceTokenizerは50.3%のRecall@5を達成し、200倍大きいモデルを使う形態駆動のベースラインが報告した46.92%を上回ります。これらの結果は、トルコ語の音節における音韻的な規則性が、検索タスクに対して強力で、リソース消費の少ない帰納バイアスを提供することを示唆しています。