HeceTokenizer: トルコ語のリトリーバルのための音節ベースのトークン化アプローチ

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

HeceTokenizerはトルコ語の決定的な6パターンの音韻構造を活用し、約8,000種類の閉集合・OOV-freeなシラブル（音節）単位のトークナイザを構築する手法として提案されています。
1.5MパラメータのBERT-tinyをトルコ語Wikipediaサブセットでスクラッチから事前学習（MLM）し、TQuADのRetrievalベンチマークで評価しています。
Recall@5は50.3%を達成し、200倍大きいモルフォロジー駆動のベースライン（46.92%）を上回っています。
さらに、細粒度のチャンクベースのリトリーバル戦略と組み合わせることで、音節の言語的規則性が検索タスクに有効で、かつリソース効率の良い帰納バイアスになり得ることを示唆しています。

概要: HeceTokenizerは、トルコ語の決定論的な6パターンの音韻構造を活用して、約8,000種類のユニークな音節タイプからなる、クローズドで未知語（OOV）を含まない語彙を構築する、音節ベースのトークナイザです。BERT-tinyエンコーダ（1.5Mパラメータ）は、マスク付き言語モデリングの目的を用いて、トルコ語Wikipediaの一部集合に対してスクラッチから学習され、Recall@5を用いてTQuADの検索ベンチマークで評価されます。微細なチャンクベースの検索戦略と組み合わせることで、HeceTokenizerは50.3%のRecall@5を達成し、200倍大きいモデルを使う形態駆動のベースラインが報告した46.92%を上回ります。これらの結果は、トルコ語の音節における音韻的な規則性が、検索タスクに対して強力で、リソース消費の少ない帰納バイアスを提供することを示唆しています。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

HeceTokenizer: トルコ語のリトリーバルのための音節ベースのトークン化アプローチ

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵