トークン・プルーニングで韓国語中心のLLMを最適化する

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、対象アプリケーションに不要な言語に対応するトークンと埋め込みパラメータを削除する圧縮手法「トークン・プルーニング」により、韓国語中心のタスク向けに適応した多言語LLMの体系的ベンチマークを提示する。
  • Qwen3、Gemma-3、Llama-3、Ayaといった複数のモデル群を、語彙構成(Original、英語-韓国語EnKo、英語-韓国語-中国語EnKoZh)の3条件で、一般能力・文化教養・指示追従・機械翻訳の既存ベンチマークにより評価する。
  • トークン・プルーニングにより、言語の混乱が減って生成の安定性が向上し、特に機械翻訳では韓国語特化タスクで性能が大きく改善し得ることが示される。
  • 指示追従の改善はアーキテクチャ依存で、潜在的なクロスリンガル表現と関連して変動する一方、語彙サイズの大幅削減が、メモリ制約のあるドメイン特化環境に適した有効な最適化であることが強調される(推論遅延の改善は控えめ)。