SAGE: 低資源の東南アジアにおける文化適合翻訳のための持続可能なエージェント指導型エキスパート・チューニング

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SAGEは、強化学習エージェント(GRPO)を用いて『適切なデータ』を『ビッグデータ』より優先させるエネルギー配慮型フレームワークを導入し、七つの低資源の東南アジア言語に対する翻訳用のコンパクトな訓練データセットを自律的にキュレーションする。
  • エージェントは、ノイズと文化的ずれを除去するため、専門家が作成した小規模なコミュニティ対話のセットから得られる意味的報酬信号に依存しており、データ使用量を97.1%、訓練エネルギーを95.2%削減を達成した。
  • オープンソースのLLMは、キュレーション済みデータ上でLow-Rank Adaptation (LoRA)を用いて効率的にファインチューニングされ、英語↔七つの低資源言語間の翻訳において最先端のBLEU-4およびCOMET-22の結果を提示する。
  • 本研究は、資源要件を大幅に低減した高性能な翻訳モデルを提供することで、グローバル・サウスのデジタル格差を埋める、スケーラブルで環境に配慮したアプローチを提示する。

要旨: 包摂的な世界規模のウェブのビジョンは、特に東南アジアの資源の乏しい地域のコミュニティにとって、深刻な言語的分断によって妨げられている。大規模言語モデル(LLMs)は翻訳の潜在的解決策を提供するが、データ不足の文脈での展開には二重の課題がある。高品質で文化的に関連性のあるデータの不足と、大規模でノイズの多いウェブコーパスをトレーニングする際の高額なエネルギーコストである。デジタル包摂と環境サステナビリティの緊張を解決するために、Sustainable Agent-Guided Expert-tuning(SAGE)を導入する。このフレームワークは、エネルギーを意識したパラダイムを先駆けており、「正しいデータ」を「ビッグデータ」より優先する。フィルタリングされたデータ上での炭素集約的なトレーニングの代わりに、SAGEはGroup Relative Policy Optimization(GRPO)によって最適化された強化学習(RL)エージェントを用いて、自律的にコンパクトなトレーニングセットを編成する。エージェントは、小規模で専門家が構築したコミュニティ対話の集合から得られる意味的報酬信号を利用して、ノイズと文化的乖離をフィルタリングする。その後、LoRA(Low-Rank Adaptation)を用いて、このキュレーションデータ上でオープンソースの大規模言語モデル(LLMs)を効率的に微調整する。SAGEを、東南アジアの英語と7つの低資源言語(LRLs)間の翻訳タスクに適用した。我々のアプローチはBLEU-4およびCOMET-22の指標で最新の最先端性能を確立し、現地の言語的ニュアンスを効果的に捉えた。特に、SAGEは全データセットで訓練されたベースラインを上回りつつ、データ使用量を97.1%削減し、トレーニングエネルギー消費を95.2%削減する。高性能なモデルを最小限の環境負荷で提供することにより、SAGEはグローバルサウスのデジタル格差を埋めるためのスケーラブルで責任ある道筋を提供します。

返却形式: {"translated": "翻訳されたHTML"}