概要: Tiny Recursive Models (TRM) は、共有ネットワークを反復的に改良することによって推論タスクで高い成果を達成します。私たちは、低資源言語の Quality Estimation (QE) にこれらの再帰的メカニズムが移行するかを、3段階の方法論を用いて調査します。低資源 QE データセット上の 8 言語ペアを対象とした実験は、3つの知見を明らかにします。まず、TRM の再帰的メカニズムは QE に移行しません。外部反復は性能を悪化させ、内部再帰はわずかな利点しかもたらしません。次に、表現品質がアーキテクチャの選択を支配し、最後に、凍結された事前学習埋め込みはファインチューニング済みの性能に匹敵しながら、訓練可能なパラメータを37倍削減します(7M 対 262M)。凍結された XLM-R 埋め込みを用いた TRM-QE は Spearman 相関係数0.370を達成し、ファインチューニング済みバリアント(0.369)に匹敵し、同等深さの標準トランスフォーマー(0.336)を上回ります。ヒンディー語とタミル語では、凍結された TRM-QE が MonoTransQuest(560M パラメータ)を上回り、訓練可能パラメータを80倍少なくします。これは、重み共有と凍結埋め込みの組み合わせが QE のパラメータ効率を実現することを示唆しています。さらなる研究のためにコードを公開します。コードは https://github.com/surrey-nlp/TRMQE にあります。
凍結された再帰モデルによるパラメータ効率の高い品質推定
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TRMの再帰的メカニズムは品質推定(QE)にはうまく適用できない。外部反復は性能を悪化させ、内部再帰はわずかな利点しか提供しない。
- リソースが限られたQEでは、表現の質がアーキテクチャの選択を支配し、凍結済みの事前学習埋め込みはファインチューニング済みの性能に匹敵しつつ、学習可能なパラメータを37倍削減できる(7M対262M)。
- 凍結済みのXLM-R埋め込みを用いたTRM-QEは、Spearman相関係数0.370を達成し、ファインチューニング済みバリアント(0.369)に匹敵するとともに、同等深さの標準トランスフォーマー(0.336)を上回る。
- ヒンディー語とタミル語について、凍結済みのTRM-QEはMonoTransQuest(560Mパラメータ)を上回り、学習可能パラメータを80倍少なくすることで、重み共有と凍結埋め込みの価値を示している。
- 著者らはさらなる研究のためにコードを公開している。
