マルチタスク学習における高度なオプティマイザの適用可能性を掘り下げる

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、最適化に基づくマルチタスク学習手法は、高度なオプティマイザによっては性能が低下し得ることを見出している。これは、インスタントに導出された勾配がパラメータ更新への寄与がわずかであり、その結果として学習ダイナミクスの改善が限定的になるためである。
高度なオプティマイザの一つであるMuonは、効果的にマルチタスク学習者のように振る舞うことが観察されており、直交化の質は使用する勾配に強く依存する。
これらの問題に対処するため、著者らはAPT（Applicability of advanced oPTimizers）を提案する。APTは、高度なオプティマイザの挙動とマルチタスクの要求のバランスを取るための、単純な適応的モーメンタム機構を追加する。
さらに、その枠組みには軽量な方向保持（direction-preservation）技術も含まれており、Muonの直交化プロセスを改善する。
4つの主要なMTLデータセットでの実験により、APTは既存の複数のMTLアプローチを一貫して改善し、大きな性能向上が得られることが示されている。

要旨: マルチタスク学習（MTL）は、基盤となる機械学習の問題であり、過去10年間で広範に開発されてきました。近年では、最適化の軌跡を変えることで、複数のタスクを同時に学習するための、さまざまな最適化ベースのMTL手法が提案されています。これらの手法はタスクの競合を解消し、再バランスすることを目指していますが、先進的な最適化手法を用いる際に見落とされがちな要因によって、その有効性がしばしば損なわれることを、実験的に明らかにします。具体的には、即時に導出された勾配は、実際のパラメータ更新においてはわずかな役割しか果たしていないという点です。この不整合により、MTLフレームワークは学習ダイナミクスにおける力を十分に発揮できません。さらに、最近登場した先進的な最適化手法である Muon-a は、本質的にマルチタスク学習者として機能していることを観察しており、そのことは、その直交化に用いられる勾配の重要性を強調しています。これらの課題に対処するために、APT（Applicability of advanced oPTimizers）を提案します。APTは、先進的最適化手法とMTLの強みのバランスを取るための、単純な適応的モーメンタム機構を備えたフレームワークです。加えて、Muon's の直交化を促進するための軽量な方向保存手法も導入します。4つの主要なMTLデータセットにわたる大規模な実験の結果、APTは既存のMTL手法を一貫して改善し、大幅な性能向上をもたらすことが示されました。