AI Navigate

AgentBench SFTチューニングの実験記録 — LoRA rank・epochs・マージ手法の系統的検証

Zenn / 3/11/2026

📰 NewsTools & Practical UsageModels & Research

Key Points

  • AgentBenchデータセットを使い、LoRAのrank、学習エポック数、マージ手法の異なる組み合わせについて系統的なSFT(スーパーバイズド・ファインチューニング)実験を実施した。
  • 各パラメータの設定がファインチューニング性能に与える影響を分析し、最適なチューニング条件の探索を行っている。
  • 実験結果はエージェントの行動性能向上に寄与する具体的な知見を提供し、LoRA手法を用いた効率的なファインチューニングの理解を深める内容となっている。
TL;DR AgentBench(ALFWorld + DBBench)向けに 100以上のモデル をSFTで学習し、LoRA rank、エポック数、モデルマージ手法などを系統的に検証した。主な発見: LoRA rank: r=8/12/16/48はすべて有害。r=32のみ有効 エポック数: 0.1刻みの違いが致命的。epochs=1.0がピンポイントの最適値 eval_loss: タスク性能と相関しない。最低のeval_lossが最悪のタスク性能を出した モデルマージ: SLERP/DARE-TIESは「良いとこ取り」ではなく「トレードオフの再分配」 データ増強: 3,...

Continue reading this article on the original site.

Read original →