動物へのロバストなアラインメントのためのドキュメント・チューニング

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、動物への思いやり(compassion)という価値観を用いて、合成ドキュメントによるファインチューニングが価値アラインメントのロバスト性を高められるかを検証している。
  • 評価として、動物への危害に関する推論を測るベンチマーク「Animal Harm Benchmark (AHB)」を26問・13の倫理次元で構築し、データセットおよびInspectによる評価を公開している。
  • AHBでの結果では、合成ドキュメント3000件で77%の達成を示し、従来のinstruction-tuning(40%)を上回る一方、通常の安全ベンチマークや能力が低下する兆候は見られない。

Abstract

本研究では、合成ドキュメントによるファインチューニングを通じて、価値整合(value alignment)の頑健性を調査します。その際、動物への思いやり(animal compassion)を、重要であると同時に、既存の整合の取り組みとは直交している価値として用います。思いやりに基づく推論を評価するために、動物危害ベンチマーク(Animal Harm Benchmark, AHB)を開発し、公開します。AHBは13の倫理的次元にまたがる全26問の評価であり、データセットおよびInspectによる評価として公開されています。AHBにおいて、3000件のドキュメントで学習すると、インストラクション・チューニング手法での40%に対して77%を達成し、人間の思いやりへの一般化も見られ、標準的な安全ベンチマークや能力の低下もありません。とはいえ、その後の無関係なインストラクション・チューニングは介入(intervention)を劣化させ、5000サンプル以降は優位性が消失します。探索的な結果は、ドキュメントに基づく価値介入は、典型的な学習パイプラインを通じて有効性を維持するために、明示的な保存戦略を必要とする可能性を示唆します。