動物へのロバストなアラインメントのためのドキュメント・チューニング
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、動物への思いやり(compassion)という価値観を用いて、合成ドキュメントによるファインチューニングが価値アラインメントのロバスト性を高められるかを検証している。
- 評価として、動物への危害に関する推論を測るベンチマーク「Animal Harm Benchmark (AHB)」を26問・13の倫理次元で構築し、データセットおよびInspectによる評価を公開している。
- AHBでの結果では、合成ドキュメント3000件で77%の達成を示し、従来のinstruction-tuning(40%)を上回る一方、通常の安全ベンチマークや能力が低下する兆候は見られない。
