分散型ポストトレーニングへのバックドア攻撃

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、データ並列性とパイプライン並列性を用いる、大規模言語モデルの分散型ポストトレーニングが、悪意のある参加者によるポイズニングおよびバックドアの挿入によって攻撃されうることを研究する。
本論文は、攻撃者がモデル全体やデータセット全体を制御するのではなく、中間のパイプライン段を制御することで狙う、パイプライン並列性を対象とした初めてのバックドア攻撃であると主張する。
実験により、この限定された制御だけで、学習された領域やデータセットにかかわらず、モデルの整合（ミスアラインメント）を引き起こすバックドアを注入できることが示される。
トリガーワードを用いることで、整合の割合が80%から6%へ劇的に低下し、攻撃の高い有効性が示される。
最終モデルに対して安全性の整合トレーニングを適用した後でさえ、攻撃は60%のケースで成功し続けており、バックドアが後段の整合プロセスを通じても持続しうることを示している。

要旨: 大規模言語モデルの分散型ポストトレーニングでは、データ並列およびパイプライン並列の手法を用いてデータとモデルを分割します。残念ながら、分散型ポストトレーニングは、1人以上の悪意ある参加者による汚染（ポイズニング）攻撃やバックドア攻撃に対して脆弱になり得ます。分散型データ並列やフェデレーテッド・ラーニングに対する攻撃および防御に関する研究はいくつか存在します。しかし、パイプライン並列の頑健性に関する既存研究は、汚染攻撃に限られています。私たちの知る限り、本論文は、学習済みモデルをミスアラインさせることを目的とした、パイプライン並列に対する初のバックドア攻撃を提示します。本設定では、敵対者がモデル全体やデータセット全体ではなく、パイプラインの中間段階を制御します。これにより、データ汚染のような既存の攻撃は適用できません。実験結果は、このように限定された敵対者であっても、ポストトレーニング中にバックドアを注入し、学習済みモデルをミスアラインさせられることを示しています。これは、学習されたドメインやデータセットに依存しません。提案する攻撃では、トリガー語を含めることでアラインメントの割合が $80\%$ から $6\%$ に低下します。さらに、最終モデルに対して安全性アラインメント学習を適用することで本攻撃の頑健性を検証し、バックドア攻撃が依然として $60\%$ のケースで成功することを示します。