LLMにおける有害意図プロービングのためのセグメント・レベル・コヒーレンス

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存のLLM向け有害意図プロービング（ストリーミング）で起きがちな誤報の主因が、高スコアの一部トークンに依存しすぎる点にあると指摘しており、特にCBRN領域ではそれが良性コンテキストでの誤検知につながると述べています。
複数のエビデンストークンが予測を一貫して裏付けることを要求する新しいストリーミング・プロービング目的を提案し、検出を単発のスパイクではなく集約された信号に寄せています。
誤検知率1%に固定した場合、提案手法は強力なストリーミング・ベースラインに対して真陽性率を相対で35.55%改善し、ベースラインがAUROC 97.40%とほぼ飽和している状況でもAUROCのさらなる向上が見られます。
AttentionやMLP活性のプロービングが、残差ストリーム特徴よりも一貫して優れることを示し、さらに文字レベルの暗号化（敵対的ファインチューニング）による難読化攻撃にも、ベースLLMで作ったプローブをプラグアンドプレイで適用でき、AUROC 98.85%以上を達成すると報告しています。
全体として、本研究は自然なケースだけでなく敵対的な条件下でも有害意図の検知をより堅牢かつ転移耐性高く行う手法を提示しています。