要約: プライバシーを保つ学習システムは、階層的な視覚表現にノイズを注入することが多く、中心的な課題は、\emph{モデル化}するように、これらの摂動が宣言されたプライバシー予算とどのように整合するかを、解釈可能で、視覚バックボーンおよび視覚--言語モデル(VLMs)全体へ適用可能な方法で示すことです。私たちは \emph{Bodhi VLM} を提案します。これは \emph{プライバシー整合モデリング} フレームワークで、\emph{階層的ニューラル表現} のためのものです: (1) 敏感な概念を層ごとのグルーピングへ結びつけることを、NCP および MDAVベースのクラスタリングを介して行う; (2) 多尺度表現(例:特徴ピラミッドや視覚エンコーダ層)に対して、ボトムアップ(BUA)およびトップダウン(TDA)戦略を用いて敏感な特徴領域を局在させる; (3) \emph{期待値最大化プライバシー評価}(EMPA)モジュールを用いて、適合した敏感特徴分布を評価者が指定した参照と比較することにより、解釈可能な \emph{予算整合信号} を生成します(例:c/\epsilon のスケールを持つラプラス分布やガウス分布)。出力は参照相対的であり、\emph{not} は正式な差分プライバシー推定量ではありません。私たちは階層的特徴構造に対する BUA/TDA を正式化し、フレームワークを物体検出器(YOLO、PPDPTS、DETR)および VLM の \emph{視覚エンコーダ}(CLIP、LLaVA、BLIP)に対して検証します。BUAとTDAは、同程度の偏差傾向を示し、EMPAは報告された設定下で安定した整合信号を提供します。一般的な不一致ベースライン(Chi-square、K-L、MMD)と、タスク関連ベースライン(MomentReg、NoiseMLE、Wass-1)と比較します。結果は補足資料における信頼区間とともに、複数のシードにわたる平均値±標準偏差として報告されています。本研究は、事後の監査のみならず、プライバシー適合的な階層表現の学習可能で解釈可能なモデリングの視点を提供します。ソースコード: \href{https://github.com/mabo1215/bodhi-vlm.git}{Bodhi-VLM GitHubリポジトリ}
Bodhi VLM: 階層的な視覚表現に対するプライバシー整合モデリング—ボトムアップおよびトップダウンの特徴探索を通じてビジョンバックボーンとVLMエンコーダを統合
arXiv cs.CV / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Bodhi VLMは、階層的なニューラル表現に対するプライバシー整合モデリングフレームワークを提案し、注入された摂動を宣言されたプライバシー予算と整合させることを、ビジョンバックボーンとビジョン-言語モデルのエンコーダ全体で実現する。
- センシティブな概念を層ごとのグループへNCPとMDAVベースのクラスタリングを介して結び付け、複数スケール表現の上でボトムアップおよびトップダウン戦略を用いてセンシティブな特徴領域を特定する。
- 期待値最大化プライバシー評価(EMPA)モジュールを組み込み、推定されたセンシティブ特徴分布を参照分布と比較することにより解釈可能な予算整合信号を出力する。正式な差分プライバシー推定量を提供するのではない。
- 著者らは、物体検出器(YOLO、PPDPTS、DETR)およびVLMの視覚エンコーダ(CLIP、LLaVA、BLIP)でこのアプローチを検証し、同等の偏差傾向と安定した整合信号を示した。
- 本研究は、プライバシー整合された階層表現に関する学習可能で解釈可能な視点を提供し、Bodhi-VLMのGitHubリポジトリでソースコードを公開している。