要旨: 本稿では、新しいKolmogorov-Arnoldネットワーク・フレームワークの、解釈可能な物体検出能力を検討する。提案手法は、自動運転車の知覚をはじめ、コンピュータビジョンにおける重要な限界に言及する。これらのシステムは、視覚的に劣化した、または曖昧なシーンにおいて、信頼度スコアの信頼性に関する限られた透明性しか提供しない。この制限に対処するために、Kolmogorov-Arnoldネットワークを、事後的(post-hoc)な解釈可能な代理モデルとして用い、7つの幾何学的および意味的特徴を用いて、You Only Look Once(Yolov10)検出の信頼性(trustworthiness)をモデル化する。Kolmogorov-Arnoldネットワークの加法的スプライン(additive spline)ベースの構造により、各特徴の影響を直接可視化できる。これにより、モデルの自信(confidence)が十分に裏付けられている場合と、信頼性が低い場合とを明らかにする、滑らかで透明性の高い関数写像が得られる。Common Objects in Context(COCO)と、バース大学キャンパスの画像の両方に対する実験により、本フレームワークが、ブラー、遮蔽(occlusion)、または低いテクスチャ(low texture)下での低信頼(low-trust)予測を正確に特定できることが示される。これにより、フィルタリング、レビュー、または下流でのリスク低減に向けた実行可能な知見が提供される。さらに、ブートストラップ言語-画像(BLIP)の基盤モデルが、各シーンの記述的キャプションを生成する。このツールは、解釈可能性(interpretability)層に影響を与えることなく、軽量なマルチモーダル・インターフェースを可能にする。得られたシステムは、信頼できる信頼度推定値を伴う、解釈可能な物体検出を実現する。これは、自動運転およびマルチモーダルな人工知能アプリケーションに向けた、透明で実用的な知覚コンポーネントの強力な手段を提供する。
解釈可能な物体検出と信頼できるマルチモーダルAIのための、Kolmogorov-Arnoldネットワークとビジョン・ランゲージ基盤モデルを組み込んだYOLOv10
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、YOLOv10の上にKolmogorov-Arnoldネットワーク(KAN)を追加する、解釈可能な事後(post-hoc)フレームワークを提案し、困難な視覚条件下での物体検出の信頼性(confidence)スコアを推定する。
- 加法的なスプラインベースのKAN構造を用い、幾何学的・意味論的な7つの特徴量を入力することで、各特徴が検出の信頼度をどのように支持または損なっているかを直接可視化できる。
- COCOおよびUniversity of Bathキャンパス画像での実験により、本システムが、ぼ blur、遮蔽、低テクスチャといった要因によって生じる低信頼の予測を高精度にフラグ付けできることを示す。
- 本フレームワークはBLIPのビジョン・ランゲージ基盤モデルと組み合わせ、シーンごとのキャプションを生成する。これにより、解釈可能性の層を保持しつつ、軽量なマルチモーダル・インターフェースを実現し、安全性を高めた下流の意思決定を可能にする。
- 全体の目的は、自動運転車レベルの知覚を支えることであり、マルチモーダルAIシステムにおけるフィルタリング、レビュー、リスク低減のために実行可能で透明性のある信頼度推定値を提供することにある。