ReHARK: ロバストなワンショット視覚と言語適応のための洗練されたハイブリッド適応RBFカーネル

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

極めて限られたデータで大規模な視覚-言語モデルを下流タスクへ適応させる際の「安定性-可塑性」トレードオフに対処し、局所推定量に依存する従来のトレーニング不要手法の限界を浮き彫りにします。
ReHARKは、少数ショット適応を再現核ヒルベルト空間(RKHS)におけるグローバル近接正則化として再解釈し、頑健性を高めるトレーニング不要の多段階改良パイプラインを導入します。
パイプラインには、ハイブリッド事前知識構築（CLIPとGPT-3のゼロショットのテキスト知識を視覚クラスのプロトタイプと融合させて堅牢な意味-視覚アンカーを形成する）、サポートセット拡張（ブリッジング）、適応分布整合、そして多尺度RBFカーネルが含まれます。
11ベンチマークで平均65.83%の精度を達成し、ワンショット視覚-言語適応の新たな最先端を樹立。実用的な導入のため、コードはGitHubで公開されています。

本文: arXiv:2603.11542v1 アナウンスタイプ: new Abstract: CLIP のような大規模 Vision-Language Models (VLMs) を、極めて限られたデータしかない下流タスクへ適応させること、特にワンショット設定では、顕著な「安定性-可塑性」ジレンマによって妨げられることが多いです。Tip-Adapter のようなトレーニング不要の手法によって効率的なキャッシュ機構が導入されている一方で、これらのアプローチはしばしば局所的なナダラヤ-ワトソン推定器として機能します。このような推定器は固有の境界バイアスとグローバルな構造正則化の欠如を特徴とします。本論文では、ReHARK（Refined Hybrid Adaptive RBF Kernels）は、再現核ヒルベルト空間（RKHS）におけるグローバル近接正則化を通じて少数ショット適応を再解釈する相乗的なトレーニング不要フレームワークとして提案されます。多段階の改良パイプラインは以下で構成されます：(1) Hybrid Prior Construction（ハイブリッド事前知識構築）—CLIPとGPT-3からのゼロショットのテキスト知識を視覚クラスのプロトタイプと融合させ、頑健な意味-視覚アンカーを形成します；(2) Support Set Augmentation（Bridging、サポートセット拡張）— 視覚とテキストモダリティ間の遷移を滑らかにする中間サンプルを生成します；(3) Adaptive Distribution Rectification（適応分布整合）— 拡張されたサポートセットに合わせてテスト特徴の統計を整合させ、ドメインシフトを緩和します；(4) Multi-Scale RBF Kernels（多尺度RBFカーネル）— 多様なスケールにわたる複雑な特徴幾何を捉えるためにカーネルのアンサンブルを用います。11の多様なベンチマークを用いた広範な実験により、卓越した安定性と精度が示されています。ReHARKはワンショット適応の新たな最先端を確立し、平均精度65.83%を達成して既存のベースラインを大幅に上回ります。コードは https://github.com/Jahid12012021/ReHARK で利用可能です。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

ReHARK: ロバストなワンショット視覚と言語適応のための洗練されたハイブリッド適応RBFカーネル

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer