視覚-言語モデルの頑健性のための部分的再中心化ソフトマックス損失

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

大規模言語モデルが自然言語処理タスク(NLP)で画期的な進展を遂げる中、マルチモーダル技術は非常に人気を集めている。しかし、マルチモーダルNLPは入力への摂動によってモデルの出力が劇的に変化する敵対的攻撃に対して脆弱であることが示されている。コンピュータビジョンとNLPのモデルの両方でいくつかの防御技術が提案されている一方で、モデルのマルチモーダルな頑健性は十分には検討されていない。本論文では、事前学習済みマルチモーダルモデルの損失関数を修正し、上位K個のソフトマックス出力を制限することによって敵対的ロバストネスを評価する。評価とスコアリングに基づくと、ファインチューニング後には、事前学習済みモデルの敵対的ロバストネスが、一般的な攻撃に対して著しく改善されることが示される。さらなる研究としては、出力の多様性、一般化、およびこの種の損失関数のロバスト性と性能のトレードオフといった点が挙げられる。我々のコードは、本論文が受理された後に公開される予定である。

要旨: 大規模言語モデルが自然言語処理タスク(NLP)で画期的な進展を遂げる中、マルチモーダル技術の人気は高まっている。しかし、マルチモーダルNLPは入力への摂動によりモデルの出力が大幅に変化する敵対的攻撃に対して脆弱であることが示されている。コンピュータビジョンとNLPのモデルの両方でいくつかの防御技術が提案されている一方で、モデルのマルチモーダルな頑健性は十分には探究されていない。本論文では、事前学習済みマルチモーダルモデルの損失関数を変更し、上位K個のソフトマックス出力を制限することによって敵対的ロバストネスを評価する。評価とスコアリングに基づくと、ファインチューニング後には、事前学習済みモデルの敵対的ロバストネスが、一般的な攻撃に対して顕著に改善されることが示される。今後の研究課題として、出力の多様性、一般化、およびこの種の損失関数のロバスト性と性能のトレードオフなどが挙げられる。本論文が受理された後、コードを公開する予定である。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

視覚-言語モデルの頑健性のための部分的再中心化ソフトマックス損失

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer