MMKU-Bench: 多様な視覚知識の更新に対応するマルチモーダル更新ベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MMKU-Benchは、多モーダル知識更新を評価する総合的なベンチマークで、更新済みおよび未知の知識シナリオにわたり、2.5万件を超える知識インスタンスと4.9万枚を超える画像を特徴とします。
監督付きファインチューニング（SFT）と人間のフィードバックに基づく強化学習（RLHF）は、知識の更新時に壊滅的忘却を引き起こしがちな一方、知識編集（KE）は一般的な能力の維持に優れるが、継続的な更新には苦労します。
本ベンチマークは、モダリティ間の一貫性評価とモダリティ間の体系的分析を可能にし、マルチモーダル知識更新の評価手法の発展を促進します。
著者らは、MMKU-Bench上で代表的なアプローチ（SFT、RLHF、KE）を比較し、それぞれの方法の強みと限界について実証的な洞察を提供します。
全体として、MMKU-Benchはマルチモーダル知識更新の評価と進展を指針づける信頼性の高いプラットフォームを提供します。

概要: 現実世界の知識が進化し続けるにつれて、事前学習中にマルチモーダルモデルによって獲得されたパラメトリック知識は、現実世界の知識と一貫性を保つことがますます難しくなる。既存の研究は、マルチモーダル知識更新が未知の知識を学習することのみに焦点を当て、モデルがすでに習得して後に変化する知識を更新する必要性を見落としている。さらに、評価は同一モダリティに限定され、モダリティ間の一貫性を体系的に分析することが欠けている。これらの問題に対処するため、本研究はMMKU-Benchを提案する。これはマルチモーダル知識更新の総合的な評価ベンチマークで、2万5千以上の知識事例と4万9千枚以上の画像を含み、更新された知識と未知の知識という2つのシナリオを網羅しており、異なる知識タイプ間での学習を比較分析できる。このベンチマークでは、監督付き微調整（SFT）、人間のフィードバックに基づく強化学習（RLHF）、および知識編集（KE）を含む、代表的なアプローチの様々な評価を行う。実験結果は、SFTとRLHFが壊滅的な忘却を起こしやすい一方で、KEは一般的な能力をより良く保持するが、継続的更新には明確な制約を示す。全体として、MMKU-Benchはマルチモーダル知識更新の信頼性が高く包括的な評価ベンチマークを提供し、この分野の進展を促進する。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

MMKU-Bench: 多様な視覚知識の更新に対応するマルチモーダル更新ベンチマーク

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒