TSHA:信頼できる安全ハザード評価シナリオにおける視覚言語モデルのためのベンチマーク
arXiv cs.CV / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、屋内の安全ハザード評価シナリオにおいて視覚言語モデル(VLM)を評価するための新しいベンチマーク「TSHA(Trustworthy Safety Hazards Assessment)」を提案する。
- 従来のベンチマークの限界に対処するため、合成データから実データへのドメインギャップを縮小し、単純化された制約を超えて安全タスクを拡張し、より厳密な評価プロトコルを導入する。
- TSHAには、既存の屋内データセット、インターネット画像、AIGC画像、ならびに新たに撮影した画像から収集した81,809件の厳選された学習サンプルが含まれ、実環境をより適切に反映する。
- ベンチマークの難易度の高いテストセット(1,707サンプル)には、複数のハザードが同時に発生する動画およびパノラマ画像が含まれており、複雑な家庭内の安全状況における頑健性を測定する。
- 23のVLMに対する実験の結果、現行モデルは安全ハザード評価において性能が低い一方で、TSHAで学習すると最大+18.3ポイントの改善が見られ、他のベンチマークにおける汎化性能も向上する。
関連記事

Black Hat Asia
AI Business

裏カツ170日目!アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター
note

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note