視覚的特性による実世界画像アノテーションのクラウドソーシング

arXiv cs.CV / 2026/4/17

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本論文は、オブジェクト認識データセットにおける「セマンティックギャップ」を扱い、視覚データから言語記述への対応が複雑になり得て、それがコンピュータビジョンの性能にバイアスを生むことを示している。
知識表現、自然言語処理、コンピュータビジョンを統合し、視覚的特性の制約を用いることでアノテータの主観性を減らす画像アノテーション手法を提案している。
事前に定義されたオブジェクトカテゴリ階層と、アノテータからのリアルタイムフィードバックに基づいて、動的に質問を生成するインタラクティブなクラウドソーシングの枠組みを提示している。
実験により提案手法の有効性が示され、さらにクラウドソーシング設定の最適化に向けてアノテータのフィードバックが議論されている。

要旨: 近年のデータ中心型人工知能における進展は、物体認識データセットに内在する限界を浮き彫りにしています。主要な課題の1つは、セマンティックギャップ問題に起因しており、視覚データと記述的言語との間に複雑な多対多の対応が生じます。このバイアスは、コンピュータビジョンタスクの性能に悪影響を及ぼします。本論文では、知識表現、自然言語処理、コンピュータビジョン技術を統合した画像アノテーション手法を提案し、視覚的な属性制約を適用することでアノテータの主観性を低減することを目指します。あらかじめ定義された物体カテゴリの階層と、アノテータからのフィードバックに基づいて、インタラクティブなクラウドソーシングの枠組みが動的に質問を行います。この仕組みにより、視覚的属性によって画像アノテーションを導きます。実験により、この手法の有効性が示され、さらにクラウドソーシングの設定を最適化するためのアノテータのフィードバックについて議論します。