幼児教育における日常活動画像のキャプション付け:ベンチマークとアルゴリズム
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は幼児教育(ECE)の画像キャプション付けにおける限界に取り組み、ドメイン固有のデータセットの不足や、汎用的な記述につながる学習方法、難しいサンプルでの最適化が不安定になる問題に焦点を当てる。
- 256,121枚の実世界のECE日常活動画像、専門家レベルのキャプション、きめ細かなラベルからなる大規模ベンチマークECACを導入し、職業的な物体の命名精度を評価するためのドメイン特化の評価プロトコル(Teaching Toy Recognition Score, TTS)も併せて示す。
- きめ細かな認識を改善するために、「アドバンテージ・コラプス(advantage collapse)」を抑えつつ最適化を安定化させることを目的として、強化学習と教師あり微調整を状況に応じて条件付きで切り替えるハイブリッド学習フレームワークRSRSを提案する。
- ECACとRSRSを用いて、著者らはドメイン適応されたマルチモーダルLLMであるKinderMM-Cap-3Bを開発し、TTSが51.06であること、ならびに先行ベースラインに比べてキャプション品質が向上したことを報告し、専門的な教育用途に有用である可能性を示唆する。




