COMO：最小リスク学習によるリスク最小のクローズドループ型光学分子認識

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

光学化学構造認識（OCSR）は、化学構造の多様性、略記表現、視覚ノイズなどのために実文書での運用が難しい一方で、多くの深層学習手法は教師強制＋トークン単位のMLEに依存しており、露出バイアスが生じます。
本論文では、OCSR向けにMinimum Risk Training（MRT）を提案し、COMO（Closed-loop Optical Molecule recOgnition）というクローズドループ枠組みを示します。反復的にモデルの予測をサンプリングして評価し、分子レベルの非微分目的を直接最適化することで露出バイアスを抑えます。
10のベンチマーク（合成データと特許・科学文献の実画像図を含む）で実験した結果、COMOは既存のルールベースおよび学習ベース手法を大きく上回り、より少ない学習データで性能を得られることが示されています。
アブレーション研究では、MRTがアーキテクチャに依存しないことが確認されており、エンドツーエンドOCSRシステムへの幅広い適用可能性が示唆されています。

要旨: 光学的化学構造認識（OCSR）は、分子画像をSMILES文字列や分子グラフのような機械可読表現へ変換しますが、化学構造の尽きることのない多様性、略記の慣習、視覚的ノイズにより、現実の文書では依然として困難です。既存の深層学習ベースのアプローチの多くは、トークン単位の最大尤度推定（MLE）による教師強制に依存しています。この学習パラダイムは、露出バイアス（exposure bias）を抱えています。すなわち、学習時には正解の接頭辞の下でモデルが訓練される一方、推論時には自身の直前の予測に基づいて条件付けしなければならないためです。さらに、トークン単位のMLE目的は、化学的妥当性や構造的類似性といった分子レベルの評価基準への最適化を妨げます。ここでは、OCSRに対する最小リスク訓練（MRT）を導入し、COMO（Closed-loop Optical Molecule recOgnition）を提案します。COMOは、モデルの予測を反復的にサンプリングして評価することで、分子レベルの非微分可能な目的を直接最適化し、露出バイアスを緩和するクローズドループ（closed-loop）フレームワークです。特許および科学文献に含まれる合成データと実世界の化学図を含む10のベンチマークに対する実験により、COMOが、より少ない学習データで既存のルールベースおよび学習ベースの手法を大きく上回ることが示されます。さらにアブレーション研究により、MRTはアーキテクチャに依存しないことが示されており、エンドツーエンドのOCSRシステムへの幅広い適用の可能性が示唆されます。