分子構造認識のための DeepSeek-OCR-2 のファインチューニング

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 光学的化学構造認識(OCSR)は、文献中の2D分子図を機械可読な形式に変換する重要な課題だが、Vision-Languageモデルをそのまま適用するのは難しく、フルパラメータの教師あり微調整は不安定になりがちだ。
  • 提案手法では DeepSeek-OCR-2 を分子画像から SMILES を生成する「画像条件付き SMILES 生成」として定式化し、学習の不安定性を抑えるために LoRA から段階的に選択的なフルパラメータ微調整へ移行する2段階の progressive supervised fine-tuning(漸進的教師あり微調整)を採用している。
  • 学習データは PubChem の合成レンダリングと USPTO-MOL の実画像(特許由来)を組み合わせることで、大規模かつ多様な分子表現によるカバレッジと頑健性を高めている。
  • 微調整後のモデル MolSeek-OCR は、厳密一致(exact matching)精度が既存の代表的な image-to-sequence 手法と同等レベルを示す一方、image-to-graph 系の最先端にはまだ及ばない。
  • 強化学習風の後処理やデータキュレーションによる改良も検討したが、SMILES の厳密なシーケンス整合性(sequence-level fidelity)の向上にはつながらなかった。