Fine-tuning DeepSeek-OCR-2 for Molecular Structure Recognition
arXiv cs.CV / 4/7/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- Optical Chemical Structure Recognition (OCSR) は、文献中の2D分子図を機械可読な形式に変換する重要課題だが、Vision-Languageモデルをそのまま適用すると難しく、フルパラメータの教師あり微調整が不安定になりがちだ。
- 提案手法では DeepSeek-OCR-2 を分子画像から SMILES を生成する「画像条件付き SMILES 生成」として定式化し、学習不安定性を抑えるために LoRA から段階的に選択的なフルパラメータ微調整へ移行する2段階の progressive supervised fine-tuning を採用している。
- 学習データは PubChem の合成レンダリングと USPTO-MOL の実画像(特許由来)を組み合わせ、大規模かつ多様な分子表現でカバレッジと頑健性を高めている。
- 微調整後のモデル MolSeek-OCR は、厳密一致(exact matching)精度が既存の代表的 image-to-sequence と同等レベルを示す一方、image-to-graph 系の最先端にはまだ及ばない。
- 強化学習風の後処理やデータキュレーションによる改良も検討したが、SMILES の厳密なシーケンス整合性(sequence-level fidelity)の向上にはつながらなかった。
Related Articles

Black Hat Asia
AI Business

Meta Superintelligence Lab Releases Muse Spark: A Multimodal Reasoning Model With Thought Compression and Parallel Agents
MarkTechPost

Chatbots are great at manipulating people to buy stuff, Princeton boffins find
The Register
I tested and ranked every ai companion app I tried and here's my honest breakdown
Reddit r/artificial

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to