Abstract
衝突クレーターは、惑星表面の解析における基盤的存在です。しかし、多くの深層学習パイプラインではクレーターを単なる検出問題として扱う一方で、カタログの重複排除、観測間の対応付け、形態学的類似の発見といった重要な科学的ワークフローは、本質的に「検索(リトリーバル)」タスクです。これに対処するため、我々はクレーター解析をインスタンスレベルの画像検索問題として定式化し、約25,000件のクレーター同一性(identity)を収録した、マルチスケールのギャラリ表示と、多様なスケールや状況にまたがる手動で検証されたクエリを備えたキュレーション済みベンチマーク CraterBench-R を導入します。さまざまなアーキテクチャに対する基準評価により、自己教師ありのビジョントランスフォーマ(ViT)、特にドメイン内事前学習を施したものが、このタスクで支配的であり、パラメータ数が大幅に多い汎用モデルを上回ることを明らかにします。さらに、後期インタラクションのマッチングに複数のViTパッチトークンを保持することで、標準的な単一ベクトルのプーリングに比べて精度が大幅に向上することを示します。ただし、画像ごとに全トークンを保存することは、惑星規模では運用上非効率です。そこでこの効率ギャップを埋めるために、スケーラブルかつ学習不要の手法である instance-token aggregation(インスタンストークン集約)を提案します。この手法は、K個のシードトークンを選択し、残りのトークンをコサイン類似度によりこれらのシードへ割り当て、各クラスタを1つの代表トークンに集約します。このアプローチにより顕著な改善が得られます。K=16では、集約により生のトークン選択に比べてmAPが17.9ポイント向上し、K=64では、196トークンすべてを用いる場合と同等の精度を、大幅に少ない保存量で達成します。最後に、単一ベクトルによるショートリスティングの後に、インスタンストークンによる再ランキングを行う実用的な2段階パイプラインにより、探索する候補集合を小さく抑えながら、全late-interaction精度の89〜94%を回復できることを示します。このベンチマークは hf.co/datasets/jfang/CraterBench-R で公開されています。