要旨: ARC-AGI-2は、人間の直観に基づく視覚パズルのベンチマークであり、限られた例からの汎化能力、記号的な意味の解釈能力、そして文脈が変わってもルールを柔軟に適用する能力を測定します。本論文では、TinyLMを用いてARC-AGI-2のパズルを解くための我々のアプローチを議論します。さらに、Test-Time-Training(TTT)およびProducts of Experts(POE)を含む、テスト時の追加微調整を行います。我々のモデルは、学習セットで96.1%の精度、評価セットで21.7%の精度を達成しています。
ARC-AGI-2チャレンジにおけるマルチパースペクティブ・トランスフォーマー
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、少数例からの一般化やルールの柔軟な適用を重視する視覚推論ベンチマークARC-AGI-2の解法アプローチを提示している。
- TinyLMを用い、Test-Time-Training(TTT)とProducts of Experts(POE)といったテスト時微調整手法を追加してパズル解決性能の向上を狙っている。
- 報告されている結果では、学習セットで96.1%の精度を達成する一方、評価セットでは21.7%と大きく低下しており、汎化に残る課題が示唆される。
- 人間に直感的な視覚推論へ向けた道筋として、マルチパースペクティブなトランスフォーマーベースのモデリング戦略を強調している。
- このベンチマークと手法は、解釈可能でルールに基づく視覚タスクを通じてAGIライクな能力の進展を測る一歩として位置付けられている。




