ORPHEAS:検索拡張生成(RAG)向けのギリシャ語-英語クロスリンガル埋め込みモデル
arXiv cs.CL / 2026/4/23
📰 ニュースModels & Research
要点
- ORPHEASは、ギリシャ語と英語のバイリンガル環境における検索拡張生成(RAG)を改善するために設計された、専門特化型のギリシャ語-英語埋め込みモデルです。
- 既存の多言語埋め込みが抱える課題として、複数言語に表現能力を分散してしまう点を踏まえ、ギリシャ語特有の形態論と領域別の語彙構造を重視して学習することで限界を解消します。
- ORPHEASは、知識グラフベースのファインチューニング手法で生成した高品質データセットを用い、多分野のコーパスに対して学習されています。
- 単言語およびクロスリンガルの検索ベンチマークで、ORPHEASは既存の最先端多言語埋め込みモデルを上回り、かつクロスリンガル検索性能を損なわないことが示されています。
- これらの結果は、多形態的に複雑な言語に対する領域特化のファインチューニングが、RAGでのバイリンガル意味整合を高め得ることを示唆しています。




