極端多ラベルテキスト分類(XMTC)ライブラリデータセット: 「デジタルライブラリにおける実用AIの活用」を本気で捉えたらどうなるか?

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者らは、統合権威ファイル(GND)で注釈付けされたカタログレコードの大規模な英語/ドイツ語バイリンガルコーパスと、機械可読のGNDタクソノミーを公開し、オントロジー対応のマルチラベル分類を可能にします。
  • データセットは、テキストを権威語彙へマッピングし、再現性のある権威ベースの評価を伴うエージェント支援のカタログ作成をサポートします。
  • 3つのシステムの統計的プロファイルと定性的エラー分析を提供し、精度だけでなく有用性と透明性を評価するようコミュニティに呼びかけ、権威ベースのAIコパイロットがカタログ作成者の作業を拡張する方向を促します。
  • このリソースは言語横断的な発見を可能にし、AI支援の権威ベースの編纂を統合することでデジタルライブラリのワークフローを変革する可能性があります。

極端多ラベルテキスト分類(XMTC)ライブラリデータセット: 「デジタルライブラリにおける実用AIの活用」を本気で捉えたらどうなるか? | AI Navigate