APPSI-139:英語のアプリケーション向けプライバシーポリシーの要約と解釈のための並列コーパス
arXiv cs.CL / 2026/5/1
📰 ニュースModels & Research
要点
- この論文では、要約・解釈タスクのために法的な明確さと読みやすさを高めることを目的として、ドメイン専門家により注釈された新しい高品質英語並列コーパス「APPSI-139」を提案しています。
- APPSI-139には、英語のプライバシーポリシー139本に加え、15,692件の書き換え並列例、さらに11のデータ実践カテゴリにまたがる細粒度ラベル36,351件が含まれます。
- また、交互学習と複数の専門モジュールを連携させることで、計算効率と精度のバランスを取るハイブリッドな要約・解釈フレームワーク「TCSI-pp-V2」も提案しています。
- 実験の結果、APPSI-139上で学習しTCSI-pp-V2で構築したハイブリッド手法が、GPT-4oやLLaMA-3-70Bのような大規模言語モデルよりも、読みやすさと信頼性の面で優れていることが示されました。
- データセットとソースコードはGitHubで公開されており、プライバシーポリシー理解に関するさらなる研究やベンチマークが可能になります。




