要旨: 注釈付きコーパスは自然言語処理(NLP)分野において重要ですが、著作権で保護された素材を含むものは研究者間で交換しにくいという課題があります。それにもかかわらず、そのようなコーパスは、NLPタスクの文脈で現実世界に見られるデータの多様性を完全に表現するために必要です。我々は、著作権で保護された文学テキストの注釈を適法かつ公開に共有する方法を提案することで、この問題に取り組みます。コーパス作成者は注釈を明確に共有し、加えて元の素材の非可逆なハッシュ化版も共有します。コーパス利用者は元の素材を所有しており、共有された注釈に照合するために、自身のトークンに同じハッシュ関数を適用する必要があります。重要な点として、我々の方法は、利用者が所有する著作権データの版に合理的な相違があっても頑健です。例として、異なる版の小説に対してアラインメント実験を行います。結果として、利用者の版がコーパス作成者の版に十分近い場合、小説によって変動しますが、我々の方法は98.7%から99.79%のトークンを正しくアラインメントできることを示します。我々は、本手法のPython実装であるnovelshareを公開します。
非可逆ハッキングによるコーパス配布における著作権障壁の克服
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この論文は、著作権で保護された文学テキストに関するNLP注釈を、基となる著作権コンテンツを配布せずに共有する方法を扱っています。
- 提案手法では、コーパス作成者が注釈を明示的に公開しつつ、ソース文書の非可逆ハッシュを併せて提供し、利用者は自分が合法的に所有するトークンに対して同じハッシュ関数を適用して注釈と照合(アライメント)します。
- この手法は、利用者が所有するデータの版が(合理的な範囲で)多少異なっていても堅牢に動作すると主張しています。
- 小説の異なる版を用いたアライメント実験では、利用者の版が十分に近い場合にトークンの98.7〜99.79%を正しくアライメントできたと報告しています。
- 実装として、提案手法のPythonライブラリ「novelshare」を公開しています。
