計算的精読のためのハイブリッド型トピックモデリング: プーシキン『エフゲニイ・オネーギン』における物語テーマのマッピング

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、潜在ディリクレ配分法（LDA）とスパース部分最小二乗判別分析（sPLS-DA）を組み合わせたハイブリッド型トピックモデリングの枠組みを提案し、物語詩におけるテーマとその動態をマッピングする。
本手法をプーシキンの『エフゲニイ・オネーギン』に、lemmatized（基本形化済み）イタリア語訳を用いて適用し、35の文書セグメントから5つの安定したトピックを得た。
小規模コーパスの不安定性に対処するため、本研究はマルチシード・コンセンサス・プロトコルを用い、各テーマを洗練させる語彙マーカーを特定する教師ありプローブとしてsPLS-DAを用いる。
ナラティブ・ハブ（連続する詩節のグループ）を導入し、バッグ・オブ・ワードを物語レベルへ拡張することで、詩の感情的・構造的弧に沿った解釈可能なテーママップを生成し、他の密度の高いテキストにも再利用可能な計算的近接読解テンプレートを提供する。

要旨: 本研究は、計算文学分析のためのハイブリッドなトピックモデリング枠組みを提示します。これは潜在ディリクレ配分（LDA）とスパース部分最小二乗判別分析（sPLS-DA）を統合し、叙述詩における主題構造と縦断的ダイナミクスをモデル化します。ケーススタディとして、詩形のエフゲニー・オネーギン—アレクサンドル・セルゲイヴィチ・プーシキンの韻文長編小説をイタリア語訳を用いて分析し、教師なしと教師ありの語彙構造が小規模コーパス設定で収束するかを検証します。詩的テキストは、lemmatised content wordsの基本形化された語彙からなる三十五の文書に分割され、そこから五つの安定して解釈可能なトピックが現れます。小規模コーパスの不安定性に対処するため、マルチシード・コンセンサス・プロトコルを採用します。sPLS-DAを教師付きプローブとして用いることで、各テーマを洗練させる語彙マーカーを特定し、解釈性を高めます。物語のハブ—重要なエピソードを示す連続する詩節のグループ—は、bag-of-wordsアプローチを物語レベルへ拡張し、テーマの混成が詩の感情的・構造的アークとどう一致するかを明らかにします。従来の文学解釈を置換するものではなく、提案された枠組みは計算的な近接読解の形を提供し、軽量な確率モデルが韻律・音韻論・母語形態といった文体的特徴を抽象化しても、複雑な詩的叙事の再現性のあるテーマ地図を生み出せることを示します。単一の基本形に正規化された翻訳に依存しているにもかかわらず、このアプローチは比較研究における他の高密度な文学テキストへ適用可能な透明性のある方法論テンプレートを提供します。