概要: 本研究は、sPeriodikaコーパスに含まれるスロベニアの歴史新聞\textit{Slovenec} および \textit{Slovenski narod} について計算論的分析を提示する。具体的には、トピックモデリング、大規模言語モデル(LLM)に基づく側面レベルの感情分析、エンティティ・グラフの可視化、質的ディスコース分析を組み合わせて、20世紀転換期において、集合的アイデンティティ、政治的志向、そして国家への帰属が公共の言説でどのように表象されたかを検討する。BERTopicを用いることで、主要な主題パターンを特定し、両紙のあいだに共有される関心と、明確なイデオロギー上の差異が存在することを示す。そこには、両紙の保守的・カトリック的ならびに自由主義的・進歩主義的という志向が反映されている。さらに、OCRの劣化がある歴史的なスロベニア語における、特定の感情分類を目的とした指示追従型LLMを4つ評価し、大規模な適用に最も適したモデルとして、スロベニア語に適応した GaMS3-12B-Instruct モデルを選定する。同時に、とりわけポジティブまたはネガティブの感情よりも中立感情での性能が強いという重要な制約も記録する。データセット規模で適用すると、このモデルは、集合的アイデンティティの描写に意味のあるばらつきがあることを明らかにする。一部の集団は主として中立的な記述の文脈に現れるのに対し、他の集団はより頻繁に評価的または対立に関連する言説で登場する。次に、集合的アイデンティティと場所との関係を探るためにNERグラフを作成する。名寄せされたエンティティ・グラフを分析するため、定量的ネットワーク分析と批判的ディスコース分析を組み合わせた混合研究法を適用する。調査の焦点は、歴史的な政治的アイデンティティとソシオノミック(社会経済的)アイデンティティが絡み合いながら出現し、発展していく過程にある。総じて、本研究は、ノイズの多い歴史的新聞データに関するデジタル・ヒューマニティーズ研究を支えるために、スケーラブルな計算的方法と批判的解釈を組み合わせることの価値を示している。
LLMを用いた歴史新聞の分析手法
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、sPeriodikaコーパスに含まれるスロベニアの2つの歴史新聞(SlovenecおよびSlovenski narod)に対して、トピックモデリングをLLMによるアスペクト単位の感情分析と結びつけ、さらに質的なディスコース解釈を行う混合手法の計算分析を提示する。
- BERTopicを用いて、本研究は新聞間で共有されるテーマと、明確なイデオロギー上の相違を特定し、保守的・カトリック的な志向とリベラル・プログレッシブ的な志向の違いに対応する形でパターンを整合させる。
- 著者らは、OCR劣化のある歴史的スロベニア語データに対する感情分類について、指示追従型LLMを4種類評価し、大規模利用に最も適しているのはスロベニア語向けに適応したGaMS3-12B-Instructモデルであると結論づけつつ、感情クラス間で性能が均一でない点を指摘する。
- データセット規模では、集合的アイデンティティが描かれ方に差があることを明らかにし(多くは中立的だが、評価的/対立に関する文脈も含む)、さらにNER/エンティティの関係を、ネットワーク分析とクリティカル・ディスコース分析の両方を用いて可視化する。
- 全体として本研究は、ノイズのある歴史的メディアデータに対するデジタル・ヒューマニティーズ研究を強化するには、スケーラブルなLLMベース手法と批判的解釈の枠組みを組み合わせることが有効だと主張する。