フィンランドの組織病理レポートに対するFinBERTのドメイン微調整：学習時シグナルと下流相関

arXiv cs.CL / 2026/4/17

💬 オピニオンModels & Research

共有:

要点

本論文は、ラベル付きデータが少ないNLP分類設定に対応するため、フィンランド語の医療テキストを用いてフィンランドBERTをドメイン微調整することを検討しています。
フィンランドの組織病理（ヒストパソロジー）レポートで微調整を行い、そのドメイン適応が下流性能に与える影響について観察・評価を報告します。
埋め込み空間の幾何（ジオメトリ）がドメイン微調整中にどのように変化するかを分析し、ドメイン特化の事前学習の効果を予測する試みも行っています。
医療AIでは、新しいデータセット、特にラベル付きデータの獲得に長い遅延が生じうるという状況が動機として示されています。
全体として、医療NLPにおける実務的なドメイン適応と、ドメイン事前学習による改善を見通すためのより分析的な手法を結び付けています。

要旨: ラベル付きデータがほとんど存在しないNLP分類タスクにおいて、未ラベルデータ上でトランスフォーマーモデルをドメイン微調整することは、確立されたアプローチである。本論文では、我々の目的は2つある。
(1) フィンランド語BERTモデルをフィンランド語の医療テキストデータ上で微調整した際の、観察結果を述べる。
(2) ドメイン微調整によって生じる埋め込みの変化の幾何学（ジオメトリ）を観測することで、フィンランド語BERTに対するドメイン固有の事前学習の有益性を予測しようとする試みについて報告する。
我々の原動力となっているのは、医療AIにおいてしばしば見られる共通の状況、すなわち、特にラベルに関してデータセットを獲得するまでに長い遅延が発生しうる、という点である。