基盤モデルの時代における多言語の認知障害検出

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、英語・スロベニア語・韓国語の音声文字起こし(transcript)から、ゼロショットのLLM分類器および教師ありの表形式モデルを用いて認知障害(CI)の分類を評価する。いずれもleave-one-out(1つを除外する)設定で実験を行う。
  • ゼロショットLLMは競争力のある学習なしのベースラインとなるが、教師ありの表形式アプローチは概してそれらを上回る。特に、言語特徴(linguistic features)を設計・組み込み、文字起こし埋め込み(transcript embeddings)と融合した場合に優位となる。
  • 実験では、入力の3つの設定(文字起こしのみ、言語特徴のみ、両者の併用)を比較し、構造化された言語信号を統合することで言語横断で頑健性が向上することを示す。
  • few-shot(少数例)テストでは、限られたラベル付きデータの有用性が言語によって異なることが示される。豊富な特徴表現がない場合でも、ある言語は教師あり学習からより大きな恩恵を受ける一方で、別の言語はそうではない。
  • 著者らは、小規模データにおけるCI検出では、構造化された言語特徴と融合ベースの分類器が、純粋にLLM駆動のアプローチに比べて信頼性が高く強力であると結論づけている。

Abstract

英語、スロベニア語、および韓国語の音声の文字起こし(トランスクリプト)から認知障害(CI)分類を評価します。3つの入力設定――トランスクリプトのみ、言語的特徴のみ、両者を組み合わせた場合――のもとで、直接分類器として用いるゼロショットの大規模言語モデル(LLM)を、リーブワンアウト(leave-one-out)プロトコルで訓練された教師ありの表形式アプローチと比較します。表形式のモデルは、設計された言語的特徴、トランスクリプト埋め込み、および両モダリティの早期または後期融合に基づいて動作します。言語をまたいだ結果、ゼロショットLLMは訓練なしの競争力のあるベースラインを提供しますが、教師ありの表形式モデルは概してより良い性能を示し、特に設計された言語的特徴を含め、埋め込みと組み合わせた場合に顕著です。埋め込みに焦点を当てた少数ショット実験では、限られた教師データの価値が言語に依存することが示されます。追加のラベル付き例によって大きく恩恵を受ける言語がある一方で、より豊かな特徴表現がない場合は制約されたままの言語もあります。全体として、少量データにおけるCI検出では、構造化された言語シグナルと単純な融合ベースの分類器が依然として強力で信頼できるシグナルであることを示唆する結果です。