基盤モデルの時代における多言語の認知障害検出
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、英語・スロベニア語・韓国語の音声文字起こし(transcript)から、ゼロショットのLLM分類器および教師ありの表形式モデルを用いて認知障害(CI)の分類を評価する。いずれもleave-one-out(1つを除外する)設定で実験を行う。
- ゼロショットLLMは競争力のある学習なしのベースラインとなるが、教師ありの表形式アプローチは概してそれらを上回る。特に、言語特徴(linguistic features)を設計・組み込み、文字起こし埋め込み(transcript embeddings)と融合した場合に優位となる。
- 実験では、入力の3つの設定(文字起こしのみ、言語特徴のみ、両者の併用)を比較し、構造化された言語信号を統合することで言語横断で頑健性が向上することを示す。
- few-shot(少数例)テストでは、限られたラベル付きデータの有用性が言語によって異なることが示される。豊富な特徴表現がない場合でも、ある言語は教師あり学習からより大きな恩恵を受ける一方で、別の言語はそうではない。
- 著者らは、小規模データにおけるCI検出では、構造化された言語特徴と融合ベースの分類器が、純粋にLLM駆動のアプローチに比べて信頼性が高く強力であると結論づけている。



