AbjadMed における GATech: 双方向エンコーダ対因果デコーダ—82クラスのアラビア語医療分類からの洞察

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、調整済み AraBERTv2 エンコーダを組み込み、ハイブリッドプーリング戦略とマルチサンプルドロップアウトによる頑健な正則化を用いた、82カテゴリにわたるアラビア語医療テキスト分類のシステムを概説している。
この双方向エンコーダ設定を、多言語・アラビア語特化のエンコーダ、および大規模な因果デコーダと比較してベンチマークしており、Llama 3.3 70B のゼロショットリランキングや Qwen 3B の隠れ状態特徴を含む。
結果は、専門化された双方向エンコーダが、より広範な意味論的文脈を捉えることで、細粒度の分類において因果デコーダよりも性能を発揮することを示している。
また、次のトークン予測に最適化された因果デコーダは、シーケンスバイアスを持つ埋め込みを生成し、データの不均衡とラベルノイズを考慮するとなおさらであることを指摘している。
テストセットの最終結果は、Accuracy や Macro-F1 などの指標を報告しており、特化したアラビア語NLPタスクにおける微調整済みエンコーダの優位性を強調している。

要旨：本論文は、82の異なるカテゴリにわたるアラビア語医療テキスト分類のシステム記述を提示します。主なアーキテクチャは、ハイブリッドプーリング戦略を組み合わせた調整済み AraBERTv2 エンコーダと、頑健な正則化のためのマルチサンプルドロップアウトを活用します。私たちは、このアプローチを、多言語・アラビア語特化のエンコーダ群、およびいくつかの大規模な因果デコーダと系統的にベンチマークしました。これには Llama 3.3 70B のゼロショットリランキングや Qwen 3B の隠れ状態からの特徴抽出が含まれます。私たちの発見は、専門化された双方向エンコーダが、細粒度の医療テキスト分類に必要な厳密な意味境界を捉える点で、因果デコーダを大幅に上回ることを示しています。因果デコーダは、次のトークン予測に最適化されているため、シーケンスバイアスを持つ埋め込みを生成し、双方向のアテンションが捉えるグローバルな文脈と比較して、分類には効果が低いことを示しています。トレーニングデータには顕著なクラス不均衡とラベルノイズが認められるにもかかわらず、微調整済みエンコーダの専門的なアラビア語NLPタスクにおける意味情報の圧縮の優位性を強調しています。テストセットの最終パフォーマンス指標には、Accuracy と Macro-F1 が含まれ、報告・検討されています。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

AbjadMed における GATech: 双方向エンコーダ対因果デコーダ—82クラスのアラビア語医療分類からの洞察

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？