CBRS:二言語データセットとデュアルレイヤー・フィルタリングによるマルチプラットフォームSNS向け「認知的血液要請システム」

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 大量のSNSコミュニケーションの中から緊急の献血(血液提供)要請投稿やメッセージを自動的に抽出・解析し、見逃しと対応遅延を減らすためのマルチプラットフォーム・システム「CBRS」を提案しています。
  • ベンガル語・英語に加え、ベンガル語のトランスリテレーション(表記転写)を含む1万1,000件規模のデータセットを新たに構築し、実際のソーシャル投稿に近い言語多様性を反映しています。
  • CBRSはコスト効率の良いデュアルレイヤー構成によりフィルタリングを行い、さらにアドバーサリアルなネガティブ例を用いることで検出の頑健性を高めています。
  • フィルタリングでは99%の精度・適合率(precision)を達成し、解析タスクではLoRAで微調整したLlama-3.2-3Bがゼロショットで92%の精度を報告しており、ベースモデルより41.54%向上し、GPT-4o-miniやGemini-2.0-Flash等の少数ショット性能も上回るとしています。
  • コード、データセット、学習済みモデルを公開しており、時間に制約のある対象(要望)特定タスクにおける、スケーラブルかつ包摂的な情報抽出の基盤を提供します。

Abstract

血液提供を求める投稿やメッセージが、ソーシャルメディア上で見落とされがちなのは、日々の膨大なコミュニケーション量に圧倒されるためです。手作業による入力に依存する従来のアプリベースの仕組みでは、資源の乏しい環境にいる利用者へ確実に届けることが難しく、重要な対応の遅れにつながります。そこで本研究では、ソーシャルメディアのストリームから血液提供要請を効率的にフィルタリングおよび解析する、費用対効果の高い二層アーキテクチャを備えたマルチプラットフォームの枠組み「Cognitive Blood Request System (CBRS)」を提案します。そのために、ベンガル語、英語、さらに転写(transliteration)されたベンガル語で、解析済みの血液提供要請メッセージ11K件からなる新しいデータセットを構築し、実際のソーシャルメディア通信に見られる言語的多様性を捉えます。敵対的なネガティブ(adversarial negatives)の導入により、モデルの頑健性もさらに向上します。CBRSは、フィルタリングにおいて印象的な99%の精度と適合率を達成し、ベンチマーク手法を上回ります。解析タスクでは、LoRAで微調整したLlama-3.2-3Bモデルが、ゼロショット精度92%を達成し、基盤モデルを41.54%上回ります。また、GPT-4o-mini、Gemini-2.0-Flash、その他のLLMのfew-shot性能を上回りつつ、入力トークン使用量を35倍削減します。本研究は、時間に敏感で対象物に焦点を当てたタスクにおける、スケーラブルで包摂的な情報抽出のための堅牢な基盤を築きます。コード、データセット、学習済みモデルは [https://github.com/aaniksahaa/CBRS](https://github.com/aaniksahaa/CBRS) で公開されています。