欠損データ補完のための大規模言語モデル:挙動の理解、ハルシネーションの影響、制御メカニズム

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ゼロショットのプロンプトエンジニアリングを用いて5つのLLMを表形式の欠損データ補完に適用し、6つの最先端の従来型補完ベースラインと比較する大規模ベンチマーク調査を提示している。
  • 評価は、欠損メカニズムMCAR、MAR、MNARおよび欠損率最大20%の条件で、29のデータセット(9つの合成セットを含む)にわたって実施されており、先行研究よりも体系的な手法間比較を可能にしている。
  • 結果として、LLM(特にGemini 3.0 FlashおよびClaude 4.5 Sonnet)は、実世界のオープンソースデータセットにおいて通常、従来手法より優れていることが示される。
  • 本研究では、LLMの優位性は、事前学習によってドメイン特有のパターンへの「馴染み」が形成されたことに起因する可能性が高い一方で、MICEのような従来手法は合成データセットではLLMより優れることが分かり、LLMは統計的再構成よりも意味的文脈により依存していることが示唆される。
  • 重要な実務上のトレードオフとして、LLMベースの補完は品質が高い一方で、古典的手法に比べて計算時間と金銭コストが大幅に増大することが特定されている。

要旨: データ補完は、欠損値を扱うための実世界のデータセットにおける中核的な手法であり、多くの場合欠損に悩まされるデータが対象となります。近年の進展にもかかわらず、大規模言語モデル(LLM)に基づく補完に関する先行研究は、スケーラビリティの課題、モデルをまたいだ比較の制約、また小規模あるいは特定の領域に限定されたデータセットでの評価といった点によって限定されています。さらに、異種の実験プロトコルや、欠損メカニズム(MCAR、MAR、MNAR)の扱いの一貫性の欠如は、手法間での体系的なベンチマークを妨げています。本研究では、ゼロショットのプロンプトエンジニアリング手法を用いて、表形式データセットにおける欠損データ補完のための大規模言語モデルの頑健性を検証します。そのために、広く用いられている5つのLLMと、最先端の補完ベースライン6つを比較する包括的なベンチマーク研究を提示します。実験設計では、これらの手法を29のデータセット(9つの合成データセットを含む)について、MCAR、MAR、MNARの各メカニズムのもと、欠損率が最大20\%となる条件で評価します。その結果、主要なLLM、特にGemini 3.0 FlashとClaude 4.5 Sonnetは、従来手法に比べて、実世界のオープンソースデータセットで一貫して優れた性能を達成することが示されました。ただし、この優位性は、インターネット規模のコーパスでの事前学習により獲得した領域特化パターンへのモデルの事前曝露と密接に結びついているように見えます。これに対して合成データセットでは、MICEのような従来手法がLLMを上回り、LLMの有効性は純粋に統計的な再構成というよりは意味的な文脈により駆動されていることを示唆します。さらに、本研究では明確なトレードオフも特定します。すなわち、LLMは補完の質で優れる一方で、計算時間と金銭的コストが大幅に高くなるという点です。総合すると、本研究は大規模な比較分析を提供し、複雑な表形式データに対する有望な意味駆動型の補完器としてLLMを位置づけます。