データでプログラミング:生コーパスから自己改善するLLMのためのテスト駆動型データエンジニアリング

arXiv cs.AI / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMをドメイン・コーパスで微調整しても、ドメイン課題で失敗した際に原因となるデータの不備を診断するためのフィードバックがない、というAIの重要課題に取り組みます。
  • 「Programming with Data」という提案は、出所コーパスから抽出した構造化知識表現を、学習データと評価の双方の共通基盤として用いることで、データエンジニアリングのライフサイクルをソフトウェア開発ライフサイクルに対応付けます。
  • この枠組みでは、学習データはソースコードのように振る舞い、モデル学習はコンパイルに相当し、ベンチマークはユニットテスト、失敗に基づくデータ修復はデバッグとして位置づけられ、特定の概念ギャップや推論チェーンの断絶をデータの欠陥に紐づけて修正します。
  • 著者らは、修復サイクルを反復することで、モデルの規模やアーキテクチャが異なっても一貫した改善が得られつつ、汎用能力が低下しないと報告しています。
  • さらに本手法を16分野(自然科学、工学、バイオメディカル、社会科学)で示し、構造化知識ベース、ベンチマーク一式、学習用コーパスなどのオープンなリソースも公開します。

要旨: 文書から大規模言語モデルへ専門的な人間の知識を確実に移植することは、人工知能における根本的な課題であり続けています。ドメインコーパスでのファインチューニングにより大幅な能力向上が可能になりましたが、この手続きはフィードバックなしで動作します。つまり、モデルがドメイン課題で失敗した場合、学習データのどこが不足しているのかを診断する方法がなく、唯一の対処は無差別に追加データを加えることです。ここでは、ソースコーパスから抽出された構造化知識表現が、学習データと評価の双方の共通基盤として機能する場合、データエンジニアリングの完全なライフサイクルが、ソフトウェア開発ライフサイクルに対して正確かつ実行可能な形で対応づけられることを示します。具体的には、学習データはモデルが学ぶべき内容を指定するソースコードになり、モデル学習はコンパイルに相当し、ベンチマークはユニットテストになり、失敗に基づくデータ修復はデバッグになります。この対応関係のもとで、モデルの失敗は概念レベルの不足と推論連鎖の断絶に分解され、それらはデータの特定の欠陥に遡って追跡でき、狙いを定めたパッチによって修復可能です。さらに、各修復サイクルは、一般能力を低下させることなく、モデル規模やアーキテクチャのあらゆる範囲で一貫した改善を生み出します。私たちはこの原理を「Programming with Data(データによるプログラミング)」として形式化し、自然科学、工学、バイオメディシン、社会科学にまたがる16の分野で具体化します。構造化知識ベース、ベンチマークスイート、学習コーパスをオープンリソースとして公開します。学習データとモデルの振る舞いの関係が構造的に追跡可能であり、体系的に修復可能であることを示すことで、本研究は、人間の専門知識を言語モデルへ信頼性高く実装するための原理に基づく基盤を確立します。