ドメイン特化型のテキストからコードを生成する言語モデルをカスタマイズするさまざまなアプローチの探索

arXiv cs.AI / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

一般的なPython、Scikit-learnのワークフロー、およびOpenCVのタスクを含む合成データセットを用いて、ドメイン特化型のPythonコード生成のために小規模なオープンソース言語モデルを適応させることを調査する。
少数ショット・プロンプティング（few-shot prompting）、検索付き生成（RAG）、および Low-Rank Adaptation（LoRA）に基づくパラメータ効率的ファインチューニングの3つのカスタマイズ戦略を比較する。
結果は、プロンプティング手法がドメイン関連性をコスト効率よく改善する一方で、ベンチマーク精度の向上には限界があることを示す。一方、LoRAによるファインチューニングは、ほとんどのタスクでより高い精度とより強いドメイン適合を達成する。
本研究は、特定分野のプログラミングタスクへ小規模なLMを適用する際の柔軟性、計算コスト、性能の間のトレードオフを強調している。

要約: 大規模言語モデル（LLMs）は、自然言語の記述から実行可能なコードを生成する能力を示しています。しかし、一般用途のモデルは、ドメイン特有のライブラリ、API、または慣習を使用する必要がある専門的なプログラミング文脈でしばしば苦戦します。小型のオープンソースモデルをカスタマイズすることは、大規模な独自システムに依存するよりも費用対効果の高い代替案を提供します。本研究では、合成データセットを用いて、より小規模な言語モデルをドメイン特有のコード生成に適用する方法を調査します。Pythonエコシステム内の3つの領域にわたるプログラミング演習のデータセットを作成します：一般的なPythonプログラミング、Scikit-learnの機械学習ワークフロー、OpenCVを用いたコンピュータビジョンタスク。これらのデータセットを用いて、3つのカスタマイズ戦略を評価します：少数ショットプロンプティング、リトリーバル増強生成（RAG）、およびLow-Rank Adaptation（LoRA）を用いたパラメータ効率的なファインチューニング。性能は、ベンチマークベースの評価指標と、ドメイン特有のコードとの整合性を測る類似度ベースの指標の両方を用いて評価されます。我々の結果は、少数ショット学習やRAGなどのプロンプトベースのアプローチが、費用対効果の高い方法でドメインの関連性を向上させる可能性があることを示していますが、ベンチマーク精度への影響は限定的です。対照的に、LoRAベースのファインチューニングは、ほとんどのタスクで一貫してより高い精度とより強いドメイン整合性を達成します。これらの知見は、柔軟性、計算コスト、そして性能との間の実用的なトレードオフを、専門的なプログラミングタスクのために小規模な言語モデルを適用する際に強調しています。