言語プロンプトを書くべきか、それとも自動化すべきか——それが問題だ

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、翻訳、用語の挿入、言語品質評価（LQA）において、手作業で作った専門家によるゼロショット・プロンプトと、DSPyのシグネチャを用いた自動プロンプト最適化（GEPAで最適化した変種を含む）を、初めて体系的に比較する。
結果はタスク依存性が非常に高い。用語の挿入では、最適化プロンプトと手動プロンプトの間で、品質に関する統計的に有意な差がほとんど見られない一方、翻訳とLQAでは、モデル構成によって勝者が異なる。
翻訳では、プロンプトの異なるアプローチが異なるモデルで優位になることが示され、すべての言語タスクに通用する普遍的なプロンプト戦略は存在しないことを示唆する。
LQAでは、専門家プロンプトは誤り検出でより強い性能を示しがちであるが、GEPA最適化はモデルの特性づけを改善する。これは、手動の専門知と自動探索の間に異なる強みがあることを示している。
全体として、GEPAは最小限のDSPyシグネチャを引き上げることができ、多くの専門家最適化同士の比較では統計的に有意な差は見られない。また、本研究は不対称な設定も明らかにしており、GEPAはゴールド分割に対するプログラム的な探索に依存するのに対し、専門家プロンプトはラベル付きデータなしで、反復的な洗練によって実行できる。

要旨: LLMの性能はプロンプト設計に非常に敏感であるが、言語タスクにおいて自動プロンプト最適化が専門家によるプロンプトエンジニアリングを置き換えられるかどうかは未解明である。私たちは、翻訳、専門用語の挿入、言語品質評価にまたがり、手作りのゼロショット専門家プロンプト、ベースとなるDSPyシグネチャ、GEPAで最適化されたDSPyシグネチャの最初の体系的な比較を提示する。5つのモデル構成を評価した。結果はタスク依存である。専門用語の挿入では、最適化プロンプトと手動プロンプトは、品質がほとんど統計的に区別できない。翻訳では、各手法は異なるモデルにおいて勝者となる。LQAでは、専門家プロンプトはより強力な誤り検出を達成し、最適化はキャラクタリゼーションを改善する。すべてのタスクを通して、GEPAは最小限のDSPyシグネチャを押し上げ、専門家が最適化した比較の大半では統計的に有意な差は見られない。なお、この比較は非対称である点に注目する。GEPAの最適化は、正解となる標準分割をプログラム的に探索するのに対し、専門家プロンプトは原理的にはラベル付きデータを必要とせず、代わりにドメイン知識と反復的な洗練に依存する。