AIモデルに「あなたは専門のプログラマーです」と伝えると、かえって下手になる
研究者らは、ペルソナベースのプロンプトが安全性には役立つが、事実の正確さには役立たないと述べる
多くの人はAIで作業を始める際、やってほしいタスクにおいて自分が専門家であると機械に想像させるようにプロンプトを書きますが、その手法は無駄だかもしれない、と研究者たちが見つけたようです。
ペルソナベースのプロンプト――つまり、モデルへのプロンプトに「あなたは専門の機械学習プログラマーです」といった指示を入れる――は2023年にまでさかのぼります。当時、研究者たちは、ロールプレイ(役割演技)の指示がAIモデルの出力にどう影響するかを調べ始めました。
いまではオンラインのプロンプトガイドで、「あなたは、スクラッチから完成形のプロダクション対応フルスタックWebアプリケーションを一から構築する任務を負った専門のフルスタック開発者です」といった文を見かけることが一般的です。
しかし、このアプローチを研究してきた学術側の報告では、いつも優れた結果を生むわけではないようです。
南カリフォルニア大学(USC)に所属する研究者らは、プレプリント論文「Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM(専門家ペルソナはLLMの整合性を改善するが正確さを損なう:PRISMによる意図ベースのペルソナルーティングをブートストラップする)」の中で、ペルソナベースのプロンプトはタスク依存であり――そしてそれが「結果がまちまち」になる理由だと――述べています。
文章作成、ロールプレイ、安全性といった整合性(alignment)に依存するタスクでは、ペルソナはモデルの性能を向上させます。一方、数学やコーディングのように事前学習(pretraining)への依存が強いタスクでは、この手法はより悪い結果を生みます。
原因として考えられるのは、モデルに「あなたはその分野の専門家だ」と伝えても、実際には専門性が付与されないという点です。つまり、トレーニングデータに新しい事実は追加されません。
むしろ、特定分野の専門家だとモデルに告げることは、事前学習データから事実を引き出す能力を妨げることにつながるようです。
- Snowflakeの継続的な提案:データをAIに持っていくのではなく、AIをデータへ
- 超高速なエクスプロイトがあるからこそ、素早くパッチを当てて、質問は後回し
- RSAパネルが語る:政府の登壇者がいない状況でも、チャイナのタイフーン対策には官民連携が重要
- 上司が好きなら、上司のAIツインにどれだけ惚れるか想像してみてください
研究者らは、LLMの性能を評価する手段である計測型マルチタスク言語理解(MMLU)ベンチマークを使って、ペルソナベースのプロンプトを検証し、「LLMに複数の選択肢のうちどれを選ぶべきかを判断させると、専門家ペルソナは4つの科目カテゴリすべてにおいて一貫してベースモデルを下回った(総合精度:68.0% vs. 71.6%、ベースモデル)。考えられる説明として、ペルソナ接頭辞が(そうであれば事実の想起に割かれるはずの)モデルの命令追従モードを有効化してしまう、という点が挙げられる」としています。
ただし、ペルソナベースのガイダンスは、整合性を評価するLLMベースのジャッジが求める内容に、モデルをうまく誘導するのに役立つこともあるようです。著者らは例として、「専任の『安全性モニター』ペルソナは、3つすべての安全性ベンチマークで攻撃拒否率を押し上げ、最も大きな伸びはJailbreakBench(53.2%から70.9%へ、+17.7ポイント)で見られる」と述べています。
USCの博士課程学生で、本研究の共著者の一人であるZizhao Huは、電子メールでThe Registerに対し、研究結果に基づけば、AIに専門のプログラマーというペルソナを採用させても、コードの品質や有用性には役立たないだろう、と語りました。
しかし、先ほどリンクしたプロンプトのガイダンスについて言及しつつ、Huは「UIの好み、プロジェクトのアーキテクチャ、ツールの好みといった他の多くの要素は、整合性の方向性により近く、詳細なペルソナによって恩恵を受けます」と話しました。
「提示された例では、『あなたは専門のフルスタック開発者です』のような一般的な専門家ペルソナは必須ではないと考えています。一方で、粒度の高いパーソナライズされたプロジェクト要件なら、ユーザーの要求を満たすコードをモデルが生成するのに役立つ可能性があります」
専門性に関するプロンプトが効果を持つことを踏まえ、研究者――Huと共同研究者のMohammad Rostami、Jesse Thomason――は、害を避けつつ専門家ペルソナの利点を活用しようとする手法としてPRISM(Persona Routing via Intent-based Self-Modeling:意図ベースの自己モデル化によるペルソナルーティング)を提案しました。
「私たちはゲート付きのLoRA[低ランク適応]のメカニズムを使います。ここでは、ベースモデルはそのまま保持し、事前学習済みの知識に依存する生成ではベースモデルだけを使うんです」と彼は説明し、「この意思決定プロセスはゲートによって学習されます」と付け加えました。
ペルソナベースの振る舞いが出力を改善するときにLoRAアダプタが有効化され、それ以外の場合は修正されていないモデルへフォールバックします。
研究者らは、ほかのアプローチのトレードオフを避えるようにPRISMを設計しました――例えば、推論時に専門家ペルソナを適用するプロンプトベースのルーティングや、教師ありファインチュン
ing, which bakes behavior into model weights.効果的なプロンプト手法について一般化できる方法があるのかと問われると、Hu氏は次のように答えた。「一般的なプロンプトについて“確実に”こうだとは言えません。ただし、エキスパートのペルソナ(人物像)を前面に出すプロンプトに関する発見から言える可能性のポイントとしては、『アライメント(整合性:安全性、ルールの遵守、構造に従うことなど)をより重視する場合は、自分が求める要件を具体的に書いてください。逆に、正確性や事実をより重視するのであれば、何も足さず、ただクエリを送ればいい』ということです。」 ®
より絞り込む
- アクセシビリティ
- AdBlock Plus
- AIOps
- アプリ
- アプリケーションデリバリーコントローラ
- Audacity
- Confluence
- データベース
- DeepSeek
- DevOps
- FOSDEM
- FOSS
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grab
- Graphics Interchange Format
- IDE
- 画像圧縮
- Jenkins
- 大規模言語モデル
- レガシーテクノロジー
- LibreOffice
- マシンラーニング
- マップ
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイルデバイス管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- レトリーバル拡張生成
- レトロ・コンピューティング
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアバグ
- ソフトウェアライセンス
- スター・ウォーズ
- /li>
- Tensor Processing Unit
- テキストエディター
- TOPS
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- WebAssembly
- Webブラウザー
- WordPress
より幅広いトピック
このテーマについて詳しく
関連するより絞り込まれたトピック
- アクセシビリティ
- AdBlock Plus
- AIOps
- アプリ
- アプリケーションデリバリーコントローラー
- Audacity
- Confluence
- データベース
- DeepSeek
- DevOps
- FOSDEM
- FOSS
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grab
- Graphics Interchange Format
- IDE
- 画像圧縮
- Jenkins
- 大規模言語モデル
- レガシーテクノロジー
- LibreOffice
- 機械学習
- 地図
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイルデバイス管理
- ニューラルネットワーク
- NLP
- OpenOffice name"> OpenOffice
- プログラミング言語
- QRコード
- リトリーバル拡張生成
- レトロコンピューティング
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアのバグ
- ソフトウェアライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディター
- TOPS
- ユーザーインターフェイス
- Visual Studio
- Visual Studio Code
- WebAssembly
- Webブラウザー
- WordPress
