こんにちは皆さん、
私は、プレイヤーが構造化されたゲーム世界内で生き物に対してコマンドを与え、その生き物がプレイヤーの指示に対して分別のある(自然な)反応をするようなプロジェクトに取り組んでいます。
世界は、距離、方角、オブジェクトの種類、固有IDを含むJSONとして記述されます。
プロンプトの例は以下です:
- 一番近い石を取る
- 北にある木へ行く
- オオカミを攻撃する
- オオカミを避けつつ、どんな石でも取る
そして出力は(文法が強制された)JSONで、アクション(移動、攻撃、待機など)とターゲット、さらにデバッグ用の推論が含まれます。
私はQwen 1.5Bの指示(instruct)モデルと推論(reasoning)モデルを試しましたが、うまくいくのは半分ほどです。およそ80%の確率でアクションも正しく、推論も正しいのですが、それ以外は完全にランダムです。
この種のモデルを扱うときに、いくつか一般的な質問があります:
- JSONの入力と出力は良いアイデアでしょうか、それとも世界の状態をエンコードして、代わりに自然言語で出力したほうがよいですか? たとえば「私は北方向で距離7のstone_01へ移動する」みたいに。
- 距離の数値は良い実践でしょうか。それとも「隣接している」「近い」「近辺」「遠い」といったセマンティックなエンコーディングのほうがよいですか?
- タスクに合う、より良いモデルファミリーはありますか? 可能なら生成時間とサイズの都合で2B未満に留めたいです。
アドバイスがあれば何でもありがとうございます。
[link] [comments]

