AI Navigate

アラビア語における言語から行動へ: データ中心のファインチューニングによる信頼性の高い構造化ツール呼び出し

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、2億7千万パラメータの FunctionGemma バックボーン上に構築された、実運用志向のアラビア語の関数呼び出しフレームワーク AISA-AR-FunctionCall を紹介する。
  • データセットの体系的な監査、スキーマ修復、ツール対応型プロンプトの再構成、および全パラメータを用いた教師ありファインチューニングを活用して、方言を跨ぐアラビア語の堅牢性を向上させる。
  • 保持外データでのテストでは、ファインチューニングによりパース失敗率が87%から1%未満に低下し、関数名の精度を8倍超向上させ、方言とドメインを横断した引数の整合性を高める。
  • 本研究は、ツール呼び出し前の明示的な中間推論を組み込んだ推論強化型 LoRA の派生型を提示し、シリアライズの安定性と意思決定レベルの推論は分離可能な課題であることを指摘する。すべてのデータセットとモデルは AISA フレームワークの下で公開されている。

要約: 自然言語を実行可能な構造化されたアクションへ翻訳するエージェント型AIシステムにとって、関数呼び出しを行う言語モデルは不可欠ですが、既存のモデルはアラビア語に適用すると深刻な構造的不安定性を示します。

私たちは AISA-AR-FunctionCall を提示します。これは 270M パラメータの FunctionGemma をバックボーンとし、体系的なデータセット監査、スキーマ修復、ツールを意識したプロンプト再構成、そして全パラメータを対象とした教師付きファインチューニングによって訓練された、生産運用を意図したアラビア語の関数呼び出しフレームワークです。

保持したテストセットにおいて、ファインチューニングはパース失敗を87%から1%未満へ、関数名の正確性を8倍超に改善し、方言およびドメインを横断した引数の整列性を大幅に高めます。

誤り分析は、構造的崩壊から意味的ずれへの移行を明らかにし、シリアライズ安定性と意思決定レベルの推論が分離可能な課題であることを示唆しています。

さらに、ツールの呼び出し前に明示的な中間推論を導入する推論強化型 LoRA 変種を検討します。

すべてのデータセットとモデルは AISA フレームワークの下で公開されています。