アラビア語における言語から行動へ: データ中心のファインチューニングによる信頼性の高い構造化ツール呼び出し

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、2億7千万パラメータの FunctionGemma バックボーン上に構築された、実運用志向のアラビア語の関数呼び出しフレームワーク AISA-AR-FunctionCall を紹介する。
データセットの体系的な監査、スキーマ修復、ツール対応型プロンプトの再構成、および全パラメータを用いた教師ありファインチューニングを活用して、方言を跨ぐアラビア語の堅牢性を向上させる。
保持外データでのテストでは、ファインチューニングによりパース失敗率が87%から1%未満に低下し、関数名の精度を8倍超向上させ、方言とドメインを横断した引数の整合性を高める。
本研究は、ツール呼び出し前の明示的な中間推論を組み込んだ推論強化型 LoRA の派生型を提示し、シリアライズの安定性と意思決定レベルの推論は分離可能な課題であることを指摘する。すべてのデータセットとモデルは AISA フレームワークの下で公開されている。

要約: 自然言語を実行可能な構造化されたアクションへ翻訳するエージェント型AIシステムにとって、関数呼び出しを行う言語モデルは不可欠ですが、既存のモデルはアラビア語に適用すると深刻な構造的不安定性を示します。

私たちは AISA-AR-FunctionCall を提示します。これは 270M パラメータの FunctionGemma をバックボーンとし、体系的なデータセット監査、スキーマ修復、ツールを意識したプロンプト再構成、そして全パラメータを対象とした教師付きファインチューニングによって訓練された、生産運用を意図したアラビア語の関数呼び出しフレームワークです。

保持したテストセットにおいて、ファインチューニングはパース失敗を87%から1%未満へ、関数名の正確性を8倍超に改善し、方言およびドメインを横断した引数の整列性を大幅に高めます。

誤り分析は、構造的崩壊から意味的ずれへの移行を明らかにし、シリアライズ安定性と意思決定レベルの推論が分離可能な課題であることを示唆しています。

さらに、ツールの呼び出し前に明示的な中間推論を導入する推論強化型 LoRA 変種を検討します。

すべてのデータセットとモデルは AISA フレームワークの下で公開されています。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

提言：CAFという“型”で成功の再現性を高める

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

アラビア語における言語から行動へ: データ中心のファインチューニングによる信頼性の高い構造化ツール呼び出し

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

提言：CAFという“型”で成功の再現性を高める

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

提言：CAFという“型”で成功の再現性を高める

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも