Multilingual KokoroChat: 多言語カウンセリング対話データセット作成のためのマルチLLMアンサンブル翻訳手法
arXiv cs.CL / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Multilingual KokoroChatは、大規模な手作業で作成された日本語のカウンセリング対話コーパス(KokoroChat)を英語および中国語に翻訳し、高品質な公開カウンセリングデータの入手可能性が限られていることへの対処を目的とした新しいデータセットである。
- 翻訳品質は入力に依存し、単一のLLMが一貫して常に最良になるとは限らないため、著者らは機微な領域における高忠実度の出力に合わせて調整されたマルチLLMアンサンブル翻訳パイプラインを提案する。
- この手法は複数の異なるLLMを用いて多様な翻訳仮説を生成し、その後、別のLLMが仮説間の長所と短所を分析することで、最終的な翻訳を選択し精緻化する。
- 人手による嗜好評価実験により、アンサンブル手法による翻訳は、いかなる単体の最先端LLMが生成した翻訳よりも好まれることが検証されており、忠実度の向上が示されている。
- このデータセットはGitHub上で公開されており、研究者がより高品質な学習素材を用いて多言語カウンセリング対話システムを構築・評価できるようになっている。

