字形駆動による微調整で、古代中国文字の進化分析のためのマルチモーダル大規模言語モデルを強化する

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、古代中国文字の進化分析のための新しいマルチモーダルLLMベンチマークを導入し、11のタスクと130,000件以上のインスタンスを通じてモデルの能力を体系的に評価する。
主要な複数のMLLMに対する評価の結果、現行システムは字形レベルの比較能力が限定的であり、文字認識や進化的推論といった重要タスクでの性能が制約されていることが示される。
これらのギャップに対処するため、著者らは、テキストの進化に関連する一貫した字形変換を学習するようモデルを誘導する字形駆動の微調整フレームワーク（GEVO）を提案する。
結果として、GEVOはベンチマークの全タスクにおいて性能向上をもたらし、比較的小規模な約2Bパラメータのモデルでも改善が得られることが示される。
著者らは、追試や追随研究を可能にするため、ベンチマークと学習済みモデルを公開する（GitHubリポジトリを提供）。

Abstract

近年、マルチモーダル大規模言語モデル（MLLMs）の急速な進歩が、古代中国文字に関する研究をますます活発に刺激している。文字の進化は、文化の変容と歴史的な連続性を理解するための基礎となる道筋を成すため、MLLMsを体系的に活用して文字進化の分析を支援し、さらに発展させるにはどのようにすればよいのか、という問題は未解決であり、かつ十分に探索されていない。これを埋めるために、古代中国文字の進化を分析する能力に関してMLLMsを評価することを目的として、11のタスクと130,000件超のインスタンスからなる包括的なベンチマークを構築する。我々は、複数の広く利用されているMLLMsに対して大規模な評価を行い、既存モデルが字形レベルの比較において限定的な能力しか示さない一方で、文字認識や進化的推論のような中核タスクにおける性能は、なお大きく制約されていることを観察する。これらの知見に動機づけられ、字形駆動の微調整フレームワーク（GEVO）を提案する。これは、字形変換における進化の一貫性をモデルが明示的に捉えることを促し、テキストの進化に対する理解を高めるものである。実験結果では、2Bスケールのモデルでさえ、評価したすべてのタスクにわたり、安定した包括的な性能向上が達成されることを示す。将来の研究を促進するために、我々はベンチマークと訓練済みモデルの両方を公開する\footnote{https://github.com/songruiecho/GEVO}。