LLMORPH:大規模言語モデルのための自動メタモルフィックテスト

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、LLM(大規模言語モデル)の誤った挙動を、人手によるラベル付きオラクルデータを必要とせずに見つけることを目的とした、自動メタモルフィックテストツールであるLLMORPHを提案する。
  • LLMORPHは、メタモルフィック関係(Metamorphic Relations)を用いたメタモルフィックテストを適用し、フォローアップ入力を生成して、入力元と出力挙動の間の不整合を検出する。
  • 著者らはツールの設計・実装を説明し、さまざまなLLM、NLPタスク、ならびにメタモルフィック関係のカスタム集合へ拡張できることを示す。
  • 評価では、LLMORPHは4つのNLPベンチマークに対して36のメタモルフィック関係を使用し、GPT-4、LLAMA3、HERMES 2で561,000回以上のテスト実行を行った。
  • その結果、メタモルフィックテストは、LLM駆動のNLPシステムにおける信頼性の問題を効果的かつ自動的に露出でき、研究者や開発者による頑健性評価の取り組みを支援することが示された。

要旨: 自動テストは、大規模言語モデル(LLM)の信頼性を評価し改善するために不可欠ですが、出力の正しさを検証するための自動オラクルが欠如していることは依然として主要な課題です。私たちは、NLPタスクを実行するLLM向けに特化した自動テストツールであるLLMORPHを提案します。LLMORPHは、メタモルフィック・テスティング(MT)を活用し、人手でラベル付けされたデータに依存せずに誤った振る舞いをあぶり出します。MTはメタモルフィック関係(MR)を用いて、ソースのテスト入力から後続入力を生成し、高価なラベル付きデータを必要とせずにモデル出力の不整合を検出できるようにします。LLMORPHは、LLMベースのNLPシステムの頑健性を評価したい研究者および開発者を対象としています。本論文では、LLMORPHの設計、実装、実践的な利用方法を詳述し、それが任意のLLM、NLPタスク、および一連のMRに容易に拡張できることを示します。評価では、4つのNLPベンチマークにまたがって36個のMRを適用し、最先端のLLMであるGPT-4、LLAMA3、HERMES 2の3つをテストしました。これにより561,000回を超えるテスト実行が行われました。結果は、LLMORPHが不整合を自動的に露出させることに有効であることを示しています。