マルチインスタンス処理におけるLLM性能劣化の理解:インスタンス数とコンテキスト長の役割

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、大規模言語モデルが多くの関連入力を扱い、その後に集約結果を生成する必要があるマルチインスタンス処理(MIP)タスクにおいて、どのように性能が評価されるかを検討する。
  • 実験の結果、再現性のある失敗モードが示される。すなわち、インスタンス数が小さい場合(約20〜100)には性能がわずかに低下するが、インスタンス数が増加すると急激に崩壊する。
  • コンテキスト長も劣化と相関するものの、分析では、最終的な性能結果に対してはインスタンス数の影響の方がより強いことが分かっている。
  • 著者らは、観測された高インスタンス数での崩壊を回避するために、MIPの最適化ではインスタンス数の制御に重点を置き(次いでコンテキスト長)を重視すべきだと結論づけている。

Abstract

ユーザーは、複数のドキュメントを処理したり、複数のインスタンスにわたって分析を行ったりするために、大規模言語モデル(LLM)に頼ることが多い。例えば、多数の映画レビューの全体的なセンチメントを分析するには、最終的な集計結果を提示するために、各レビューのセンチメントを個別に処理するようLLMに求める必要がある。このような個別タスクにおけるLLMの性能は一般に高いものの、多インスタンス入力を扱うときにLLMがどのように振る舞うかについては、ほとんど研究が行われていない。本論文では、LLMが個々のタスクでは得意とするものに対して、多インスタンス処理(MIP)能力を包括的に評価する。結果は、すべてのLLMが、少数のインスタンス(およそ20〜100)においてわずかな性能低下のパターンに従い、その後、より多いインスタンス数では性能が崩壊することを示している。重要なのは、我々の分析により、この低下にはコンテキスト長が関連している一方で、最終結果に対してより強い影響を与えるのはインスタンス数であることが明らかになった点である。この発見は、MIPに対するLLM性能の最適化を行う際には、コンテキスト長だけでなく、特にインスタンス数にも注意を払うべきだことを示唆している。
広告