マルチインスタンス処理におけるLLM性能劣化の理解:インスタンス数とコンテキスト長の役割
arXiv cs.AI / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、大規模言語モデルが多くの関連入力を扱い、その後に集約結果を生成する必要があるマルチインスタンス処理(MIP)タスクにおいて、どのように性能が評価されるかを検討する。
- 実験の結果、再現性のある失敗モードが示される。すなわち、インスタンス数が小さい場合(約20〜100)には性能がわずかに低下するが、インスタンス数が増加すると急激に崩壊する。
- コンテキスト長も劣化と相関するものの、分析では、最終的な性能結果に対してはインスタンス数の影響の方がより強いことが分かっている。
- 著者らは、観測された高インスタンス数での崩壊を回避するために、MIPの最適化ではインスタンス数の制御に重点を置き(次いでコンテキスト長)を重視すべきだと結論づけている。
広告
