概要: ハイブリッド思考型の言語モデルは、明示的なthinkモードとno-thinkモードを公開するが、現行の設計ではそれらをきれいに分離できていない。no-thinkモードであっても、モデルはしばしば長く自己反省的な応答を出力し、その結果、推論の漏洩が生じる。既存の研究は、データのより良いキュレーションや多段階トレーニングによってこの問題を緩和してきたが、漏洩が残るのは、両モードがなお同一のフィードフォワード・パラメータに符号化されているためである。そこで本研究では、Path-Lock Expert(PLE)を提案する。これはアーキテクチャレベルの解決策であり、各デコーダ層における単一のMLPを、think用とno-think用の2つの意味的にロックされたエキスパートに置き換える。これにより、アテンション、埋め込み、正規化、そして言語モデルヘッドは共有したままとする。決定論的な制御トークンのルータが、シーケンス全体に対してちょうど1つのエキスパート経路を選択するため、推論では密なモデルのトークンごとの計算パターンが保持され、教師あり微調整中には各エキスパートがモード純度の高い更新を受け取る。数学および科学の推論ベンチマークにおいて、PLEは強力なthink性能を維持しつつ、より正確で、より簡潔で、推論漏洩に対して大幅に頑健な、実質的に強化されたno-thinkモードを生成する。例えばQwen3-4Bでは、AIME24におけるno-thinkの反省的トークンを2.54から0.39へと低減し、no-think精度を20.67%から40.00%へと改善しながら、thinkモードの性能は保持している。これらの結果は、制御可能なハイブリッド思考が本質的にアーキテクチャ上の問題であり、モード固有のフィードフォワード経路を分離することが単純でありながら効果的な解決策であることを示唆している。
Path-Lock Expert:アーキテクチャレベルでハイブリッド思考の推論モードを分離する
arXiv cs.CL / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ハイブリッド思考の言語モデルにあるthink/no-thinkモードでも、「推論リーク(reasoning leakage)」が残るのは、両モードが同じフィードフォワード(MLP)パラメータに実質的に埋め込まれているためだと指摘されている。
- 提案手法のPath-Lock Expert(PLE)は、各デコーダ層の単一MLPを、think用とno-think用の2つのセマンティックにロックされたエキスパートへ置き換え、注意機構や埋め込み、正規化、LMヘッドは共有したままにする。
- 制御トークンのルータがシーケンス全体でちょうど1つのエキスパート経路を決定するため、推論時に計算パターンが保たれ、教師あり微調整ではモード純度の高い更新が各エキスパートに入る。
- 数学・科学の推論ベンチマークで、PLEはthinkモードの性能を維持しつつ、no-thinkモードの精度と簡潔さを大きく改善し、リークも低減する。
- 例としてQwen3-4BではAIME24におけるno-thinkの反省(反射)トークンが2.54から0.39に減り、no-think精度は20.67%から40.00%へ向上しながら、thinkモード性能の低下は報告されていない。




