プロジェクト内の全コードをTree-sitterで構造化 → RLMによるQAを試してみた

Zenn / 4/5/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

共有:

Key Points

Tree-sitterを使ってプロジェクト内の全コードを構造化し、LLM/RLMによるコード理解やQAの前処理を行うアプローチを試している。
構造化したコード情報をRLM（推論/言語モデル）に投入し、QAがどの程度成立するかを検証している。
コード全量をそのまま投げるのではなく、構文ベースの整理によって回答品質や参照のしやすさに影響が出る点を重視している。
実際に運用する際の手触りとして、Tree-sitterでの抽出設計とRLMへの与え方（入力の形）が重要だという示唆がある。

はじめに最近"RLM"という手法を知り、ソースコードを対象にしたQAに適応できないかと試したので記事にしました。実装は以下で公開しています。 https://github.com/yumeiriowl/codetwine RLMとは RLMはLLMが処理できないほどのコンテキストや大量のコンテキストを入れた際の精度の低下に有用な手法です。処理の流れは以下となります。上記の流れで見ていただいた通り、LLMにはコンテキストを渡しません（Python REPL環境の変数に格納します）。コンテキストのどこを見てどのようにまとめるかもLLM自身が探索して解析します。そのため、膨大な...

Continue reading this article on the original site.

Read original →