要旨: BERTのような事前学習済み言語モデル(PLM)は強力な意味表現を提供しますが、高価で不透明です。一方、Tsetlin Machine(TM)のような記号モデルは透明性を提供するものの、意味の汎化能力に欠けます。私たちは、LLMの知識を記号形式へと移す意味ブートストラップの枠組みを提案し、解釈可能性と意味的能力を両立します。クラスラベルが与えられると、LLMはサブ意図を生成し、それを3段階のカリキュラム(seed、core、enriched)によって合成データ作成を導くことで、意味の多様性を拡張します。非否定TM(NTM)は、これらの例から高い確信度を持つリテラルを抽出し、解釈可能な意味的手がかりとして学習します。これらの手がかりを実データへ注入することで、TMは句(節)の論理を、LLMが推論した意味と整合させることができます。提案手法は埋め込みや実行時のLLM呼び出しを必要としない一方で、記号モデルに事前学習済みの意味的事前知識を与えます。複数のテキスト分類タスクにおいて、バニラTMよりも解釈可能性と精度を向上させ、BERTに匹敵する性能を達成しつつ、完全に記号的で効率的なままです。
Tsetlinマシンによる解釈可能なテキスト分類のためのLLM主導セマンティック・ブートストラップ
arXiv cs.CL / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキスト分類におけるトレードオフを、事前学習済み言語モデル(PLM)のセマンティックな強みと、Tsetlinマシン(TM)の解釈可能性を組み合わせることで解決することを扱っている。
- 各クラスラベルごとにLLMがサブ意図(sub-intents)を生成し、それを3段階のカリキュラム(seed、core、enriched)により合成データ生成へ導く、LLM主導のセマンティック・ブートストラップ手法を提案する。
- 非否定型Tsetlinマシン(Non-Negated Tsetlin Machine; NTM)を学習し、LLMから導出される意味上の手がかりとなる、高い確信度を持った解釈可能なリテラルを抽出する。
- 学習したこれらの手がかりを実データへ注入することで、TMは、埋め込みや実行時のLLM呼び出しを必要とせず、節(クローズ)レベルの論理をLLM推論のセマンティクスとより整合させることができる。
- 複数のテキスト分類タスクに対する実験により、素のTMよりも解釈可能性と精度が向上し、BERTと同等の性能に到達しつつ、完全にシンボリックで効率的であることが示される。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note