[P] Qサブスペース射影を用いたLMのアーキテクチャとデータフローの可視化

Reddit r/MachineLearning / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 投稿は、Qサブスペース射影を用いて言語モデルのアーキテクチャとデータフローを可視化する試みを説明しており、モデルの内部構造をMRIのような一瞥として提示しています。
  • 著者が『structure of structure structures』と呼ぶものの3Dボリューム可視化を示し、アイデアの要点を手早く要約した概要を提供します。
  • Prisma、Qwen3.5-0.8B、HuggingFace SmolLM-360M、RWKV-4-430M、およびstate-spaces/mamba-370m-hfといった複数のモデルの画像が共有され、モデル間のアーキテクチャのビューを示すための横断的な比較が示されています。
  • 著者はインタラクティブなHTML可視化をホストする場所を探しており、『メディエーター・サーフェス』が損失ランドスケープと関連している可能性があると指摘しています。
  • 全体として、この投稿は探索的であり、公式な発見やリリースを発表するものではなく、意見や提案を求めています。
[P] LMのアーキテクチャとデータフローをQサブスペース投影で視覚化

やあ、みんな。めちゃくちゃ楽しいことをやった。黒魔術とヴードゥーを使って、モデルから MRI のようなかなりクールな画像を抽出できた。私は何かを断言するつもりはない。いくつか仮説を持っている…それは主に、それがただ美しく、心を惑わせるからだ。

LMの構造の構造を3Dボリュームで視覚化する方法を見つけた。

アイデアの要点を速送りで示したGistリンクはこちら。

いくつかの画像:

y3i12/Prisma(私の研究モデル)

Qwen/Qwen3.5-0.8B

HuggingFaceTB/SmolLM-360M

RWKV/rwkv-4-430m-pile

state-spaces/mamba-370m-hf

現時点では、対話型HTMLをアップロードできる場所を探しています。何か知っていることがあれば教えてください。リンクします。さまざまな角度からそれらを眺めるのは非常に魅力的です。

これから生まれる媒介面もかなり興味深いです:

https://preview.redd.it/zbbvba1m9mqg1.png?width=749&format=png&auto=webp&s=48f2a44273bdba30176b89d8057c0e9880cb9401

これは“loss landscape”の多くの解釈の1つだろうか。

投稿者 /u/y3i12
[リンク] [コメント]