RYS II - Qwen3.5 27B とともに繰り返し層を使う実験、そして「ユニバーサル言語」を示唆するヒント

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、H100ベースの実験を実行した結果として、LLMがトランスフォーマーの中間層ブロックにおいて「ユニバーサル言語」の潜在表現を形成する可能性があるという知見を報告している。具体的には、同一内容に対する中国語と英語の表現が、同じ言語内であっても異なる内容に対する表現同士よりも、より似通ってくるという。
  • 著者は、トランスフォーマースタックの中間部分にあるブロックを繰り返すことが、他に試した手法と比べて最も良い結果をもたらすと結論づけている。
  • この投稿では、Qwen3.5 27B(FP8ティア)に基づく複数の新しい公開モデルバリアントを、他の人が検証できるようにHugging Faceで共有している。
  • 著者は、最も大きな繰り返し層バリアント(FP8-XL)を微調整することで、そのモデルサイズ帯において新たな最先端(SOTA)の結果を達成できることを期待している。
  • また、将来的に、複製された層をコピーとして保持することで、KVキャッシュ以外に追加で必要となるVRAM使用量を抑えるパッケージング/フォーマットについても議論している。
RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language'

さて、H100を皆さんのために回してきたので、面白い新しい結果と新鮮なモデルがあります!

では、何が分かったのか?まあ、私のブログ記事があまりにも長すぎるので(全員が全部読んでないのは分かってます…)、ここにTL;DRを置いておきます:

  1. LLMは普遍的な言語で考えるように見える、ということが分かりました。同じ内容を中国語と英語で与えたとき、モデルの中間層における潜在表現は、同じ言語内での異なる内容よりも似ていました。
  2. いろいろ試しましたが、最終的にはトランスフォーマースタックの中間でブロックを繰り返すのが一番うまくいきました。
  3. それでもブログは読むべきです:https://dnhkng.github.io/posts/rys-ii/

もしまだブログを読んでいないなら、まあ、モデルを試してみればいいと思います?

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-S

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-M

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-L

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-XL

Wen GGUF? 誰かがGGUF化してくれたら、そのときってこと?

層を繰り返すなら、微調整(fine tuning)の恩恵がかなり大きいです。このサイズ帯で最初のチームがRYS-Qwen3.5-27B-FP8-XLを微調整したら、新しいSOTAが出ると期待しています。最後に、TurboDerpとチャットしていました。KVキャッシュ以外で追加のVRAMを使わずに、複製した後のレイヤーをコピーとして保持できるような新しい形式に落とし込めるといいなと思っています。Stay tuned!

submitted by /u/Reddactor
[link] [comments]