RYS II - Qwen3.5 27B とともに繰り返し層を使う実験、そして「ユニバーサル言語」を示唆するヒント

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

著者は、H100ベースの実験を実行した結果として、LLMがトランスフォーマーの中間層ブロックにおいて「ユニバーサル言語」の潜在表現を形成する可能性があるという知見を報告している。具体的には、同一内容に対する中国語と英語の表現が、同じ言語内であっても異なる内容に対する表現同士よりも、より似通ってくるという。
著者は、トランスフォーマースタックの中間部分にあるブロックを繰り返すことが、他に試した手法と比べて最も良い結果をもたらすと結論づけている。
この投稿では、Qwen3.5 27B（FP8ティア）に基づく複数の新しい公開モデルバリアントを、他の人が検証できるようにHugging Faceで共有している。
著者は、最も大きな繰り返し層バリアント（FP8-XL）を微調整することで、そのモデルサイズ帯において新たな最先端（SOTA）の結果を達成できることを期待している。
また、将来的に、複製された層をコピーとして保持することで、KVキャッシュ以外に追加で必要となるVRAM使用量を抑えるパッケージング／フォーマットについても議論している。

RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language'

さて、H100を皆さんのために回してきたので、面白い新しい結果と新鮮なモデルがあります！

では、何が分かったのか？まあ、私のブログ記事があまりにも長すぎるので（全員が全部読んでないのは分かってます…）、ここにTL;DRを置いておきます：

LLMは普遍的な言語で考えるように見える、ということが分かりました。同じ内容を中国語と英語で与えたとき、モデルの中間層における潜在表現は、同じ言語内での異なる内容よりも似ていました。
いろいろ試しましたが、最終的にはトランスフォーマースタックの中間でブロックを繰り返すのが一番うまくいきました。
それでもブログは読むべきです：https://dnhkng.github.io/posts/rys-ii/

もしまだブログを読んでいないなら、まあ、モデルを試してみればいいと思います？

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-S

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-M

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-L

https://huggingface.co/dnhkng/RYS-Qwen3.5-27B-FP8-XL

Wen GGUF？ 誰かがGGUF化してくれたら、そのときってこと？

層を繰り返すなら、微調整（fine tuning）の恩恵がかなり大きいです。このサイズ帯で最初のチームがRYS-Qwen3.5-27B-FP8-XLを微調整したら、新しいSOTAが出ると期待しています。最後に、TurboDerpとチャットしていました。KVキャッシュ以外で追加のVRAMを使わずに、複製した後のレイヤーをコピーとして保持できるような新しい形式に落とし込めるといいなと思っています。Stay tuned!

submitted by /u/Reddactor
[link] [comments]

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

RYS II - Qwen3.5 27B とともに繰り返し層を使う実験、そして「ユニバーサル言語」を示唆するヒント

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈 フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」