NativeTernary:3値ニューラルネットワークの重み、構造化データ、一般的な計算基盤向けの、ユニアリ・ランレングス階層マーカーによる自己区切り型バイナリ符号化方式

arXiv cs.LG / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • NativeTernaryは、予約されたデリミタに続く構造化された2ビットのペア対応により、3値記号(符号付きの{-1,0,+1}または符号なしの{0,1,2})をネイティブに符号化する提案バイナリ・ワイヤ形式である。
  • 提案方式の主要な新規性は、連続するデリミタ・ペアをユニアリのランレングス符号化して階層の深さを表す点であり、文字/単語/文/段落/トピックの境界の「稀少性」に応じてビットコストがスケールするよう設計されている。
  • デリミタには複数のバリアントがあり(単純な検出用の主要オプションとして{11}、また超低消費電力のCMOS志向の代替として{00})、さらに二重スタータ・ネームスペース設計などの設計バリアントも含まれる。
  • 本論文は、NativeTernaryによりハードウェア変更なしで「3値ネイティブ」な計算基盤を支えられると主張しており、3値ニューラルネットワークの重み格納から、エッジ/IoT/センサ、ならびにテレメトリデータまでの利用を想定している。
  • デコーダは、非常にコンパクトでステートレスな状態機械として記述されており(約10行)、ビットストリームの破損にも耐性があるため、組込み用途や堅牢な配備に適していることを強調している。

概要: BitNet b1.58(Ma ら, 2024)は、大規模言語モデルが三値重み {-1, 0, +1} のみで完全に動作できることを示しているが、そのようなモデル向けのネイティブな二値ワイヤーフォーマットは存在しない。NativeTernary はこのギャップを埋める。我々は NativeTernary を提案する。これは二値の符号化方式であり、2ビットのペア空間を、三値の値を表す3つのデータシンボル(バランス型 {-1, 0, +1}、または符号なし型 {0, 1, 2} のいずれか)と、予約された構造用デリミタに分割する。主要な貢献は、意味階層の深さを表すために、1の数(unary)のランレングス符号化を用いる点にある。連続する N 個のデリミタペアの並びはレベル N の境界を表し、文字、単語、文、段落、トピックの境界をそれぞれコスト 2, 4, 6, 8, 10 ビットで符号化する—これは境界の希少性に比例する。どの 2ビットペアをデリミタとして用いるかは設計パラメータであり、{11} が主要実装であり単純な OR ゲート検出を可能にする;{00} は超低消費電力 CMOS システム向けに最適化した代替実装で、スイッチング活動を最小化する。4つのビットペアの選択肢すべてが特許請求の対象となっている。我々は3つの符号化バリアントを示す:(1) {11} を唯一のデリミタとする主要方式;(2) {10} と {11} の両方が異なるシンボル名前空間を開始するダブル・スタータ方式;(3) 符号なしとバランス型の三値データのマッピングの解析。ハードウェア変更を不要とする、三値ネイティブな汎用計算基盤への道筋を説明し、三値ニューラルネットワークの重み格納、階層的な自然言語符号化、エッジコンピューティング、IoT と衛星テレメトリ、産業用センサ、自動車システム、医療機器、ゲーム、金融のティックデータにまたがる応用を概説する。デコーダは 10 行のステートレスな有限状態機械であり、ビットストリームの破損に対して耐性がある。