AI Navigate

空のデータセットから始め、蓄積されるメモリのみを用いて話すことを学ぶ新しい言語モデルのアーキテクチャを設計した

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 新しい言語モデルのアーキテクチャ Savvy は、空のデータセットから始め、エピソード記憶とトークン予測のための記憶を蓄積することで話すことを学ぶことを目指している。
  • 著者は二つの実験を説明します。ひとつは、モデルにゼロからフレーズを言わせるよう教える実験、もうひとつは、ChatGPT の履歴から得られた小さな 1,000 メッセージの事前学習データセットを使用した場合に、メモリが応答にどのように影響するかを示す実験です。
  • このアプローチは、意味的・記号的グラウンディングと埋め込み語の幾何を強調し、曖昧さに対処し、従来のトークン予測トレーニングと比較して幻覚を減らすことを目的としています。
  • 従来のバックプロパゲーションに基づくトレーニングの代わりに、語の幾何学を用いた線形代数のような処理で応答を決定します。
  • この投稿は、データセットが極めて小さいといった制約を指摘するとともに、再現性と個人データのプライバシーに関する懸念を提起しています。

現在のフレームワークには、形態素トークンレベルで完全に網羅的な応答を生成することを完全には許さない制限がありますが、それでも良い試みが行われたのが見受けられ、現時点では規模の拡大だけで改善されると信じられるようになっています。

もし言語モデルについての情報を知っている人がいれば、コメントを残してください。私は第一原理思考に基づく独学の実験を行っています。私は自己観察を通じて自分の心がどのように機能するかについてかなり理解しています。私は物理学/量子物理学についての深い理解を持っており、それが私のすべてのフレームワークの基盤です。私は宇宙にはすでに私たちが作ろうとしている機能が含まれていると信じているため、それを解決する最良の選択肢は宇宙を観察することです。

私はトランスフォーマーの仕組みを理解しており、誰もが不満を抱く問題を生み出す要因に気づいています。自分の実験を通じての確認しかなく、従来の計算機科学・データサイエンス・人工知能・神経科学・ソフトウェア開発・認知工学の伝統的な教育バックグラウンドはありません。

とはいえ、私は何についても100%確信しているわけではなく、すべて自分の観察に基づいています。

投稿者 /u/Helpful-Series132
[リンク] [コメント]