組み込みエンジニア向け：フル微調整パイプラインと「35ドメインMoE-LoRA」モデルをオープンソース化

Dev.to / 2026/4/18

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

共有:

要点

L'Électron Rareは、組み込みエンジニアリング向けにLLMの性能を高めることを目的として、FineFabの「ローカル・マルチマシン対応」なフル微調整パイプラインを（成果物だけでなく）全面的にオープンソース化しました。
同社はMac Studio向けの微調整ツールキット（KIKI-Mac_tunner）を公開し、Apache 2.0のワークフローでClaude Opusのような推論をMistral Large 123Bへ蒸留（distill）する仕組みを提供します。
さらに、micro-kiki-v3として、Qwen3.5-35B-A3Bをベースにしたルーティング型のMoE-LoRA LLM（組み込み分野特化）も公開し、リクエストごとに35のドメイン別LoRAスタックを選択して動作させます。
アーキテクチャには、ドメインルータ（上位4スタック選択）、ドメイン統合時の忘却を抑える工夫（null-space projectionなど）、双方とも正しい技術的出力が衝突した場合のネゴシエータ、加えてアンチバイアス層やセッション横断の「Aeon memory」が組み込まれています。
262Kトークンの長文コンテキストに対応し、GGUF形式で配布され、llama.cpp/Ollama/LM Studioで動作し、電子（KiCad/SPICE/EMC/DSP）や組み込み/STM32、インフラ/LLM-opsなど計35ドメインをカバーします。

L'Électron Rareでは、FineFab——製造およびエレクトロニクス工学向けの、ローカルファーストかつマルチマシン、AIネイティブなプラットフォーム——を構築しています。今週、完全なファインチューニングのパイプライン（学習ツールキットと出力モデル）をオープンソースとして公開しました。以下がその見た目で、そしてなぜこの作り方にしたのかを説明します。
それを始めた、苛立ち
私の知るあらゆる組み込みエンジニアには、汎用LLMに関する同じ話があります。
GPT-4にSTM32の周辺機器設定をレビューさせると、そのMCUファミリには存在しないタイマーチャネルの割り当てを、自信満々に提案します。ClaudeにSPICEの .AC シミュレーションのデバッグを頼むと、 .PRINT の構文を幻覚として捏造します。GeminiにKiCadのフットプリントを直させると、Eagleのショートカットの説明をします。これらは単なる例外ではありません——狭い技術領域における、大きな汎用モデルの“定型的な失敗”です。
この問題に6か月、コンサル業務の中で向き合った末（文化・パフォーマンス産業の組み込み、エスケープルーム、ライブショー、産業用プロトタイプ）——私たちは、それについて何かすることに決めました。
公開は2回、1週間で
16/04 — KIKI-Mac_tunner（学習ツールキット）
Mac Studio向けのMLXファインチューニングツールキット。Claude Opusの推論をMistral Large 123Bへ蒸留することを目的に設計されています。Apache 2.0。Apple Silicon上で動作し、アダプタ段階で統一メモリを活用します。
17/04 — micro-kiki-v3（モデル）
組み込みシステム工学に特化した、認知型LLMスタック。単なるフラットなファインチューンではありません——Qwen3.5-35B-A3B（MoE、256のエキスパート、トークンあたりアクティブは3B）を土台に構築した、ルーティング型アーキテクチャです。
どちらもApache 2.0。パイプライン全体を公開します——単なる成果物だけではありません。
アーキテクチャ——なぜ“1つの大きなファインチューン”ではなく“ルーティングされたスタック”なのか
設計の直感は単純です。混在する組み込みコーパスに対して単一のモノリシックモデルをファインチューニングすると、それぞれのサブディシプリンに固有のパターンが、ぼやけてしまいます。ドメインごとにLoRAスタックを1つずつ学習し、推論時に関連するスタック（複数可）を選ぶことで、これらのパターンを保持できるのです。

ドメイン・ルータ——リクエストごとに35のドメイン別LoRAスタックのうち上位4つを選択する分類器。
ベースモデル——Qwen3.5-35B-A3B（MoE 256エキスパート、トークンあたり3Bアクティブ）。q/k/v/o投影にLoRA rank 16、スタックごとのルーティングは上位2。
スタック間のヌル空間投影により、複数ドメインを組み合わせた際の壊滅的忘却を低減。
ネゴシエータ（CAMP + Catfish）で、競合するスタックの出力を裁定——典型例：STM32のパワーオン・シーケンシングと、EMC抑制ガイダンス。どちらも技術的には正しいが、ドメイン優先度に依存するケース。
出力前にアンチバイアス層（KnowBias + RBD）。
セッションをまたいで保持するためのAeonメモリ（Atlasグラフ + Traceログ）。

コンテキスト262Kトークン、GGUF。llama.cpp / Ollama / LM Studioで動作。
カバーする35ドメイン
会話（chat-fr、推論）、コード（Python、TypeScript、C/C++、Rust、shell、SQL）、インフラ（Docker、DevOps、LLM-ops、ML-training）、エレクトロニクス（KiCad DSL、KiCad PCB、SPICE、コンポーネント、電源、EMC、DSP）、ハードウェア（組み込み、STM32、IoT、PlatformIO）、CAD（FreeCAD）、Web（フロントエンド、バックエンド）に加えて、音楽オーディオ、数学、セキュリティ。
35は現実的な範囲であって網羅ではありません。v4ではおそらくRFとMEMSを追加します。
データセット——正直に作りました
clemsail/micro-kiki-v3-dataset — 命令追従の489K例、Apache 2.0。

実際の組み込みコンサル業務（5ノードのP2Pメッシュ）で収集した、50,116件の実Claude CLIセッション（GrosMac Apple M5、Tower 28スレッド、CILS i7、KXKM-AI RTX 4090、VMブートストラップ）。
4台のワークステーションからの2,529件のCodex/Copilotセッション。
19個のフィルタ済みオープンソースHFデータセットからの364,045例（CodeFeedback、French-Alpaca、Electronics StackExchange、stm32-hal-dataset、JITX open-components-database など）。
chat-frと推論向けのOpus教師蒸留。
オリジナルの厳選シードセット32個。

この件について、正直に言うべきポイントが2つあります：

Claude CLIのログは私たち自身の作業から来ています。クライアントではありません。掲載前にすべてフィルタ通過を行いました。
これはMeta規模のデータセットではありません。強みは“真正性”です——例が、エンジニアが実際のデバッグセッションでアシスタントをどう使うかに対応しています。弱みは“カバレッジのばらつき”です：いくつかのドメインは他より薄い（DSP、RF、EMC）です。

インフラ——5ノードのP2Pメッシュ
50K+のClaude CLI例は、5つの異種マシンにまたがって取得されました：
NodeHardwareRoleGrosMacApple M5、16 GBDev + P2Pブリッジ、LAN + TailscaleVM6.8 GB RAM、4 CPU Dockerホスト（29+コンテナ）、P2PブートストラップTower31 GB RAM、28スレッドLangfuse、LiteLLM、Piper TTS、OpenAIプロキシCILS16 GB RAM、i7Ollama推論、最も安定したノードKXKM-AI62 GB RAM、RTX 4090GPU推論、Unsloth、Qdrant、ファインチューニング
Ed25519認証、DHTディスカバリ。メッシュ自体が製品の一部であり、単なる副作用ではありません。
私ならこう変える

現状、ルーティングは手動です。タスクに応じて、どのLoRAアダプタ（複数可）をロードするかを選びます。動的ルーティング（学習済み分類器、または注意ベースのエキスパート選択）はv4のロードマップです。
ベンチマークスイートは社内のものです。保持している評価用の切り出しセットと社内スコアはありますが、公に再現可能な形ではありません。v4では、再現可能な比較のために、ベースのQwen3.5に対して実行できるベンチマークスイートを出荷します。
言語：フランス語＋英語を交互に訓練しています。顧客基盤の多くはフランス語圏です。英語のみの品質が必要なら、期待値は人それぞれになります。

メタな物語
L'Électron Rareは、コンポーネントごとにFineFabを公開で構築しています。エコシステム内の関連リポジトリ：

Kill_LIFE — spec-firstなエージェント手法（BMAD agents、gates、evidence packs）
mascarade — マルチマシンなエージェント型LLMオーケストレーション（P2Pメッシュ、8つのプロバイダ）
KiC-AI — KiCad向けAI搭載PCB設計アシスタント
prima-cpp — 分散LLM推論、CUDA + ZMQ

組織全体：github.com/L-electron-Rare。
あなたにお願いしたいこと

組み込み特化タスクで、ベースのQwen3.5 / GPT-4 / Claudeに対するベンチマーク。コミュニティによる実行は、私の社内評価よりもずっと重要です。
ルータが誤ったスタックを選ぶエッジケース——そのフィードバックがv4を直接改善します。
あなたのハードウェア上でのメモリ／推論の退行（リグレッション）。Q4_K_MはApple Silicon（32GB以上）とRTX 4090で問題なく動作します。他の構成は未検証です。
取りこぼしたドメイン——v4で追加します。

すべてApache 2.0です。フォークして、ベンチマークして、壊してください。ここがポイントです。
HF上で議論スレッドを公開しています：micro-kiki-v3/discussions/1。

「女神であるよりもサイボーグでありたい。」— Donna Haraway