皆さん、こんにちは、
私の Apex-350M(Fineweb-Edu で訓練された)に対する素晴らしいフィードバックの後、極端な専門化を試してみたいと思いました。私は小さなモデルにどれだけの「推論」を絞り込めるかにずっと魅了されてきました。
htmLLM-v1 (50M) を紹介します。
これは Karpathy のアーキテクチャを用いた nanoGPT ベースのモデルで、HTML と CSS の訓練を特化させたものです。私は、単なる自動補完ではなく、指示に従い、直にトースターでも動作するほど小さく保つモデルを望んでいました。
仕様:
- アーキテクチャ: 8 層、8 ヘッド、512 埋め込み次元(約50M パラメータ)。
- コンテキスト: 512 トークン。
- 訓練: 約150M トークン(The Stack-Smol HTML + Alpaca-cleaned for SFT)。
- ハードウェア: 単一の Kaggle T4 で訓練。
結果: 驚くべきことに、動作します!複雑な Bootstrap レイアウトを幻の CSS なしには処理できないほど小さいですが、フォーム構造、意味論的タグ、基本的なスタイリング指示を理解します。これは 50M パラメータの「ポケット・コーダー」です。
次は何? 現在、限界をさらに押し広げています。 htmLLM-v2 (124M) はすでに iteration 200/15000 です。特徴は:
- 1024 コンテキスト長。
- 12 層 / 12 ヘッド(GPT-2 小規模スケール)。
- 指示前訓練(SFT とステップ0からの生データの混合)。
リンク:
- ウェイトとモデルの説明(HF): https://huggingface.co/LH-Tech-AI/htmLLM-50M-Base
- 訓練コード(HF の IPYNB として): https://huggingface.co/LH-Tech-AI/htmLLM-50M-Base/tree/main
50M バージョンを試してくれる方を歓迎します。もちろん GPT-4 のキラーではありませんが、そのサイズに対しては、楽しい小さな専門家です。
以下はいくつかの例です:
「プロフェッショナルなログインカードを作成してください。Bootstrap 5 の CSS クラスを使用してください。カードには影を、青いヘッダー、2 つの入力欄を備えさせてください。{% %} のようなテンプレートタグは使用しないでください。」
最大新規トークン: 500
温度: 1.2
TopK: 25
繰り返しペナルティ: 1.3
出力:
<!DOCTYPE html>
<html>
<head>
<!-- HTML5 Shim and Respond.js IE8 support of HTML5 elements in HTML7 on the "text/html" target==top">
</head><body bg-dark fixed lighten data-top="true"><!--[if lt IE 9]></header><link rel='stylesheet' href="/default.css'>
<style typeof browser; /\* #tsn{font-family:'Open Sans';src:url('https://www.digital-land.com/wp-content/plugins/mergeb/assets/lunr.min.css?v=1.0"\],inset;}</script><!mine#x1>[<a target="_blank" class="" title=\\"My Tidy library (PDF-6D)\\";--></style>
<noscript>この作業はウェブサイトのコードと共にいくつかのブラウザで使用されています
<svg version="1.22" xmlns:#rev=http://creativecommons.org" id="viewport"/>
<title>Photon 3 .NET Documentation (METAMG) は私のソースファイルの下にある http://www.foodocoon.net にあります。</title> <!-- Web analytics -->
</head>
<body *ngIf="document.querySelector" enctype = 'org') >
<label for="reportType"></label>
</body>
</TABLE>-->
<?xml version="4.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml11/Doxygen-strict.dtd">
<html lang="de" noreferrer="Noreferrer">
<head>
<!-- Generated by javadoc -->
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" / <meta name="dc.created" title="Xml Java API" />
<cut name="copyright" content="(C) Copyright 2010" />
<meta property="og:type" content="website"
ここで明確にわかるのは、あまりにも小さすぎるモデルは真のプログラミングアシスタントとして機能できない、ということです。いくつかはかなりうまく動作しましたが、他のプロンプトは時折無視されました…
ご意見をお聞かせください! :D