広告

Mr. Chatterboxは(弱い)ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog / 2026/3/30

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Trip Venturellaが「Mr. Chatterbox」をリリースした。同モデルは、著作権が切れている英国図書館のヴィクトリア朝期テキスト(1837〜1899年)だけを対象に、スクラッチから学習した言語モデルであり、1899年以降の学習入力は一切含まれていない。
  • 学習コーパスには28,035冊の書籍が含まれ、フィルタリング後の入力トークン数は推定2.93B。19世紀の語彙や考え方を反映することを目指している。
  • 約340Mのパラメータ(GPT-2-Medium程度の規模)で、ディスク上の容量は約2.05GB。小型でローカル実験に適したモデルとして位置付けられている。
  • 同プロジェクトでは、Hugging Face SpacesのデモおよびHugging Faceのモデルリポジトリを通じて利用可能。ユーザーは、歴史的に訓練されたチャットボットが会話の中でどのような体験をもたらすのかを試せる。
  • 著者は今回のリリースを、大量の現代データ(潜在的に無許可のスクレイピングデータ)に依存せずに、有用なLLMのふるまいを学習できる実用的な概念実証(proof-of-concept)だとしている。
提供: WorkOS — エンタープライズの顧客向けに販売する準備はできていますか? WorkOSで安全に構築して出荷しましょう。

Mr. Chatterbox は、(弱めの) ビクトリア朝時代の倫理学習を受けたモデルで、自分のコンピュータ上で実行できます

2026年3月30日

Trip Venturella は Mr. Chatterbox を公開しました。これはイギリス図書館(British Library)の著作権保護期間切れテキストのみで完全に学習した言語モデルです。彼がそれをどう説明しているかというと、以下の通りです:

Mr. Chatterbox は、1837年から1899年のあいだに出版された 28,000 件超のヴィクトリア朝期のイギリス文献からなるコーパスを、ゼロから完全にスクラッチで学習した言語モデルです。対象となるデータセットは イギリス図書館によって公開されました。 このモデルには 1899 年以降からの学習入力がまったくありません — 語彙やアイデアは 19 世紀の文献だけから、独占的に形成されています。

Mr. Chatterbox の学習コーパスは 28,035 冊の書籍で、フィルタリング後の推定入力トークン数は 29.3 億トークン(2.93 billion)でした。モデルのパラメータ数はおよそ 3億4,000万で、GPT-2-Medium とほぼ同じ規模です。もちろん違いは、GPT-2 と異なり、Mr. Chatterbox は歴史データだけで完全に学習されているという点です。

大量にスクレイピングした、ライセンスされていないデータを使わずに役に立つ LLM を学習するのがどれだけ難しいかを考えると、ここ数年ずっとこのようなモデルのことを夢見ていました。著作権保護期間切れテキストで学習されたモデルなら、チャット相手としてどんな感じになるのでしょうか?

Trip のおかげで、いま自分たちで確かめられます!

モデル自体は、少なくとも大規模言語モデルの基準では小さめです — ディスク上で 2.05GB しかありません。Trip の HuggingFace Spaces デモ を使えば試せます:

ビクトリア朝風のチャットボット・インターフェースのスクリーンショット。タイトルは「 Mr. Chatterbox (Beta) 」、字幕は「The Victorian Gentleman Chatbot」。会話は、ユーザーが「How should I behave at dinner?(夕食ではどう振る舞うべき?)」と尋ねると、ボットが「My good fellow, one might presume that such trivialities could not engage your attention during an evening's discourse!(まあ親愛なる友よ、そんな些細なことに夕べの談話の最中にあなたの注意が向くはずはないと推察できるでしょう!)」と返すところから始まる。その後、ユーザーが「What are good topics?(良い話題は?)」と聞くと、ボットは「The most pressing subjects of our society— Indeed, a gentleman must endeavor to engage the conversation with grace and vivacity. Such pursuits serve as vital antidotes against ennui when engaged in agreeable company.(私たちの社会で最も切実な話題です。まことに紳士は、優雅さと活気をもって会話に加わるよう努めねばなりません。そうした取り組みは、気の合う相手と過ごす際の退屈を打ち払う重要な解毒剤となります。)」と返す。画面下部には「Say hello...(こんにちはと言って...)」というテキスト入力欄と、送信ボタンがある。インターフェースはダークなマルーンとクリーム色の配色を採用している。

正直に言うと、かなりひどいです。LLMというよりは Markov チェーンと話しているような感覚で、応答にビクトリア朝らしい味わいはあるかもしれませんが、質問に対して役に立つ答えを返してくれるのは難しいです。

2022年の Chinchilla 論文 は、トレーニングトークンに対するパラメータ数の比率を 20 倍としています。340m のモデルなら約 70 億(7 billion)トークンが必要になるはずで、ここで使われている英国図書館のコーパスの 2 倍以上です。最小の Qwen 3.5 モデルは 600m パラメータで、そのモデルファミリーは 2b(20億)あたりから面白くなってきます。なので私の直感では、役に立つ会話相手として感じられるものにするには、学習データが少なくとも 4 倍以上必要になるでしょう。

とはいえ、なんて楽しいプロジェクトなんだ!

LLM を使ってローカルで動かす

LLM フレームワークを使って、自分のマシンでこのモデルを動かせるかどうか試してみることにしました。

Claude Code に大半の作業をやってもらいました — こちらが議事録(トランスクリプト)です。

Trip は Andrej Karpathy の nanochat を使ってモデルを学習したので、私はそのプロジェクトをクローンし、モデルの重みを取り込み、Claude にモデルを実行する Python スクリプトを作るよう指示しました。うまく動く状態になった(そのために Space デモのソースコード からいくつか追加の詳細が必要になりました)後、Claude に LLM プラグインのチュートリアル を読ませ、残りのプラグイン作業を行わせました。

llm-mrchatterbox がその結果です。次のようにプラグインをインストールします:

llm install llm-mrchatterbox

最初にプロンプトを実行すると、2.05GB のモデルファイルが Hugging Face から取得されます。次のように試してください:

llm -m mrchatterbox "Good day, sir"

あるいは、次のように継続的なチャットセッションを開始できます:

llm chat -m mrchatterbox

LLM がインストールされていなくても、uvx を使って最初からチャットセッションを開始できます:

uvx --with llm-mrchatterbox llm chat -m mrchatterbox

モデルの作業が終わったら、キャッシュされたファイルは次のコマンドで削除できます:

llm mrchatterbox delete-model

Claude Code が最初から LLM モデルプラグイン一式を作るのを見たのは今回が初めてですが、とても良く動きました。今後もこの方法を使うことになると思います。

完全にパブリックドメインのデータから、役に立つモデルが作れるようになればいいなと引き続き期待しています。Trip が nanochat と 29.3 億(2.93 billion)の学習トークンでここまで到達できたことは、有望な出だしです。

2026年3月30日 30th March 2026 の2:28 pmに投稿 · MastodonBlueskyTwitter、または ニュースレターの購読をフォローしてください

これは Simon Willison による「Mr. Chatterbox は、(弱めの) ビクトリア朝時代の倫理学習を受けたモデルで、自分のコンピュータ上で実行できます」2026年3月30日に投稿)です。

シリーズ 個人用デバイス上の LLM の一部

  1. LM Studio と Open WebUI と LLM で Qwen3 Coder Flash を試してみる - 2025年7月31日 7:45 p.m.
  2. OpenAI の新しいオープンウェイト(Apache 2)モデルは本当に良い - 2025年8月5日 8:33 p.m.
  3. 返却形式: {"translated": "翻訳されたHTML"}
  4. Qwen3-4B-Thinking: 「これはアートです。ペリカンは自転車に乗りません!」 - 2025年8月10日、午後11時59分
  5. Mr. Chatterboxは、自分のコンピュータで動かせる(弱めの)ヴィクトリア朝時代の倫理訓練済みモデル - 2026年3月30日、午後2時28分
ai 1938 andrej-karpathy 41 generative-ai 1719 local-llms 149 llms 1685 ai-assisted-programming 369 hugging-face 22 llm 567 training-data 61 uv 91 ai-ethics 284 claude-code 102

前へ: Vibe coding SwiftUIアプリはとても楽しい

月次ブリーフィング

月10ドルで私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

私にお金を払って、あなたに届く量を減らしてもらいましょう!

スポンサー&購読

広告