Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog / 2026/3/30

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Trip Venturellaが「Mr. Chatterbox」をリリースした。同モデルは、著作権が切れている英国図書館のヴィクトリア朝期テキスト（1837〜1899年）だけを対象に、スクラッチから学習した言語モデルであり、1899年以降の学習入力は一切含まれていない。
学習コーパスには28,035冊の書籍が含まれ、フィルタリング後の入力トークン数は推定2.93B。19世紀の語彙や考え方を反映することを目指している。
約340Mのパラメータ（GPT-2-Medium程度の規模）で、ディスク上の容量は約2.05GB。小型でローカル実験に適したモデルとして位置付けられている。
同プロジェクトでは、Hugging Face SpacesのデモおよびHugging Faceのモデルリポジトリを通じて利用可能。ユーザーは、歴史的に訓練されたチャットボットが会話の中でどのような体験をもたらすのかを試せる。
著者は今回のリリースを、大量の現代データ（潜在的に無許可のスクレイピングデータ）に依存せずに、有用なLLMのふるまいを学習できる実用的な概念実証（proof-of-concept）だとしている。

Simon Willison’s Weblog

購読する

提供: WorkOS — エンタープライズの顧客向けに販売する準備はできていますか？ WorkOSで安全に構築して出荷しましょう。

Mr. Chatterbox は、(弱めの) ビクトリア朝時代の倫理学習を受けたモデルで、自分のコンピュータ上で実行できます

2026年3月30日

Trip Venturella は Mr. Chatterbox を公開しました。これはイギリス図書館（British Library）の著作権保護期間切れテキストのみで完全に学習した言語モデルです。彼がそれをどう説明しているかというと、以下の通りです:

Mr. Chatterbox は、1837年から1899年のあいだに出版された 28,000 件超のヴィクトリア朝期のイギリス文献からなるコーパスを、ゼロから完全にスクラッチで学習した言語モデルです。対象となるデータセットはイギリス図書館によって公開されました。このモデルには 1899 年以降からの学習入力がまったくありません — 語彙やアイデアは 19 世紀の文献だけから、独占的に形成されています。

Mr. Chatterbox の学習コーパスは 28,035 冊の書籍で、フィルタリング後の推定入力トークン数は 29.3 億トークン（2.93 billion）でした。モデルのパラメータ数はおよそ 3億4,000万で、GPT-2-Medium とほぼ同じ規模です。もちろん違いは、GPT-2 と異なり、Mr. Chatterbox は歴史データだけで完全に学習されているという点です。

大量にスクレイピングした、ライセンスされていないデータを使わずに役に立つ LLM を学習するのがどれだけ難しいかを考えると、ここ数年ずっとこのようなモデルのことを夢見ていました。著作権保護期間切れテキストで学習されたモデルなら、チャット相手としてどんな感じになるのでしょうか？

Trip のおかげで、いま自分たちで確かめられます！

モデル自体は、少なくとも大規模言語モデルの基準では小さめです — ディスク上で 2.05GB しかありません。Trip の HuggingFace Spaces デモを使えば試せます:

正直に言うと、かなりひどいです。LLMというよりは Markov チェーンと話しているような感覚で、応答にビクトリア朝らしい味わいはあるかもしれませんが、質問に対して役に立つ答えを返してくれるのは難しいです。

2022年の Chinchilla 論文は、トレーニングトークンに対するパラメータ数の比率を 20 倍としています。340m のモデルなら約 70 億（7 billion）トークンが必要になるはずで、ここで使われている英国図書館のコーパスの 2 倍以上です。最小の Qwen 3.5 モデルは 600m パラメータで、そのモデルファミリーは 2b（20億）あたりから面白くなってきます。なので私の直感では、役に立つ会話相手として感じられるものにするには、学習データが少なくとも 4 倍以上必要になるでしょう。

とはいえ、なんて楽しいプロジェクトなんだ！

LLM を使ってローカルで動かす

LLM フレームワークを使って、自分のマシンでこのモデルを動かせるかどうか試してみることにしました。

Claude Code に大半の作業をやってもらいました — こちらが議事録（トランスクリプト）です。

Trip は Andrej Karpathy の nanochat を使ってモデルを学習したので、私はそのプロジェクトをクローンし、モデルの重みを取り込み、Claude にモデルを実行する Python スクリプトを作るよう指示しました。うまく動く状態になった（そのために Space デモのソースコードからいくつか追加の詳細が必要になりました）後、Claude に LLM プラグインのチュートリアルを読ませ、残りのプラグイン作業を行わせました。

llm-mrchatterbox がその結果です。次のようにプラグインをインストールします:

llm install llm-mrchatterbox

最初にプロンプトを実行すると、2.05GB のモデルファイルが Hugging Face から取得されます。次のように試してください:

llm -m mrchatterbox "Good day, sir"

あるいは、次のように継続的なチャットセッションを開始できます:

llm chat -m mrchatterbox

LLM がインストールされていなくても、uvx を使って最初からチャットセッションを開始できます:

uvx --with llm-mrchatterbox llm chat -m mrchatterbox

モデルの作業が終わったら、キャッシュされたファイルは次のコマンドで削除できます:

llm mrchatterbox delete-model

Claude Code が最初から LLM モデルプラグイン一式を作るのを見たのは今回が初めてですが、とても良く動きました。今後もこの方法を使うことになると思います。

完全にパブリックドメインのデータから、役に立つモデルが作れるようになればいいなと引き続き期待しています。Trip が nanochat と 29.3 億（2.93 billion）の学習トークンでここまで到達できたことは、有望な出だしです。

2026年3月30日 30th March 2026 の2:28 pmに投稿 · Mastodon、Bluesky、Twitter、またはニュースレターの購読をフォローしてください

さらに最近の記事

Vibe coding で SwiftUI アプリを作るのはかなり楽しい - 2026年3月27日
Claude skills で Starlette 1.0 を試してみる - 2026年3月22日

これは Simon Willison による「Mr. Chatterbox は、(弱めの) ビクトリア朝時代の倫理学習を受けたモデルで、自分のコンピュータ上で実行できます」（2026年3月30日に投稿）です。

シリーズ 個人用デバイス上の LLM の一部

LM Studio と Open WebUI と LLM で Qwen3 Coder Flash を試してみる - 2025年7月31日 7:45 p.m.
OpenAI の新しいオープンウェイト（Apache 2）モデルは本当に良い - 2025年8月5日 8:33 p.m.
Qwen3-4B-Thinking: 「これはアートです。ペリカンは自転車に乗りません！」 - 2025年8月10日、午後11時59分
Mr. Chatterboxは、自分のコンピュータで動かせる（弱めの）ヴィクトリア朝時代の倫理訓練済みモデル - 2026年3月30日、午後2時28分

ai 1938 andrej-karpathy 41 generative-ai 1719 local-llms 149 llms 1685 ai-assisted-programming 369 hugging-face 22 llm 567 training-data 61 uv 91 ai-ethics 284 claude-code 102

前へ: Vibe coding SwiftUIアプリはとても楽しい

月次ブリーフィング

月10ドルで私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

私にお金を払って、あなたに届く量を減らしてもらいましょう！

スポンサー＆購読

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

AIエージェントにかかる10億ドル規模の税金

Dev.to

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

要点

Simon Willison’s Weblog

Mr. Chatterbox は、(弱めの) ビクトリア朝時代の倫理学習を受けたモデルで、自分のコンピュータ上で実行できます

LLM を使ってローカルで動かす

さらに最近の記事

月次ブリーフィング

関連記事

Black Hat Asia

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

AIエージェントにかかる10億ドル規模の税金

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer