日本語特化LLMが日本語テストで47点を取った——東工大Swallow 8B 24問テスト
Zenn / 2026/3/16
📰 ニュースSignals & Early TrendsModels & Research
要点
- 日本語特化LLMのSwallow 8Bが、日本語テスト24問で47点を記録したことが報じられている。
- 東工大が取り組む日本語能力評価のベンチマークとして、低〜中規模モデルの実力を示す指標となっている。
- この結果は、日本語処理能力を持つLLMの今後の開発方針や競争動向に影響を与える可能性がある。
- 今後の評価設計の透明性や他モデルとの比較手法の整備が課題として挙げられる可能性がある。
東京工業大学(現・東京科学大学)が日本語コーパスで鍛えたモデル、という触れ込みを聞いたとき、少し期待した。Qwen系は中国発で日本語は"副業"だ。でも国産モデルなら、少なくとも日本語カテゴリでは差を見せてくれるだろうと。
結果:コード77%・日本語47%。
「汚名返上」を誤用として指摘し、「汚名挽回」に直すよう提案した。正しい慣用句を誤りと断言した日本語特化モデルだ。
スコア詳細
カテゴリ
スコア
A: 意地悪・引っかけ
27/60(45%)
B: 論理・推論
20/60(33%)
C: コーディング
46/60(77%)
D: 日本語力
28/60(47...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



