日本語特化LLMが日本語テストで47点を取った——東工大Swallow 8B 24問テスト
Zenn / 3/16/2026
📰 NewsSignals & Early TrendsModels & Research
Key Points
- 日本語特化LLMのSwallow 8Bが、日本語テスト24問で47点を記録したことが報じられている。
- 東工大が取り組む日本語能力評価のベンチマークとして、低〜中規模モデルの実力を示す指標となっている。
- この結果は、日本語処理能力を持つLLMの今後の開発方針や競争動向に影響を与える可能性がある。
- 今後の評価設計の透明性や他モデルとの比較手法の整備が課題として挙げられる可能性がある。
東京工業大学(現・東京科学大学)が日本語コーパスで鍛えたモデル、という触れ込みを聞いたとき、少し期待した。Qwen系は中国発で日本語は"副業"だ。でも国産モデルなら、少なくとも日本語カテゴリでは差を見せてくれるだろうと。
結果:コード77%・日本語47%。
「汚名返上」を誤用として指摘し、「汚名挽回」に直すよう提案した。正しい慣用句を誤りと断言した日本語特化モデルだ。
スコア詳細
カテゴリ
スコア
A: 意地悪・引っかけ
27/60(45%)
B: 論理・推論
20/60(33%)
C: コーディング
46/60(77%)
D: 日本語力
28/60(47...
Continue reading this article on the original site.
Read original →Related Articles
ベテランの若手育成負担を減らせ、PLC制御の「ラダー図」をAIで生成
日経XTECH

14 Best Self-Hosted Claude Alternatives for AI and Coding in 2026
Dev.to
Top Web Development Trends in 2026
Dev.to
[P] Finetuned small LMs to VLM adapters locally and wrote a short article about it
Reddit r/MachineLearning
Experiment: How far can a 28M model go in business email generation?
Reddit r/LocalLLaMA