法務・税務AIはここまで来た〜Grok-4.20の実力
2026年4月、LMSYS Chatbot ArenaのLegal & Government部門でxAIのGrok-4.20が1位を獲得した。AnthropicのClaude 4.6 OpusやGoogleのGemini 3.1 Proを退けての結果で、AIが法務分野で何を変えつつあるかが、少し見えてきた。
LMSYS Chatbot Arenaは人間の評価者がモデルを対戦形式で比較するプラットフォームで、Legal部門は法律・行政文書に特化した設問で競わせる。「1位」とはその設問群に対して人間が最も支持した回答を出したという意味であり、汎用的な知性の順位ではない。
Grokが法務に強い理由
強さは知識量ではなく、推論の組み立て方にある。
内部で4つの専門エージェント(リーダー・調査・論理・反証)が独立して議論したうえで回答を生成する、いわゆるネイティブ・マルチエージェント構成を採っている。反証担当が内部で機能するということは、自分の回答に自分で突っ込みを入れる構造だ。法務推論で「相手方の反論を想定する」という作業を、モデル自身がある程度こなす。多角的な視点が求められる法務推論に、この設計が噛み合った。
非ハルシネーション率78%はArtificial AnalysisのOmniscienceテストでのスコアで、テスト済みモデル中最高値だ。5回に1回は誤りうる数字でもある。総合的な知性スコアではGemini 3.1 ProやGPT-5.4の57に対し48と劣っており、信頼性と推論力はトレードオフの関係にある。200万トークンの文脈長は、膨大な契約書や判例を一括で読み込める実用上の強みになる。
何ができて、何ができないか
イーロン・マスク氏がGrokでTurboTaxの結果を検証したところ、還付金が1,400ドル増えたと投稿している。マスク氏はxAIの創業者でもあり、第三者評価とは受け取れないが、控除の適用漏れを拾い上げる論理チェックとしてのAIは現時点でも一定の精度がある。
国際案件での複数法域の比較整理や、契約書の初稿作成にも向いている。いずれも「たたき台」と「査読」の役割に留まる範囲の話だ。
「あなたはこう主張すべき」という最終判断を下すことはできない。日本では弁護士法72条(非弁行為禁止)と税理士法52条により、個別具体的な法律・税務事務の有償提供が制限されている。この規制が問題になるのは「有償性」と「個別具体性」が揃った場合で、個人が自分の案件にAIを使う行為が直接規制されるわけではない。それでも裁判所や税務署は「AIがそう言ったから」という説明を聞かない。
国内の状況
法務AIは海外の話だけではない。国内でもLegalOn Technologiesが国内上場企業の30%超に導入され、グローバルで8,500社を超えている。MNTSQもAIエージェントを実装した契約管理プラットフォームを提供している。こうした法務特化の国内プレイヤーは弁護士監修のナレッジを組み込んでいる点でGrokとは設計思想が異なる。競合というより、用途が棲み分けられていく可能性が高い。
道具として使うということ
AIが実務を加速させる段階に入っている。それは認めていい。
問題は使い方だ。Grokが出した論点整理を弁護士に持ち込んで相談コストを下げるのと、Grokの回答をそのまま相手方に送るのでは、責任の所在がまるで違う。道具が高性能になるほど、その区別が曖昧になる。
「本物の道具が来た」としたら、それを本物として扱えるかどうかはユーザー側の問題になった。
読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。
いいなと思ったら応援しよう!
よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!




