法務・税務AIはここまで来た〜Grok-4.20の実力

note / 4/12/2026

💬 OpinionSignals & Early TrendsIdeas & Deep Analysis

Read original →

共有:

Key Points

法務・税務領域でもLLMが実務的に使える水準まで到達していることを、Grok-4.20の性能観点から示している。
文章理解や参照を伴うタスクでの精度・実用性が、専門業務の補助に近づいている点が強調されている。
専門領域AIの進化により、調査・下書き・要約などの作業フローが効率化され得るという示唆がある。
技術の進歩が「法務・税務AIの実力」という形で、業務適用の現実味を増していることが論点になっている。

法務・税務AIはここまで来た〜Grok-4.20の実力

とある地方都市の某外科医

2026年4月11日 15:00

2026年4月、LMSYS Chatbot ArenaのLegal & Government部門でxAIのGrok-4.20が1位を獲得した。AnthropicのClaude 4.6 OpusやGoogleのGemini 3.1 Proを退けての結果で、AIが法務分野で何を変えつつあるかが、少し見えてきた。

LMSYS Chatbot Arenaは人間の評価者がモデルを対戦形式で比較するプラットフォームで、Legal部門は法律・行政文書に特化した設問で競わせる。「1位」とはその設問群に対して人間が最も支持した回答を出したという意味であり、汎用的な知性の順位ではない。

Grokが法務に強い理由

強さは知識量ではなく、推論の組み立て方にある。

内部で4つの専門エージェント（リーダー・調査・論理・反証）が独立して議論したうえで回答を生成する、いわゆるネイティブ・マルチエージェント構成を採っている。反証担当が内部で機能するということは、自分の回答に自分で突っ込みを入れる構造だ。法務推論で「相手方の反論を想定する」という作業を、モデル自身がある程度こなす。多角的な視点が求められる法務推論に、この設計が噛み合った。

非ハルシネーション率78%はArtificial AnalysisのOmniscienceテストでのスコアで、テスト済みモデル中最高値だ。5回に1回は誤りうる数字でもある。総合的な知性スコアではGemini 3.1 ProやGPT-5.4の57に対し48と劣っており、信頼性と推論力はトレードオフの関係にある。200万トークンの文脈長は、膨大な契約書や判例を一括で読み込める実用上の強みになる。

何ができて、何ができないか

イーロン・マスク氏がGrokでTurboTaxの結果を検証したところ、還付金が1,400ドル増えたと投稿している。マスク氏はxAIの創業者でもあり、第三者評価とは受け取れないが、控除の適用漏れを拾い上げる論理チェックとしてのAIは現時点でも一定の精度がある。

国際案件での複数法域の比較整理や、契約書の初稿作成にも向いている。いずれも「たたき台」と「査読」の役割に留まる範囲の話だ。

「あなたはこう主張すべき」という最終判断を下すことはできない。日本では弁護士法72条（非弁行為禁止）と税理士法52条により、個別具体的な法律・税務事務の有償提供が制限されている。この規制が問題になるのは「有償性」と「個別具体性」が揃った場合で、個人が自分の案件にAIを使う行為が直接規制されるわけではない。それでも裁判所や税務署は「AIがそう言ったから」という説明を聞かない。

国内の状況

法務AIは海外の話だけではない。国内でもLegalOn Technologiesが国内上場企業の30%超に導入され、グローバルで8,500社を超えている。MNTSQもAIエージェントを実装した契約管理プラットフォームを提供している。こうした法務特化の国内プレイヤーは弁護士監修のナレッジを組み込んでいる点でGrokとは設計思想が異なる。競合というより、用途が棲み分けられていく可能性が高い。