Databricksは、”極めて”大きな賠償につながり得る著作者の著作権侵害主張をなかなか払拭できない

The Register / 2026/4/30

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Databricksは、著作者の著作権データを用いて学習されたとされるLLMに関わるとして、著作者側からの著作権侵害の主張をめぐる係争が続いている。
  • 係争中の裁判で、裁判官が追加の情報を繰り返し求めており、問題はまだ決着していない。
  • 著作者らは、この争いが「極めて」大きな損害賠償につながり得ると警告しており、Databricksにとっての潜在的な財務リスクが強調されている。
  • 主張の中心は、Databricksが問題となっている学習データに関連するLLMを買収した、という点にある。

Databricksは、作家の著作権主張(「並外れた」損害賠償につながり得る)からなかなか逃れられないようだ

作家側は、著作権で保護されたデータで学習されたLLMを取得したと主張しており、裁判官はより多くの情報を求め続けている

Wed 29 Apr 2026 // 18:05 UTC

Databricksは、自社のLLMを対象にした集団訴訟からなかなか逃れられないようだ。複数の書籍作家は、このLLMが、彼らの著作権で保護された書籍の海賊版が含まれるデータベースを使って作られたと主張しており、さらに全体で約196,000タイトルに及ぶという。

Databricksはこの訴訟の却下を求める動議を出していたが、先週、北カリフォルニアの米連邦地方裁判所で判事チャールズ・ブレイヤー(Charles Breyer)がこれを退けた。判事は、原告側には訴訟をデータ分析プラットフォームに対して継続するための根拠があると述べた。原告は作家グループで、ベストセラー作家や、ピューリッツァー賞の最終候補者も含まれている。

DatabricksのLLMはDBRXと呼ばれ、Databricksが2023年に買収したMosaicLMの一部を組み合わせて作られた。初期バージョンのこのモデルでは、Book3を含むRedPajamaというデータベースが使われていたが、その後、著作権侵害のためにHugging Faceから削除された。Databricksは本質的に、作家側がDBRXがBook3のデータで学習されたことを立証できないと主張しており、その趣旨で証言もしている。

Databricksは2023年7月にMosaicLMの買収を完了した。当時の声明でDatabricksは、Mosaicを「最先端のMPT大型言語モデルで知られる、主要な生成AIプラットフォーム」と呼んだ。MosaicLMは2023年5月に最初のMPTモデルをリリースし、ブログで、学習にRedPajamaデータセットを使用したと発表した。

返却形式: {"translated": "翻訳されたHTML"}

そして、2024年3月にDBRXモデルをリリースした際、ダッカブリックスは「DBRXの開発は、以前にMPTモデル群を構築していたMosaicチームが主導した」と述べた。この2つのステップがどれほど密接に結び付いていたかが争点となっている。

著者について語ると、ブレイヤー判事は判決文の中で「彼らは侵害した自らの著作物をDBRXに直接結び付けており、従業員の発言は文脈に照らして読むと裏付けとなる推論を提供している。特に、他のより直接的な発言と併せて見るとそうだ」と記した。

ダッカブリックスは、裁判所に対して「自分たちは何も不正をしていない」ことを示すために、14回の供述聴取(depositions)、数千ページの書類、テラバイト規模のディスカバリー情報を提出している。しかしブレイヤー判事はさらに多くを見たいと考えている、とブランダン・バトラーは語った。同氏は著作権弁護士であり、バランスの取れた著作権法を提唱する団体連合「Re:Create」の事務局長だ。

「ブレイヤー判事は基本的に、『実際に侵害するようなコピーを行ったかどうかを言うには、もっと分かる必要がある』と言っているんです」とバトラーはThe Registerに語った。「まだ十分に分かっていません。段階ごとに、彼らは物理的に何をしたのですか?」

バトラーは、著者らが侵害が故意(willful)だったと裁判所を説得できれば、ダッカブリックスに対する潜在的な損害賠償は非常に大きいと述べた。

「著作権法における損害賠償の規定は、Dを大文字にしたほど厳しいんです。つまり、非常識な(異常な)水準です。侵害された作品1件につき、最大で15万ドルまで、6桁の金額になる。彼はそう言っていました。これは会社賭けの訴訟です。もし彼らが勝てば、これらの企業のうちのいくつかに属するあらゆる資産を、ただ現金化してしまえるほどの損害賠償を得られるかもしれません。特に、ダッカブリックスのような中でも小規模なプレーヤーには、なおさらです」

これまでに複数の著者が訴訟に加わっており、その中にはヤングアダルトのベストセラー作家ジェイソン・レイノルズ、スチュアート・オナン、ブライアン・キーン、そして『The Great Believers』がピューリッツァー賞の最終候補だったレベッカ・マッカイが含まれている。

メタは昨年、LLAMAモデルの作成過程で著作権侵害を訴えられた書籍の著者らに対して、同様の訴訟で勝訴した。メタは、自分たちの行為は著作権法のフェアユースの規定によりカバーされるのだと主張した。アンソロピックも同様に勝訴したが、別件のケースで、フェアユースという主張が認められた(ただし、海賊版の書籍を取り込んでおり、著者を補償するための15億ドルの基金を設立することに合意していた)。

しかし、ダッカブリックスはまだその主張をしていない。

代わりに、ダッカブリックスの不成功に終わった申立てでは、著者らの訴状は「筋の通らない」ものであり、DBRXの学習に先立つ行為を含むのだとした。

「原告らの無理のある論理によれば、自動車会社が、特許の構成要素の有無に関わらず排気ガスの技術を実験したとして、のちにその構成要素を含まない自動車を製造した場合、その特許権者は、構成要素を含めないという判断に至った先行する実験に基づくだけで、非侵害となる自動車についてもなお侵害の主張(infringement claims)を行えることになります」とダッカブリックス側の弁護士は書いた。

著者らは、自分たちは裁判所に対して「自分たちの著作物が著作権で保護されており、その著作物がダッカブリックスによってコピーされた」ことを示せば十分だと主張している。

「ダッカブリックスは、DBRXモデルの開発の過程でBooks3を複数回コピーしており、そのことによって、主張された著作物に関する原告らの著作権を直接侵害しました」と、訴訟を提起した著者らは述べた。「被告らの論理によれば、AI企業がモデルの最終学習データセットに著作権のある書籍を組み込まない限り、それらを自由にダウンロードし、保存し、複製し、無期限に自社の利益のために海賊版作品を利用できるということになります。だが、その主張は順序が逆です」

バトラーは、ダッカブリックスが成功するためには、いくつかの道があると語った。第一に、フェアユースを主張できる。フェアユースは、同じ連邦裁判所で「勝てる主張」となってきた(この事件を審理しているのと同じ法廷である)とした。それは、米国のある判事が著者に不利な判断を下した件での勝訴例だという。第二には、著者らは損害を示せないので、訴えを提起する根拠がない、と主張することも考えられる。

「それはここで役に立つかもしれない主張で、要するに『当時のあの書籍の一連のことがどうなったとしても、それは一切日の目を見なかった。モデルには何の影響もなかった。単なるミスで、それを取り消した。文字どおり世界に何の影響も与えていない。じゃあなぜ私たちはここにいるのか? 裁判所の時間を無駄にしているだけではないか?』ということです。でも、彼らにはそれを証明する必要があり、それはまだ証明できていないと思います」と彼は述べた。®

Share

この記事について

ニュースをお知らせください

ニュースを送る