Sparkのクリエイター、ビッグデータをもう少しだけ小さくすることにより計算の鐘を受ける
ACM、Databricks共同創業者のMatei Zahariaに250Kドルの賞を授与
ACMの計算賞は、その研究が幅広く、かつ持続的な影響を与えた、キャリアの初期〜中期段階のコンピューター科学者を表彰するものです。この賞には250,000ドルの賞金が付与され、資金提供は、テックサービスおよびコンサルティング会社Infosysのエンドowment(基金)によって行われます。
Zahariaが現時点でそのお金を必要としているかといえば、多くの人がそうは言わないでしょう。UCLバークレーでの博士課程の一環として、ZahariaがApache Sparkを開発したのち、彼はDatabricksを共同創業しました。DatabricksはSparkやその他の技術をベースにした分析および機械学習のプラットフォームを提供しています。同社の推定価値は1,300億ドルです。
ZahariaはDelta Lakeを含む、他にも多数のオープンソース・プロジェクトの開発に貢献してきました。Delta LakeはLinux Foundationによって統治されるオープンソースのストレージ基盤です。またMLflowは、機械学習のライフサイクル向けのオープンソース・プラットフォームです。
しかし、彼が最もよく知られているのはApache Sparkです。これは機械学習および分析のコミュニティで広く採用されています。SnowflakeやClouderaのような主要クラウド提供事業者やデータプラットフォームから利用できます。
The Register とのインタビューで、Zahariaは、分散コンピューティングに対する新しいアプローチをどのようにして開発し、メモリをより確実に活用して計算を加速させたのかを説明しました。また、いわゆる「ビッグデータ」向けの計算を、新たな利用者層にまで広げることにもつながりました。
ザハリアが2010年ごろにSparkの開発に取りかかったとき、「ビッグデータ」を分析することは、一般的には、Hadoop分散ファイルシステム上で動作するJavaベースのプログラミングモデルであるMapReduceを使い、さらにかなりのソフトウェア工学を要する、という意味でした。
- Snowflakeは独自の分析エンジン向けにSparkクライアントを構築
- Apache Sparkがテック業界を明るく照らし、ビッグデータ界の仲間たちを上回った方法
- DatabricksがVCの資金ツリーを揺さぶり、5億ドルが落ちてくる
- Sparkを置き去りにして、Databricksは2021年のIPOを見据え新たな領域へ踏み出す
たとえば、ザハリアは、機械学習のためにビッグデータを使い、未知のウイルスを発見している研究者たちから着想を得ました。「これらは本当に興味深いユースケースです。彼らが座ってJavaを学び、何週間もかけてアプリケーションを作るようなことにはならないでしょう。私たちは、彼らが自分のやるべきことをできるだけ簡単に行えるようにしたかったんです」と彼は語りました。
訴求範囲を広げるための計画の一部として、新しいプログラミング言語を導入することがありました。Javaに加えて、ユーザーはScala、統計言語R、C#、そして機械学習で広く普及している高水準の汎用言語であるPythonで作業できます。事実上のデータベース言語の標準であるSQLは、2014年に追加されました。
ACM会長のYannis Ioannidisは、ザハリアの仕事が、大規模な環境でデータが使われる方法に永続的な影響を与えたと述べました。「それ以前のシステムにおける重要な制約に取り組むことで、彼はデータ分析、機械学習、そして人工知能のための標準的なツールとして、急速に定着していった技術を開発しました。Mateiのオープンソースの思想が不可欠だったのです。彼はこれらのツールを誰もが利用できるようにしました。彼の貢献は、研究と業界の双方において今も影響を与え続けています。AIシステムに関する彼の現在の取り組みが、次に私たちをどこへ連れていくのかを楽しみにしています。」
Databricksで働いていることに加えて、ザハリアはDSPyやGEPAを含む最近のオープンソースの研究も共同執筆しており、これらは特定のタスクに対してAIエージェントの品質を向上させるために、プロンプトとモデルを最適化することに焦点を当てています。彼はMITやスタンフォードで学術的な役職を務め、現在はカリフォルニア大学バークレー校でコンピュータサイエンスの准教授です。 ®




