Kostki danych — Databricks

Databricks, Inc.
Rodzaj Prywatny
Przemysł Oprogramowania komputerowego
Założony 2013 ( 2013 )
Założyciele Ali Ghodsi , Andy Konwinski , Ion Stoica , Patrick Wendell, Reynold Xin , Matei Zaharia , Arsalan Tavakoli
Siedziba ,
Przychód Zwiększać 425 milionów dolarów (2021)
Liczba pracowników
2000
Strona internetowa databricks.com

Databricks to firma zajmująca się oprogramowaniem dla przedsiębiorstw założona przez twórców Apache Spark . Firma stworzyła także Delta Lake, MLflow i Koalas, open source projektów rozpiętość inżynieria danych , data scientist i Uczenia Maszynowego . Firma Databricks opracowuje platformę internetową do pracy z platformą Spark, która zapewnia zautomatyzowane zarządzanie klastrami i notatniki w stylu IPython . Oprócz budowy platformy Databricks, firma współorganizuje masowe otwarte kursy online o Sparku oraz prowadzi konferencję dla społeczności Spark – Data + AI Summit, wcześniej znaną jako Spark Summit.

Historia

Databricks wyrosło z projektu AMPLab na Uniwersytecie Kalifornijskim w Berkeley, który był zaangażowany w tworzenie Apache Spark , rozproszonej struktury obliczeniowej o otwartym kodzie źródłowym zbudowanej na bazie Scali . Firma została założona przez:

  • Ali Ghodsi , dyrektor generalny, adiunkt na Uniwersytecie Kalifornijskim w Berkeley.
  • Andy Konwiński, były student Berkeley PhD i Apache Spark committer .
  • Arsalan Tavakoli-Shiraji, były doktorant w Berkeley i współpracownik Apache Spark.
  • Ion Stoica , prezes zarządu Uniwersytetu Kalifornijskiego w Berkeley, profesor, współzałożyciel i CTO firmy Conviva .
  • Matei Zaharia , główny technolog, który stworzył Apache Spark będąc doktorem. kandydat na University of California w Berkeley, a następnie profesor na Uniwersytecie Stanforda .
  • Patrick Wendell, były doktorant w Berkeley i współpracownik Apache Spark.
  • Reynold Xin , były doktorant w Berkeley i współpracownik Apache Spark.

W listopadzie 2017 roku firma została ogłoszona jako pierwsza usługa na Microsoft Azure poprzez integrację Azure Databricks.

Firma opracowuje Delta Lake, projekt open source, którego celem jest zapewnienie niezawodności Data Lakes na potrzeby uczenia maszynowego i innych zastosowań związanych z nauką o danych.

W czerwcu 2020 r. Databricks nabyło Redash, narzędzie typu open source, które ma pomóc naukowcom i analitykom danych w wizualizacji i tworzeniu interaktywnych pulpitów nawigacyjnych ich danych.

W lutym 2021 r. Databricks nawiązała współpracę z Google Cloud , zapewniając integrację z Google Kubernetes Engine i platformą Google BigQuery . Firma Fortune uznała Databricks za jedno z najlepszych dużych „Miejsc pracy dla milenialsów” w 2021 r. W tym czasie firma poinformowała, że ​​ponad 5000 organizacji korzystało z jej produktów.

W sierpniu 2021 r. firma zakończyła ósmą rundę finansowania, pozyskując 1,6 miliarda dolarów i wyceniając Databricks na 38 miliardów dolarów, znacznie więcej niż wycena od 15 do 20 miliardów przeprowadzona przez konkurenta Broadcom of Databricks SAS Institute.

Finansowanie

We wrześniu 2013 r. Databricks ogłosił, że zebrał 13,9 miliona dolarów od Andreessena Horowitza i poinformował, że ma na celu zaoferowanie alternatywy dla systemu Google MapReduce . Microsoft był znanym inwestorem Databricks w 2019 roku, biorąc udział w serii E firmy w nieokreślonej kwocie. Firma pozyskała 1,9 miliarda dolarów finansowania, w tym 1 miliard dolarów Series G kierowaną przez Franklina Templetona przy wycenie 28 miliardów dolarów post-money w lutym 2021 roku. Inni inwestorzy to Amazon Web Services , CapitalG (spółka kapitałowa działająca pod firmą Alphabet, Inc. ). i Salesforce przedsięwzięcia.

Rundy finansowania
Seria Data Kwota (mln $) Główni inwestorzy
A 2013 13,9 Andreessen Horowitz
b 2014 33 Nowi partnerzy korporacyjni
C 2016 60 Nowi partnerzy korporacyjni
D 2017 140 Andreessen Horowitz
mi Luty 2019 250 Andreessen Horowitz
F Październik 2019 400 Andreessen Horowitz
g Styczeń 2021 1000 Franklin Templeton Investments
h sierpień 2021 1600 Morgan Stanley

Produkty

Databricks opracowuje i sprzedaje platformę danych w chmurze, używając terminu marketingowego „lakehouse”, czyli portmanteau opartego na terminach „ hurtownia danych ” i „ jezioro danych ”. Lakehouse firmy Databricks jest oparty na platformie Apache Spark o otwartym kodzie źródłowym, która umożliwia wykonywanie zapytań analitycznych dotyczących częściowo ustrukturyzowanych danych bez tradycyjnego schematu bazy danych .

Delta Engine firmy Databricks został wprowadzony na rynek w czerwcu 2020 r. jako nowy silnik zapytań, który nakłada się na Delta Lake w celu zwiększenia wydajności zapytań. Jest kompatybilny z Apache Spark i MLflow, które są również projektami open source firmy Databricks.

W listopadzie 2020 r. firma Databricks wprowadziła rozwiązanie Databricks SQL (wcześniej znane jako SQL Analytics), które umożliwia użytkownikom uruchamianie analiz biznesowych i raportów analitycznych bezpośrednio w jeziorach danych. Analitycy mogą wysyłać zapytania do zestawów danych bezpośrednio za pomocą standardowego SQL lub używać łączników produktów do bezpośredniej integracji z narzędziami analizy biznesowej, takimi jak Tableau , Qlik , Looker i ThoughtSpot .

Firmy używają Databricks jako scentralizowanej platformy do obsługi obciążeń danych, takich jak uczenie maszynowe, przechowywanie i przetwarzanie danych, analiza strumieniowa i inteligencja biznesowa.

Operacje

Databricks ma siedzibę w San Francisco . Prowadzi również działalność w Kanadzie, Wielkiej Brytanii, Holandii, Singapurze, Australii, Niemczech, Francji, Japonii, Chinach i Indiach.

Bibliografia