close

Systém souborů Google

Přejít na navigaci Přejít na hledání
Systém souborů Google
Obecná informace
typ programu distribuovaný souborový systém
vývojář Google Inc.
Objevitel Howard Gobioff
Licence majitel
Skutečný stav Aktivní
Verze
Nejnovější stabilní verze kolos ()
historie verzí ? -> BigFiles -> Colossus

Google File System , v angličtině Google File System ( GFS , GooFS nebo GoogleFS ), je proprietární distribuovaný souborový systém vyvinutý společností Google Inc , který podporuje veškerou její infrastrukturu pro zpracování informací v cloudu. [ 1 ] Je speciálně navržen tak, aby poskytoval efektivní a spolehlivý přístup k datům pomocí masivně paralelních systémů clusteru zpracování. Aktuální verze systému souborů Google má kódové označení Colossus . [ 2 ]

design

Image
Systém souborů Google. Navrženo pro interakci systém-systém a nikoli interakci mezi uživateli . Cluster serverů replikuje informace automaticky.

GooFS je souborový systém , který je optimalizován společností Google pro základní potřeby ukládání a používání dat (zejména vyhledávač ) a může generovat obrovské množství dat, která je třeba udržovat, aby se optimalizovala následující odezva; [ 3 ] Současný souborový systém vznikl jako vylepšení BigFiles , který vyvinuli Larry Page a Sergey Brin na začátku Google , když studovali na Stanfordu. [ 4 ] Soubory jsou rozděleny na pevné části o velikosti 64 megabajtů, [ 5 ] podobně jako shluky nebo sektory na tradičních pevných discích , kde se soubory jen zřídka přepisují nebo zmenšují, přidávají se nebo čtou. Je také navržen a optimalizován pro práci se serverovými clustery Google, vysoce souběžnými uzly složenými z levných počítačů, kde je třeba přijmout opatření proti vysoké poruchovosti v důsledku přetížení jednotlivých uzlů a tím i pravděpodobné ztráty některých dat. Další body návrhu jsou zaměřeny na zvládnutí vysoké datové propustnosti a dokonce na řešení problémů s latencí .

Cluster GooFS se skládá z více uzlů. Ty jsou rozděleny do dvou tříd: hlavní uzel a velký počet chunk store nebo Chunkservers . Soubory jsou rozděleny do bloků pevné velikosti, servery Chunkservery ukládají bloky, každému bloku je přiřazen jedinečný 64bitový ID tag na hlavním uzlu, když je vytvořen, a uzel Master si uchovává mapování. Každá část je zase replikována na nejméně třech serverech v cloudu, ale existují i ​​soubory, které vyžadují větší redundanci kvůli jejich enormní poptávce.

Programy přistupují k řezům prostřednictvím dotazů do hlavního uzlu, aby lokalizovaly umístění požadovaných bloků, pokud řezy nejsou aktivní (například pokud nemají čekající přístup k úložišti), hlavní uzel odpoví, kde jsou umístěná, aplikace kontaktuje a přijímá data přímo z hostitelského uzlu (je to jako, jak fungují sítě Kazaa , Skype a další typy superuzlů )

Hlavní rozdíl mezi ostatními systémy souborů je v tom, že GooFS není implementován v jádře operačního systému , ale funguje jako knihovna v uživatelském prostoru .

Výkon

Pro rozhodnutí o jeho implementaci je třeba provést dobře zaměřenou analýzu výsledků jeho srovnávacího vyhodnocení, [ 6 ] protože při použití s ​​relativně malým počtem serverů (asi 15) dosahuje souborový systém výkonu pouze čtení srovnatelný s jedním klasickým diskem (80 až 100 MB/s), ale má poměrně nízký výkon zápisu (30 MB/s) a je relativně pomalý (5 MB/s) pro přidávání dat do stávajících soubory (časové výsledky náhodných vyhledávání autoři neuvádějí). Vzhledem k tomu, že hlavní uzel není přímo zapojen do čtení dat (data jsou přenášena z blokového serveru přímo do čtecího klienta), rychlost čtení výrazně roste s počtem chunk serverů a dosahuje 583 MB/s pro 342 uzlů. Zvýšení velkého počtu serverů také umožňuje rychlejší doby odezvy, které se také prodlužují ukládáním kopií dat na tři samostatné servery (pro zajištění redundance).

Viz také

Reference

  1. „Ačkoli jsou k dispozici všechny podrobnosti o technologii, kterou implementuje, Google neuvolnil žádný zdrojový kód ani nevyvinul software pro bezplatné veřejné použití, jediný způsob, jak jej využít k získání přístupu k této vysoce výkonné implementaci, je stát se firemní zákazník Google Search Appliance, jehož prostřednictvím si Google pronajímá racky clusterových serverů, které implementují technologii.“ http://www.baselinemag.com/article2/0,1540,1985050,00.asp „Jak Google funguje“]
  2. Vysoká škálovatelnost: Google Colossus umožňuje vyhledávání v reálném čase tím, že ukládá MapReduce
  3. "Všechny tyto analýzy vyžadují velké množství úložného prostoru. Když byly ještě ve Stanfordu, samotné úložiště webových dokumentů mělo 148 gigabajtů, později bylo kompresí souborů sníženo na 54 gigabajtů a celkové požadované úložiště, včetně indexů a databáze odkazů , bylo to asi 109 gigabajtů, což se v dnešní době, kdy mluvíme o průměrných 500 gigabajtových discích pro notebooky, nezdá být moc, ale na konci 90. let 20. století disky pro PC sotva přesáhly všech 10 gigabajtů." „Jak Google funguje“ .
  4. "Pro vyřešení těchto požadavků Page a Brin vyvinuli virtuální souborový systém, který spravuje pevné disky na více počítačích jako jeden úložný systém. Nazvali ho BigFiles . Místo toho, aby byly soubory uloženy na konkrétním počítači, jsou uloženy v BigFiles, poskytuje část úložného prostoru na jednom z počítačů v clusteru serverů a přiděluje mu počítač pro správu, přičemž na každém počítači udržuje seznam úložiště souborů. To je základ toho, co se v podstatě stalo softwarovou infrastrukturou pro distribuované výpočty , které také běží nad GNU/Linuxem ." „Jak Google funguje“
  5. "Systémem spravované soubory se obvykle pohybují od 100 megabajtů do několika gigabajtů. Aby bylo možné efektivně spravovat místo na disku, GooFS organizuje data do 64megabajtových "kusů", které jsou analogické "blokům", ve kterých je konvenční souborový systém fragmentován aby ji mohla datová jednotka spravovat. Pro srovnání, typická velikost „datového bloku“ v Linuxu je 4 096 bajtů. Příkladem tohoto srovnání je rozdíl mezi tím, že obsahuje několik bloků dostatečně velkých na uložení několika stránek textu, a obsahující několik polic plných obrovských vícesvazkových knih." „Jak Google funguje“
  6. Ghemawat Sanjay, Gobioff Howard a Shun-Tak Leung. "Systém souborů Google"

Externí odkazy