Virtualizace úložiště - Storage virtualization
Ve vědě o počítačích , virtualizace storage je „proces předkládání logického pohledu fyzických úložných prostředků na“ počítačový systém hostitele, „léčení všechny paměťová média (pevný disk, optický disk, pásky, atd.) V podniku jako singl skladiště. “
A „skladovacího zařízení“ je také známý jako paměťové matice, diskové pole , nebo filer . Úložné systémy obvykle používají speciální hardware a software spolu s diskovými jednotkami, aby zajistily velmi rychlé a spolehlivé úložiště pro výpočetní techniku a zpracování dat. Úložné systémy jsou složité a lze je považovat za počítač zvláštního určení navržený k poskytování úložné kapacity spolu s pokročilými funkcemi ochrany dat. Diskové jednotky jsou pouze jedním prvkem v úložném systému spolu s hardwarem a speciálním softwarem zabudovaným do systému.
Úložné systémy mohou poskytovat buď blokové úložiště, nebo souborové úložiště. Blokový přístup se obvykle dodává přes protokoly Fibre Channel , iSCSI , SAS , FICON nebo jiné. Přístup k souborům se často poskytuje pomocí protokolů NFS nebo SMB .
V kontextu úložného systému mohou nastat dva primární typy virtualizace:
- Virtualizace bloků použitá v této souvislosti odkazuje na abstrakci (oddělení) logického úložiště (oddílu) od fyzického úložiště, takže k němu lze přistupovat bez ohledu na fyzické úložiště nebo heterogenní strukturu. Toto oddělení umožňuje správcům úložného systému větší flexibilitu při správě úložiště pro koncové uživatele.
- Virtualizace souborů řeší problémy NAS tím, že eliminuje závislosti mezi daty přístupnými na úrovni souborů a umístěním, kde jsou soubory fyzicky uloženy. To poskytuje příležitosti k optimalizaci využití úložiště a konsolidaci serveru a k provádění nerušivých migrací souborů.
Blokovat virtualizaci
Přemapování adresního prostoru
Virtualizace úložiště pomáhá dosáhnout nezávislosti na umístění abstrahováním fyzického umístění dat. Virtualizační systém představuje uživateli logický prostor pro ukládání dat a zpracovává proces jeho mapování do skutečného fyzického umístění.
Je možné mít více vrstev virtualizace nebo mapování. Potom je možné, že výstup jedné vrstvy virtualizace lze poté použít jako vstup pro vyšší vrstvu virtualizace. Virtualizace mapuje prostor mezi back-end prostředky na front-end zdroje. V tomto případě „back-end“ označuje číslo logické jednotky (LUN), které není prezentováno počítači nebo hostitelskému systému pro přímé použití. „Front-end“ LUN nebo svazek je prezentován hostitelskému nebo počítačovému systému pro použití.
Skutečná podoba mapování bude záviset na zvolené implementaci. Některé implementace mohou omezit granularitu mapování, což může omezit možnosti zařízení. Typické podrobnosti se pohybují od jednoho fyzického disku až po malou podmnožinu fyzického disku (násobky megabajtů nebo gigabajtů).
V prostředí úložiště založeného na blocích je jeden blok informací adresován pomocí identifikátoru LUN a posunu v rámci tohoto LUN - známého jako adresování logického bloku (LBA).
Metadata
Virtualizační software nebo zařízení je zodpovědné za udržování konzistentního zobrazení všech mapovacích informací pro virtualizované úložiště. Tyto mapovací informace se často nazývají metadata a ukládají se jako mapovací tabulka.
Adresní prostor může být omezen kapacitou potřebnou k údržbě mapovací tabulky. Úroveň podrobnosti a celkový adresovatelný prostor mají přímý dopad na velikost metadat, a tedy i na mapovací tabulku. Z tohoto důvodu je běžné mít kompromisy mezi velikostí adresovatelné kapacity a granularitou nebo granularitou přístupu.
Jednou z běžných metod řešení těchto limitů je použití více úrovní virtualizace. V několika dnes nasazených úložných systémech je běžné využívat tři vrstvy virtualizace.
Některé implementace nepoužívají mapovací tabulku a místo toho vypočítávají umístění pomocí algoritmu. Tyto implementace využívají dynamické metody k výpočtu umístění v přístupu, místo aby ukládaly informace do mapovací tabulky.
Přesměrování I / O
Virtualizační software nebo zařízení používá metadata k přesměrování I / O požadavků. Přijme příchozí I / O požadavek obsahující informace o umístění dat z hlediska logického disku (vdisk) a převede jej na nový I / O požadavek do umístění fyzického disku.
Například virtualizační zařízení může:
- Přijmout požadavek na čtení pro vdisk LUN ID = 1, LBA = 32
- Proveďte vyhledávání metadat pro LUN ID = 1, LBA = 32 a vyhledejte tyto mapy na fyzické LUN ID = 7, LBA0
- Odešle požadavek na čtení fyzické ID LUN = 7, LBA0
- Přijímá data zpět z fyzické LUN
- Odešle data zpět původci, jako by pocházela z vdisk LUN ID = 1, LBA32
Schopnosti
Většina implementací umožňuje heterogenní správu úložných zařízení s více dodavateli v rámci matice podpory dané implementace. To znamená, že následující funkce nejsou omezeny na zařízení jednoho dodavatele (jako u podobných funkcí poskytovaných konkrétními řadiči úložiště) a jsou ve skutečnosti možné na zařízeních různých dodavatelů.
Replikace
Techniky replikace dat se neomezují pouze na virtualizační zařízení a jako takové zde nejsou podrobně popsány. Většina implementací však poskytne některé nebo všechny tyto replikační služby.
Když je úložiště virtualizováno, replikační služby musí být implementovány nad software nebo zařízení, které provádí virtualizaci. To je pravda, protože pouze nad vrstvu virtualizace lze kopírovat věrný a konzistentní obraz logického disku (vdisk). To omezuje služby, které mohou některé implementace implementovat - nebo je jejich implementace vážně obtížná. Pokud je virtualizace implementována v síti nebo vyšší, jsou všechny služby replikace poskytované základními řadiči úložiště zbytečné.
- Vzdálená replikace dat pro zotavení po katastrofě
- Synchronní zrcadlení - kde dokončení I / O je vráceno pouze v případě, že vzdálený server potvrzuje dokončení. Použitelné na kratší vzdálenosti (<200 km)
- Asynchronous Mirroring - kde je I / O dokončení vráceno dříve, než vzdálený web potvrdí dokončení. Použitelné pro mnohem větší vzdálenosti (> 200 km)
- Momentové snímky ke kopírování nebo klonování dat pro různá použití
- V kombinaci s tenkým zajišťováním umožňuje snímky efektivní z hlediska prostoru
Sdružování
Prostředky fyzického úložiště jsou agregovány do fondů úložišť, ze kterých je vytvořeno logické úložiště. Podle potřeby lze přidat více úložných systémů, které mohou mít heterogenní povahu, a virtuální úložný prostor se zvětší o stejné množství. Tento proces je plně transparentní pro aplikace využívající infrastrukturu úložiště.
Správa disků
Software nebo zařízení poskytující virtualizaci úložiště se ve virtualizovaném prostředí stává běžným správcem disků. Logické disky (vdisks) jsou vytvářeny virtualizačním softwarem nebo zařízením a jsou mapovány (zviditelněny) na požadovaného hostitele nebo server, což poskytuje společné místo nebo způsob správy všech svazků v prostředí.
V tomto prostředí lze snadno poskytnout vylepšené funkce:
- Thin Provisioning pro maximalizaci využití úložiště
- Toto je relativně snadné implementovat, protože fyzické úložiště je v mapovací tabulce přiděleno pouze při jeho použití.
- Rozšíření a zmenšení disku
- Více fyzického úložiště lze přidělit přidáním do mapovací tabulky (za předpokladu, že se tento systém dokáže vyrovnat s online rozšířením)
- Podobně lze zmenšit velikost disků odstraněním určitého fyzického úložiště z mapování (použití pro toto je omezené, protože neexistuje záruka toho, co se nachází v odstraněných oblastech)
Výhody
Nerušivá migrace dat
Jednou z hlavních výhod abstrakce hostitele nebo serveru od skutečného úložiště je schopnost migrovat data při zachování souběžného I / O přístupu.
Hostitel ví pouze o logickém disku (namapovaný LUN), a proto jsou všechny změny v mapování metadat transparentní pro hostitele. To znamená, že skutečná data lze přesunout nebo replikovat do jiného fyzického umístění, aniž by to ovlivnilo fungování jakéhokoli klienta. Když byla data zkopírována nebo přesunuta, lze metadata jednoduše aktualizovat tak, aby odkazovala na nové umístění, čímž se uvolní fyzické úložiště ve starém umístění.
Proces přesunu fyzického umístění se nazývá migrace dat . Většina implementací umožňuje, aby to bylo provedeno nerušivým způsobem, to znamená současně, zatímco hostitel pokračuje v provádění I / O na logický disk (nebo LUN).
Granularita mapování určuje, jak rychle lze aktualizovat metadata, kolik další kapacity je potřeba během migrace a jak rychle je předchozí umístění označeno jako volné. Čím menší granularita, tím rychlejší aktualizace, méně místa a rychlejší uvolnění starého úložiště.
Správce úložiště musí provádět mnoho každodenních úkolů, které lze jednoduše a souběžně provádět pomocí technik migrace dat.
- Přesouvání dat z nadměrně využívaného úložného zařízení.
- Přesun dat na rychlejší úložné zařízení podle potřeby
- Implementace zásad správy životního cyklu informací
- Migrace dat ze starších úložných zařízení (buď sešrotována, nebo vypůjčena)
Vylepšené využití
Využití lze zvýšit na základě služeb sdružování, migrace a tenkého zajišťování. To umožňuje uživatelům vyhnout se nadměrnému nákupu a nadměrnému zajišťování řešení úložiště. Jinými slovy, tento druh využití prostřednictvím sdíleného fondu úložiště lze snadno a rychle přidělit, protože je to nutné, aby se zabránilo omezením kapacity úložiště, která často brání výkonu aplikace.
Když se spojí veškerá dostupná kapacita úložiště, správci systému již nebudou muset hledat disky, které mají volné místo k přidělení konkrétnímu hostiteli nebo serveru. Nový logický disk lze jednoduše přidělit z dostupného fondu nebo lze rozšířit existující disk.
Sdružování také znamená, že lze potenciálně využít veškerou dostupnou úložnou kapacitu. V tradičním prostředí by byl celý disk namapován na hostitele. To může být větší, než je požadováno, a tak ztrácet místo. Ve virtuálním prostředí je logickému disku (LUN) přidělena kapacita požadovaná hostitelským hostitelem.
Úložiště lze přiřadit tam, kde je to v daném okamžiku potřeba, což snižuje potřebu hádat, kolik bude daný hostitel v budoucnu potřebovat. Pomocí Thin Provisioning může administrátor vytvořit velmi velký tenký zajišťovaný logický disk, takže si systém, který používá, myslí, že má velmi velký disk od prvního dne.
Méně bodů řízení
Díky virtualizaci úložiště se několik nezávislých úložných zařízení, i když jsou rozptýleny po síti, jeví jako jedno monolitické úložné zařízení a lze je spravovat centrálně.
Tradiční správa řadiče úložiště je však stále vyžadována. To znamená, vytváření a údržba polí RAID , včetně správy chyb a poruch.
Rizika
Zálohování neúspěšné implementace
Jakmile je abstrakční vrstva na místě, ví pouze virtualizátor, kde se data ve skutečnosti nacházejí na fyzickém médiu. Zálohování z prostředí virtuálního úložiště proto vyžaduje rekonstrukci logických disků jako souvislých disků, které lze použít tradičním způsobem.
Většina implementací poskytne určitou formu zpětného postupu a se službami migrace dat je to přinejmenším možné, ale časově náročné.
Interoperabilita a podpora prodejců
Interoperabilita je klíčovým předpokladem pro jakýkoli virtualizační software nebo zařízení. Vztahuje se na skutečné řadiče fyzického úložiště a hostitele, jejich operační systémy, multi-pathing software a hardware pro připojení.
Požadavky na interoperabilitu se liší podle zvolené implementace. Například virtualizace implementovaná v řadiči úložiště nepřidává žádné další režijní náklady na interoperabilitu založenou na hostiteli, ale bude vyžadovat další podporu jiných řadičů úložiště, pokud mají být virtualizovány stejným softwarem.
Virtualizace založená na přepínání nemusí vyžadovat specifickou interoperabilitu hostitele - pokud k přesměrování I / O používá techniky prolomení paketů.
Síťová zařízení mají nejvyšší úroveň požadavků na interoperabilitu, protože musí spolupracovat se všemi zařízeními, úložišti a hostiteli.
Složitost
Složitost ovlivňuje několik oblastí:
- Správa prostředí: Ačkoli infrastruktura virtuálního úložiště těží z jediného bodu správy logického disku a služby replikace, fyzické úložiště musí být stále spravováno. Určení problému a izolace poruchy se také mohou stát složitými kvůli abstrakční vrstvě.
- Návrh infrastruktury: Tradiční etika designu již nemusí platit, virtualizace přináší celou řadu nových nápadů a konceptů k zamyšlení (jak je podrobně uvedeno zde)
- Samotný software nebo zařízení: Některé implementace jsou složitější z hlediska návrhu a kódování - zejména v síti, zejména v pásmových (symetrických) vzorech - tyto implementace ve skutečnosti zpracovávají I / O požadavky, takže latence se stává problémem.
Správa metadat
Informace jsou jedním z nejcennějších aktiv v dnešním obchodním prostředí. Po virtualizaci jsou metadata lepidlem uprostřed. Pokud dojde ke ztrátě metadat, dojde také ke ztrátě všech skutečných dat, protože by bylo prakticky nemožné rekonstruovat logické jednotky bez mapovacích informací.
Jakákoli implementace musí zajistit její ochranu s odpovídajícími úrovněmi záloh a replik. Je důležité být schopen rekonstruovat metadata v případě katastrofického selhání.
Správa metadat má také dopad na výkon. Jakýkoli virtualizační software nebo zařízení musí být schopné uchovat všechny kopie metadat atomické a rychle aktualizovatelné. Některé implementace omezují schopnost poskytovat určité funkce rychlé aktualizace, jako jsou kopie point-in-time a ukládání do mezipaměti, kde jsou vyžadovány super rychlé aktualizace, aby byla zajištěna minimální latence skutečného prováděného I / O.
Výkon a škálovatelnost
V některých implementacích lze výkon fyzického úložiště skutečně zlepšit, hlavně kvůli ukládání do mezipaměti. Ukládání do mezipaměti však vyžaduje viditelnost dat obsažených v požadavku I / O, a proto je omezeno na interní a symetrický virtualizační software a zařízení. Tyto implementace však také přímo ovlivňují latenci I / O požadavku (mezipaměť chybí), kvůli tomu, že I / O musí procházet softwarem nebo zařízením. Za předpokladu, že je software nebo zařízení navrženo efektivně, měl by být tento dopad minimální ve srovnání s latencí spojenou s přístupy na fyzický disk.
Vzhledem k povaze virtualizace vyžaduje mapování logické na fyzickou určitou výkonnost a vyhledávací tabulky. Proto každá implementace přidá nějaké malé množství latence.
Kromě obav z doby odezvy je třeba vzít v úvahu i propustnost. Šířka pásma do a z vyhledávacího softwaru metadat přímo ovlivňuje dostupnou šířku pásma systému. V asymetrických implementacích, kde k vyhledávání metadat dochází před přečtením nebo zápisem informací, je šířka pásma méně důležitá, protože metadata jsou malým zlomkem skutečné velikosti I / O. V pásmu je symetrický tok návrhem přímo omezen jejich zpracovatelským výkonem a šířkou pásma připojení.
Většina implementací poskytuje určitou formu škálovatelného modelu, kde zahrnutí dalšího softwaru nebo instancí zařízení poskytuje zvýšenou škálovatelnost a potenciálně zvýšenou šířku pásma. Vlastnosti výkonu a škálovatelnosti jsou přímo ovlivněny zvolenou implementací.
Implementační přístupy
- Na základě hostitele
- Na základě úložného zařízení
- Síťové
Na základě hostitele
Virtualizace založená na hostiteli vyžaduje další software spuštěný na hostiteli jako privilegovaný úkol nebo proces. V některých případech je správa svazků integrována do operačního systému a v jiných případech je nabízena jako samostatný produkt. Svazky (LUN) prezentované hostitelskému systému jsou zpracovávány tradičním ovladačem fyzického zařízení. Softwarová vrstva (správce svazků) se však nachází nad ovladačem diskového zařízení, který zachycuje požadavky I / O a poskytuje vyhledávání metadat a mapování I / O.
Většina moderních operačních systémů má zabudovanou nějakou formu správy logických svazků (v Linuxu s názvem Logical Volume Manager nebo LVM; v Solaris a FreeBSD, vrstva zpFS ZFS ; ve Windows s názvem Logical Disk Manager nebo LDM), která provádí virtualizační úlohy.
Poznámka: Hostitelští správci svazků se používali dlouho před vytvořením termínu virtualizace úložiště .
Profesionálové
- Jednoduchý design a kód
- Podporuje jakýkoli typ úložiště
- Vylepšuje využití úložiště bez omezení tenkého zajišťování
Nevýhody
- Využití úložiště optimalizováno pouze na základě jednotlivých hostitelů
- Replikace a migrace dat jsou k tomuto hostiteli možné pouze místně
- Software je pro každý operační systém jedinečný
- Žádný snadný způsob, jak synchronizovat instance hostitele s jinými instancemi
- Tradiční obnovení dat po zhroucení diskové jednotky serveru je nemožné
Konkrétní příklady
- Technologie:
- Logická správa svazků
- Systémy souborů , např. ( Pevné odkazy , SMB / NFS )
- Automatická montáž, např. ( Autofs )
Na základě úložného zařízení
Stejně jako virtualizace založená na hostiteli existuje několik let několik kategorií a teprve nedávno byly klasifikovány jako virtualizace. Jednoduchá zařízení pro ukládání dat, jako jsou jednotlivé pevné disky , neposkytují žádnou virtualizaci. Ale i ta nejjednodušší disková pole poskytují logickou až fyzickou abstrakci, protože pomocí schémat RAID spojují více disků v jednom poli (a případně jej později rozdělí na menší svazky).
Pokročilá disková pole často obsahují klonování, snímky a vzdálenou replikaci. Obecně tato zařízení neposkytují výhody migrace nebo replikace dat napříč heterogenním úložištěm, protože každý prodejce má tendenci používat své vlastní proprietární protokoly.
Nové plemeno řadičů diskových polí umožňuje následné připojení dalších úložných zařízení. Pro účely tohoto článku budeme diskutovat pouze o pozdějším stylu, který ve skutečnosti virtualizuje další úložná zařízení.
Pojem
Primární řadič úložiště poskytuje služby a umožňuje přímé připojení dalších řadičů úložiště. V závislosti na implementaci mohou být od stejného nebo jiného dodavatele.
Primární řadič bude poskytovat služby sdružování a správy metadat. Může také poskytovat služby replikace a migrace napříč řadiči, kterými je.
Profesionálové
- Žádné další požadavky na hardware nebo infrastrukturu
- Poskytuje většinu výhod virtualizace úložiště
- Nepřidává latenci k jednotlivým I / O
Nevýhody
- Využití úložiště optimalizované pouze pro připojené řadiče
- Replikace a migrace dat jsou možné pouze pro připojené řadiče a zařízení stejného dodavatele pro podporu na velké vzdálenosti
- Upevnění následného řadiče omezeno na matici podpory prodejců
- Latence I / O, zásahy bez mezipaměti vyžadují, aby primární řadič úložiště vydal sekundární požadavek I / O po proudu
- Zvýšení prostředků infrastruktury úložiště vyžaduje primární řadič úložiště stejnou šířku pásma jako sekundární řadiče úložiště, aby udržoval stejnou propustnost
Síťové
Virtualizace úložiště fungující na síťovém zařízení (obvykle na standardním serveru nebo inteligentním přepínači) a pro připojení jako SAN pomocí sítí iSCSI nebo FC Fibre Channel . Tyto typy zařízení jsou nejčastěji dostupnou a implementovanou formou virtualizace.
Virtualizační zařízení sedí v SAN a poskytuje vrstvu abstrakce mezi hostiteli provádějícími I / O a řadiči úložiště poskytující kapacitu úložiště.
Profesionálové
- Skutečná heterogenní virtualizace úložiště
- Ukládání dat do mezipaměti (výkonnostní výhoda) je možné, pokud jsou v pásmu
- Jediné rozhraní pro správu pro všechna virtualizovaná úložiště
- Replikační služby napříč heterogenními zařízeními
Nevýhody
- Komplexní matice interoperability - omezené podporou prodejců
- Je obtížné implementovat rychlé aktualizace metadat v přepínaných zařízeních
- Mimo pásmo vyžaduje konkrétní software založený na hostiteli
- V pásmu může I / O přidat latenci
- In-band nejkomplikovanější design a kód
Na základě zařízení vs. na základě přepínačů
Existují dvě běžně dostupné implementace síťové virtualizace úložiště, na základě zařízení a na základě přepínačů . Oba modely mohou poskytovat stejné služby, správu disků, vyhledávání metadat, migraci dat a replikaci. K poskytování těchto služeb oba modely také vyžadují určitý hardware pro zpracování.
Zařízení založená na zařízení jsou vyhrazená hardwarová zařízení, která poskytují připojení SAN v té či oné podobě. Ty sedí mezi hostiteli a úložištěm a v případě pásmových (symetrických) zařízení mohou poskytovat všechny výhody a služby popsané v tomto článku. I / O požadavky jsou zaměřeny na samotné zařízení, které provádí mapování metadat před přesměrováním I / O odesláním vlastního I / O požadavku do podkladového úložiště. Zařízení v pásmu může také poskytovat ukládání dat do mezipaměti a většina implementací poskytuje určitou formu shlukování jednotlivých zařízení k udržení atomového zobrazení metadat i dat mezipaměti.
Zařízení založená na přepínači, jak název napovídá, jsou umístěna ve fyzickém hardwaru přepínače používaném k připojení zařízení SAN. Tito také sedí mezi hostiteli a úložištěm, ale mohou použít různé techniky k poskytnutí metadatového mapování, jako je cracking paketů, aby se zachytily příchozí I / O požadavky a provedlo I / O přesměrování. Je mnohem obtížnější zajistit atomické aktualizace metadat v přepnutém prostředí a služby vyžadující rychlé aktualizace dat a metadat mohou být v přepínaných implementacích omezeny.
V pásmu vs. mimo pásmo
In-band , také známý jako symetrický , virtualizační zařízení ve skutečnosti sedí v datové cestě mezi hostitelem a úložištěm. Všechny I / O požadavky a jejich data procházejí zařízením. Hostitelé provádějí I / O na virtualizační zařízení a nikdy nekomunikují se skutečným úložným zařízením. Virtualizační zařízení zase provádí I / O do úložného zařízení. Ukládání dat do mezipaměti, statistiky o využití dat, replikační služby, migrace dat a tenké zajišťování jsou snadno implementovány v zařízení v pásmu.
Mimo pásmo , známé také jako asymetrická , se virtualizační zařízení někdy nazývají meta-datové servery . Tato zařízení provádějí pouze funkce mapování metadat. To vyžaduje další software v hostiteli, který ví, že musí nejprve požádat o umístění skutečných dat. Proto je I / O požadavek od hostitele zachycen před tím, než opustí hostitele, je požadováno vyhledávání metadat ze serveru metadat (to může být prostřednictvím jiného rozhraní než SAN), které vrací fyzické umístění data hostiteli. Informace se poté načte prostřednictvím skutečného požadavku I / O do úložiště. Ukládání do mezipaměti není možné, protože data nikdy neprocházejí zařízením.
Virtualizace založená na souborech
Synonymum používané pro virtualizaci NAS.
Viz také
- Archiv
- Automatizované víceúrovňové úložiště
- Hypervisor úložiště
- Záloha
- Ukládání počítačových dat
- Šíření dat
- Úložiště disku
- Správa životního cyklu informací
- Informační úložiště
- Ukládání dat na magnetickou pásku
- Úložiště
- Vřeteno