Datavirtualisering - Data virtualization

Datavirtualisering är ett tillvägagångssätt för datahantering som gör att ett program kan hämta och manipulera data utan att det krävs tekniska detaljer om data, till exempel hur det formateras vid källan, eller var det är fysiskt placerat, och kan ge en enda kundvy (eller enskild vy av någon annan enhet) av de övergripande uppgifterna.

Till skillnad från den traditionella processen för extrakt, omvandling, laddning ("ETL") förblir data på plats och åtkomst ges i realtid till källsystemet för data. Detta minskar risken för datafel, att arbetsbelastningen flyttar data som aldrig får användas, och den försöker inte påtvinga en enda datamodell på data (ett exempel på heterogena data är ett federerat databassystem ). Tekniken stöder också skrivning av transaktionsdatauppdateringar tillbaka till källsystemen. För att lösa skillnader i käll- och konsumentformat och semantik används olika abstraktions- och transformationstekniker. Detta koncept och den här programvaran är en delmängd av dataintegration och används vanligtvis inom business intelligence , serviceorienterade datatjänster för arkitektur , molntjänster , företagssökning och masterdatahantering .

Datavirtualisering och datalager

Vissa företagslandskap är fyllda med olika datakällor, inklusive flera datalager , datamartar och/eller datasjöar , även om ett datavarehus, om det implementeras korrekt, bör vara unikt och en enda sanningskälla . Datavirtualisering kan effektivt överbrygga data över datalager, datamartar och datasjöar utan att behöva skapa en helt ny integrerad fysisk dataplattform. Befintlig datainfrastruktur kan fortsätta utföra sina kärnfunktioner medan datavirtualiseringsskiktet bara utnyttjar data från dessa källor. Denna aspekt av datavirtualisering gör den komplementär till alla befintliga datakällor och ökar tillgängligheten och användningen av företagsdata.

Datavirtualisering kan också betraktas som ett alternativ till ETL och datalager, men av prestandahänsyn rekommenderas det inte riktigt för ett mycket stort datalager. Datavirtualisering syftar i sig till att producera snabba och snabba insikter från flera källor utan att behöva starta ett stort dataprojekt med omfattande ETL och datalagring. Datavirtualisering kan emellertid utökas och anpassas för att även tillgodose krav på datalagring. Detta kommer att kräva förståelse för datalagring och historikrav tillsammans med planering och design för att införliva rätt typ av datavirtualisering, integration och lagringsstrategier och optimering av infrastruktur/prestanda (t.ex. streaming, in-memory, hybridlagring).

Exempel

  • The Phone House-handelsnamnet för den europeiska verksamheten i Storbritanniens baserade mobiltelefonhandelskedja Carphone Warehouse- implementerade Denodos datavirtualiseringsteknik mellan sitt spanska dotterbolags transaktionssystem och mobiloperatörernas webbaserade system.
  • Novartis implementerade TIBCOs datavirtualiseringsverktyg för att göra det möjligt för sina forskare att snabbt kombinera data från både interna och externa källor till en sökbar virtuell datalagring.
  • Den lagringsagnostiska primära data (nedlagd, reinkarnerad som Hammer.space) var en datavirtualiseringsplattform som möjliggjorde för applikationer, servrar och klienter att få transparent åtkomst till data medan den migrerades mellan direktkopplad, nätverksansluten, privat och offentlig molnlagring .
  • Länkade data kan använda ett enda hyperlänkbaserat datakällnamn ( DSN ) för att tillhandahålla en anslutning till ett virtuellt databaslager som är internt anslutet till en mängd olika backend-datakällor med ODBC , JDBC , OLE DB , ADO.NET , SOA -stilstjänster och/eller REST -mönster.
  • Databasvirtualisering kan använda ett enda ODBC-baserat DSN för att tillhandahålla en anslutning till ett liknande virtuellt databaslager.
  • Alluxio , ett open-source virtuellt distribuerat filsystem (VDFS) startade vid University of California, Berkeley 's AMPLab . Systemet abstraherar data från olika filsystem och objektlagrar.

Funktionalitet

Programvara för datavirtualisering har några eller alla följande funktioner:

  • Abstraktion - Abstrakt de tekniska aspekterna av lagrad data, till exempel plats, lagringsstruktur, API, åtkomstspråk och lagringsteknik.
  • Virtualiserad datatillgång - Anslut till olika datakällor och gör dem tillgängliga från en gemensam logisk datatillgångspunkt.
  • Transformation - Transformera, förbättra kvalitet, formatera, aggregera etc. källdata för konsumentbruk.
  • Datafederation - Kombinera resultatuppsättningar från flera källsystem.
  • Dataleverans - Publicera resultatuppsättningar som vyer och/eller datatjänster som utförs av klientprogram eller användare när så begärs.

Datavirtualiseringsprogramvara kan innehålla funktioner för utveckling, drift och/eller hantering. En metadatamotor samlar in, lagrar och analyserar information om data och metadata (data om data) som används inom en domän.

Fördelarna inkluderar:

  • Minska risken för datafel
  • Minska systemets arbetsbelastning genom att inte flytta data
  • Öka tillgången till data i realtid
  • Tillåter förfrågebearbetning som skjuts ner till datakällan istället för i mitten
  • De flesta system möjliggör självbetjäning av virtuella databaser av slutanvändare med tillgång till källsystem
  • Öka styrningen och minska risken genom att använda policyer
  • Minska datalagring krävs

Nackdelarna inkluderar:

  • Kan påverka operativsystemets responstid, särskilt om det är underskalat för att hantera oväntade användarfrågor eller inte är inställd tidigt.
  • Föreskriver inte en heterogen datamodell, vilket innebär att användaren måste tolka data, såvida det inte kombineras med datafederation och affärsförståelse för data
  • Kräver en definierad strategi för styrning för att undvika budgetproblem med de delade tjänsterna
  • Ej lämplig för att spela in historiska ögonblicksbilder av data. Ett datalager är bättre för detta
  • Förändringshantering "är en enorm kostnad, eftersom alla ändringar måste accepteras av alla applikationer och användare som delar samma virtualiseringssats"
  • Designers bör alltid ha prestationshänsyn i åtanke

Undvik användning (se: https://www.denodo.com ):

  • För åtkomst till operativa datasystem (frågor om prestanda och integritet)
  • För att federera eller centralisera all data i organisationen (säkerhets- och hackningsfrågor)
  • För att bygga mycket stort virtuellt datalager (prestandafrågor)
  • Som en ETL -process (Governance and performance issues)
  • Om du bara har en eller två datakällor att virtualisera

Historia

Företagsinformationsintegration (EII) (först myntat av Metamatrix), nu känt som Red Hat JBoss Data Virtualization och federerade databassystem är termer som används av vissa leverantörer för att beskriva ett kärnelement i datavirtualisering: möjligheten att skapa relationella JOIN i en federerad SE.

Se även

Referenser

Vidare läsning

  • Datavirtualisering: Går utöver traditionell dataintegration för att uppnå affärsrörlighet, Judith R. Davis och Robert Eve
  • Datavirtualisering för Business Intelligence -system: revolutionerar dataintegration för datalager, Rick van der Lans
  • Dataintegrering Blueprint och modellering: Tekniker för en skalbar och hållbar arkitektur, Anthony Giordano