Virtualizzazione dei dati - Data virtualization

La virtualizzazione dei dati è un approccio alla gestione dei dati che consente a un'applicazione di recuperare e manipolare i dati senza richiedere dettagli tecnici sui dati, come il modo in cui sono formattati all'origine o dove si trovano fisicamente, e può fornire una singola vista del cliente (o vista unica di qualsiasi altra entità) dei dati complessivi.

A differenza del tradizionale processo di estrazione, trasformazione, caricamento ("ETL"), i dati rimangono al loro posto e viene fornito l'accesso in tempo reale al sistema di origine per i dati. Ciò riduce il rischio di errori dei dati, del carico di lavoro che sposta dati che potrebbero non essere mai utilizzati e non tenta di imporre un singolo modello di dati sui dati (un esempio di dati eterogenei è un sistema di database federato ). La tecnologia supporta anche la scrittura degli aggiornamenti dei dati delle transazioni sui sistemi di origine. Per risolvere le differenze nei formati e nella semantica di origine e di consumo, vengono utilizzate varie tecniche di astrazione e trasformazione. Questo concetto e software è un sottoinsieme dell'integrazione dei dati ed è comunemente usato all'interno di business intelligence , servizi dati di architettura orientata ai servizi, cloud computing , ricerca aziendale e gestione dei dati master .

Virtualizzazione dei dati e data warehousing

Alcuni ambienti aziendali sono pieni di origini dati disparate, inclusi più data warehouse , data mart e/o data lake , anche se un data warehouse, se implementato correttamente, dovrebbe essere unico e un'unica fonte di verità . La virtualizzazione dei dati può collegare in modo efficiente i dati tra data warehouse, data mart e data lake senza dover creare una piattaforma dati fisica integrata completamente nuova. L'infrastruttura dati esistente può continuare a svolgere le proprie funzioni principali mentre il livello di virtualizzazione dei dati sfrutta semplicemente i dati provenienti da tali origini. Questo aspetto della virtualizzazione dei dati lo rende complementare a tutte le origini dati esistenti e aumenta la disponibilità e l'utilizzo dei dati aziendali.

La virtualizzazione dei dati può anche essere considerata un'alternativa all'ETL e al data warehousing, ma per considerazioni sulle prestazioni non è davvero consigliata per un data warehouse molto grande. La virtualizzazione dei dati è intrinsecamente finalizzata a produrre informazioni rapide e tempestive da più fonti senza dover intraprendere un grande progetto di dati con un ampio ETL e archiviazione dei dati. Tuttavia, la virtualizzazione dei dati può essere estesa e adattata per soddisfare anche i requisiti di data warehousing. Ciò richiederà la comprensione dei requisiti di archiviazione e cronologia dei dati insieme alla pianificazione e alla progettazione per incorporare il giusto tipo di virtualizzazione dei dati, integrazione e strategie di archiviazione e ottimizzazioni di infrastruttura/prestazioni (ad es. streaming, in-memory, archiviazione ibrida).

Esempi

The Phone House, il nome commerciale delle operazioni europee della catena di vendita al dettaglio di telefoni cellulari con sede nel Regno Unito Carphone Warehouse, ha implementato la tecnologia di virtualizzazione dei dati di Denodo tra i sistemi transazionali della sua filiale spagnola e i sistemi basati sul Web degli operatori mobili.
Novartis ha implementato lo strumento di virtualizzazione dei dati di TIBCO per consentire ai suoi ricercatori di combinare rapidamente i dati provenienti da fonti interne ed esterne in un archivio dati virtuale ricercabile.
I dati primari indipendenti dall'archiviazione (defunti, reincarnati come Hammer.space) erano una piattaforma di virtualizzazione dei dati che consentiva ad applicazioni, server e client di accedere in modo trasparente ai dati durante la migrazione tra cloud storage collegato direttamente, collegato alla rete, privato e pubblico .
I dati collegati possono utilizzare un singolo nome origine dati ( DSN ) basato su collegamento ipertestuale per fornire una connessione a un livello di database virtuale connesso internamente a una varietà di origini dati back-end utilizzando ODBC , JDBC , OLE DB , ADO.NET , SOA servizi in stile e/o modelli REST .
La virtualizzazione del database può utilizzare un singolo DSN basato su ODBC per fornire una connessione a un livello di database virtuale simile.
Alluxio , un file system virtuale distribuito open-source (VDFS), ha iniziato presso l' Università della California, Berkeley 's AMPLab . Il sistema estrae i dati da vari file system e archivi di oggetti.

Funzionalità

Il software di virtualizzazione dei dati fornisce alcune o tutte le seguenti funzionalità:

Astrazione: astrarre gli aspetti tecnici dei dati archiviati, come posizione, struttura di archiviazione, API, linguaggio di accesso e tecnologia di archiviazione.
Accesso ai dati virtualizzato: connettiti a diverse origini dati e rendile accessibili da un punto di accesso ai dati logico comune.
Trasformazione: trasforma, migliora la qualità, riformatta, aggrega i dati di origine ecc. per l'uso da parte dei consumatori.
Data Federation: combina set di risultati da più sistemi di origine.
Consegna dei dati – Pubblica set di risultati come viste e/o servizi dati eseguiti dall'applicazione client o dagli utenti quando richiesto.

Il software di virtualizzazione dei dati può includere funzioni per lo sviluppo, il funzionamento e/o la gestione. Un motore di metadati raccoglie, archivia e analizza informazioni sui dati e sui metadati (dati sui dati) in uso all'interno di un dominio.

I vantaggi includono:

Riduci il rischio di errori nei dati
Riduci il carico di lavoro dei sistemi non spostando i dati
Aumenta la velocità di accesso ai dati in tempo reale
Consente l'elaborazione delle query trasferita all'origine dati anziché al livello intermedio
La maggior parte dei sistemi consente la creazione self-service di database virtuali da parte degli utenti finali con accesso ai sistemi di origine
Aumentare la governance e ridurre il rischio attraverso l'uso di policy
Ridurre l'archiviazione dei dati richiesta

Gli svantaggi includono:

Può avere un impatto sui tempi di risposta dei sistemi operativi, in particolare se ridimensionati per far fronte a richieste impreviste degli utenti o non sintonizzati in anticipo.
Non impone un modello di dati eterogeneo, il che significa che l'utente deve interpretare i dati, a meno che non sia combinato con Data Federation e comprensione aziendale dei dati
Richiede un approccio di governance definito per evitare problemi di budget con i servizi condivisi
Non adatto per la registrazione delle istantanee storiche dei dati. Un data warehouse è meglio per questo
La gestione delle modifiche "è un enorme sovraccarico, poiché qualsiasi modifica deve essere accettata da tutte le applicazioni e gli utenti che condividono lo stesso kit di virtualizzazione"
I progettisti dovrebbero sempre tenere a mente le considerazioni sulle prestazioni

Evitare l'uso (vedi: https://www.denodo.com ):

Per l'accesso ai sistemi di dati operativi (problemi di prestazioni e integrità operativa)
Per federare o centralizzare tutti i dati dell'organizzazione (problemi di sicurezza e hacking)
Per la creazione di data warehouse virtuali molto grandi (problemi di prestazioni)
Come processo ETL (problemi di governance e prestazioni)
Se hai solo una o due origini dati da virtualizzare

Storia

Enterprise Information Integration (EII) (coniato per la prima volta da Metamatrix), ora noto come Red Hat JBoss Data Virtualization, e sistemi di database federati sono termini usati da alcuni fornitori per descrivere un elemento fondamentale della virtualizzazione dei dati: la capacità di creare JOIN relazionali in un VISUALIZZA.

Guarda anche

Riferimenti

Ulteriori letture

Virtualizzazione dei dati: andare oltre la tradizionale integrazione dei dati per raggiungere l'agilità aziendale, Judith R. Davis e Robert Eve
Virtualizzazione dei dati per i sistemi di business intelligence: rivoluzionare l'integrazione dei dati per i data warehouse, Rick van der Lans
Progetto e modellazione di integrazione dei dati: tecniche per un'architettura scalabile e sostenibile, Anthony Giordano

Languages

In other projects