Coniato da James Dixon, CTO della società Pentaho, il termine Data Lake ha ormai superato le diffidenze iniziali ed è entrato a pieno titolo nella terminologia IT per indicare un nuovo approccio per il repository dei dati, non più in infrastrutture e architetture a silos ma in un “lago” dove confluiscono tutte le tipologie di dati, indipendentemente dalla loro natura, varietà, volume, ecc.

In realtà molte aziende hanno iniziato ad allontanarsi dai rigidi approcci tecnologici a silos di dati per orientarsi in soluzioni di backup e archiviazione cloud-based, ma l’ondata dei Big Data e la necessità di una loro analisi avanzata in tempi rapidi ha portato ancora più alla luce il tema (e la criticità) della disponibilità del dato e, quindi, delle infrastrutture storage a supporto. Questo perché, di fatto, un Data Lake deve contenere una struttura di indici (che contenga dati e metadati) garantendo un accesso sicuro a tutti gli insiemi e i sottoinsiemi di dati (nonché la loro protezione) e abilitando workload analitici di qualsiasi genere e con l’utilizzo di qualsiasi flusso di dati.

Storage pilastro del Data Lake

Da un punto di vista tecnico, un Data Lake si compone di differenti tecnologie e funzionalità avanzate di data storage e data analysis. L’abilità di acquisire dati in tempo reale o in batch e la capacità di conservare e accedere a dati strutturati, semi strutturati e non strutturati (nel loro formato originario) tramite un sistema di ruoli configurabile (gestione degli accessi e dei privilegi) rappresentano senz’altro le criticità principali cui fanno seguito quella relative al data processing (lavorare su dati grezzi in modo che siano estratti e resi disponibili per essere analizzati) e alle advanced analytics (modelli per l’analisi dei dati e per estrapolarne informazioni utili)

In altre parole, il Data Lake potrebbe quindi essere considerato come un nuovo avanzato sistema di data storage, in particolare un unico sistema per acquisire, archiviare, analizzare e proteggere i Big Data. La metafora del lago di dati serve infatti a semplificare quella che in realtà è una tendenza tutt’altro che semplice da gestire: la crescita di dati non strutturati e il loro valore per le analisi di business richiede un ripensamento dei sistemi di storage e di calcolo distribuiti.

In questo senso, il Cloud Object Storage e l’utilizzo di metodi di conservazione dei dati su file system distribuiti (HDFS in cloud) – tipici di un sistema di tipo Data Lake – rappresentano la risposta ideale perché rendono implicitamente infinito lo spazio disponibile per l’archiviazione dei dati e di fatto portano il concetto di Data Lake a sistema di scale-out storage potenzialmente infinito per il consolidamento di dati.

 

 

La nostra Direzione Vendite è a vostra disposizione per qualunque altra informazione
Silvana Gornati
335213611silvana.gornati@mauden.comwww.mauden.com
CONDIVIDI

LASCIA UN COMMENTO

Per favore inserisci il tuo commento
Per favore inserisci il tuo nome