Secondo le analisi di IDC Research, i dati non strutturati registrano una crescita annua media che oscilla tra il 20 ed il 30%, aumento destinato a confermarsi anche nei prossimi anni tenendo quindi sotto la costante luce dei riflettori tematiche come quelle della gestione dei dati e dello storage.
Al di là dei semplici “archivi di bit”
Di fronte all’enorme crescita dei dati disponibili e alla loro natura destrutturata, le infrastrutture aziendali a supporto del data management e dello storage non possono più essere considerate semplici spazi di memorizzazione dei bit. Servono strategie e tecnologie che permettano di considerare la gestione del dato sulla base di quattro pilastri fondamentali:
1) protezione dei dati: se le informazioni sono il motore che fa correre il business, i dati rappresentano la benzina che alimenta questo motore e deve quindi essere considerata come il bene da salvaguardare. Se così è in linea teorica, dal punto di vista pratico significa porre la massima attenzione su tutti i sistemi che hanno a che fare con il dato, dall’archiviazione al backup, dall’accesso alla portabilità del dato, dal recovery alla business continuity;
2) movimentazione e portabilità dei dati: la crescente disponibilità di dati ha portato con sé nuovi paradigmi come cloud e data lake che hanno costretto ad una rivisitazione delle politiche di repository e spostamento dei dati; scenario che con l’IoT si evolve ulteriormente aggiungendo la complessità della generazione di dati tramite sensori e dispositivi, la loro analisi immediata ed il loro spostamento verso ambienti cloud e data center centralizzati. Tutte condizioni che esigono, alla base, infrastrutture storage e di data management agili, automatizzate e in grado di assicurare la portabilità del dato senza repliche o ridondanze che aumenterebbero solo complessità e costi;
3) ricerca: quanti più dati ci sono a disposizione tanto più è difficile scovare quelli utili o che realmente servono; ecco perché di fronte a scenari di Big Data e IoT diventa fondamentale riportare alla luce scelte strategiche e tecnologiche di data management e storage. Oggi è difficile capire cosa è disperso tra centinaia di file system e architetture cloud; non solo, poiché la maggior parte dei dati è generata da macchine, la catalogazione manuale risulta semplicemente impossibile. Alcune applicazioni per la gestione delle risorse digitali generano i propri cataloghi, ma la federazione di tali silos richiede un appropriato ecosistema. Ecco perché anche quando si parla di Data Lake è importante porre la massima attenzione ai sistemi che vi ruotano attorno, in particolare alle funzionalità tecnologiche per memorizzare, catalogare e gestire metadati per la ricerca e la scoperta delle informazioni utili all’organizzazione aziendale;
4) apprendimento: ogni applicazione di gestione dei dati richiede oggi un insieme di analisi per facilitare ricerca e distribuzione delle informazioni agli utenti che tengano conto, oltre che dei dati, anche dei metadati; questi ultimi, per esempio, possono contenere anche informazioni utili sulle precedenti ricerche e analisi ed alimentare così in modo molto più rapido nuove analisi. Questo tipo di approccio alla gestione del dato – tipico del Data Lake – aiuta a rendere i dati più facilmente accessibili ai software di analisi e apre la strada a nuove applicazioni come quelle di apprendimento automatico (per la classificazione automatica dei dati) basate su algoritmi di Intelligenza Artificiale.
Silvana Gornati
335213611 – silvana.gornati@mauden.com – www.mauden.com