Por Hugo F. Pérez Carretta on Jueves, 12 Agosto 2021
Categoría: REVISTA - TEMAS GENERALES SOBRE NUEVAS TECNOLOGÍAS, DERECHO E INTERNET

Data Warehouse vs Data Lake

En las empresas es fundamental disponer de un correcto almacenamiento de datos, ya que es lo que actualmente asegura la continuidad vital de cualquier compañía IT. Antiguamente el almacenamiento de datos de las empresas se realizaba en lugares físicos, donde se guardaban los documentos confidenciales y comunes. Pero con el avance de las tecnologías y la llegada de Internet esto ha ido cambiando.El almacenamiento de datos ya no solo se basa en recogerlos y protegerlos, sino que a su vez se ha de “aprender de ellos”. Data Warehouse y Data Lake son dos paradigmas completamente diferentes para llevar a cabo el almacenamiento y tratamiento de datos, ¿quieres saber las diferencias entre ellos? ¡Continúa leyendo!.

Data Warehouse

La primera pregunta, ¿qué es un data warehouse? Un data warehouse es un archivo unificado donde se recogen todos los datos procedentes de los diferentes sistemas de una empresa. Este tipo de repositorio puede ser tanto físico como lógico cuyo propósito es conseguir la captura de datos de diversas fuentes, principalmente para fines analíticos y de acceso.

En definitiva, un data warehouse es una arquitectura cada vez más común en las empresas, ya que permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos correctamente para poder tomar decisiones estratégicas.

Normalmente su almacenaje se realiza en un servidor corporativo o cada vez más en la nube.

El data warehouse se divide en tres estructuras simplificadas o ficheros:

Con lo cual la finalidad de un data warehouse es facilitar a la empresa el acceso a la información corporativa mediante un almacenamiento de datos jerárquico, por ello los contenidos que ofrece han de ser entendibles, navegables y contar con un alto rendimiento.

 

Data Lake

Un data lake es un repositorio dedicado al almacenamiento de una gran cantidad de datos en bruto que se mantienen allí hasta que sea necesario.

A diferencia de un data warehouse su arquitectura es plana, por lo que no cuenta con ficheros ni carpetas para su almacenaje.

A cada elemento de un data lake se le asigna un identificador único y una categoría determinada con un conjunto de metadatos extendidas. Así cuando se presenta una cuestión de negocios que ha de ser resuelta, el data lake nos proporciona los datos relacionados con esa cuestión.

Normalmente se relaciona al data lake con el almacenamiento de Hadoop (framework de software que soporta aplicaciones distribuidas bajo una licencia libre).  Por lo que a veces se subestima al data lake al calificarlo como una simple etiqueta de marketing para un para un producto que soporta Hadoop- No obstante, a medida que avanza su uso está siendo comprendido como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos se consultan.

 

Diferencias Data Warehouse & Data Lake

Sus principales diferencias son las siguientes:

 

Fuente: https://www.master-data-scientist.com/data-warehouse-vs-data-lake/

Dejar comentarios