Informática & Derecho WikiBlog

4 minutos de lectura ( 804 palabras)

Data Warehouse vs Data Lake

En las empresas es fundamental disponer de un correcto almacenamiento de datos, ya que es lo que actualmente asegura la continuidad vital de cualquier compañía IT. Antiguamente el almacenamiento de datos de las empresas se realizaba en lugares físicos, donde se guardaban los documentos confidenciales y comunes. Pero con el avance de las tecnologías y la llegada de Internet esto ha ido cambiando.El almacenamiento de datos ya no solo se basa en recogerlos y protegerlos, sino que a su vez se ha de “aprender de ellos”. Data Warehouse y Data Lake son dos paradigmas completamente diferentes para llevar a cabo el almacenamiento y tratamiento de datos, ¿quieres saber las diferencias entre ellos? ¡Continúa leyendo!.

Data Warehouse

La primera pregunta, ¿qué es un data warehouse? Un data warehouse es un archivo unificado donde se recogen todos los datos procedentes de los diferentes sistemas de una empresa. Este tipo de repositorio puede ser tanto físico como lógico cuyo propósito es conseguir la captura de datos de diversas fuentes, principalmente para fines analíticos y de acceso.

En definitiva, un data warehouse es una arquitectura cada vez más común en las empresas, ya que permite a los ejecutivos de negocios organizar, comprender y utilizar sus datos correctamente para poder tomar decisiones estratégicas.

Normalmente su almacenaje se realiza en un servidor corporativo o cada vez más en la nube.

El data warehouse se divide en tres estructuras simplificadas o ficheros:

  • Una estructura básica, a través de la cual los sistemas operativos y archivos planos pueden proporcionar datos en bruto para almacenarlos junto con los metadatos. Esto permite que los usuarios finales puedan acceder a ellos para su análisis, minería y elaboración de informes.
  • Otra estructura básica, pero con un área de ensayo, la cual proporciona un lugar donde los datos se pueden pulir antes de entrar al almacén.
  • Y finalmente cuenta con una estructura básica con área de ensayo a la que se le pueden agregar data marts, que son sistemas diseñados para una línea de negocio en particular.

Con lo cual la finalidad de un data warehouse es facilitar a la empresa el acceso a la información corporativa mediante un almacenamiento de datos jerárquico, por ello los contenidos que ofrece han de ser entendibles, navegables y contar con un alto rendimiento.

 

Data Lake

Un data lake es un repositorio dedicado al almacenamiento de una gran cantidad de datos en bruto que se mantienen allí hasta que sea necesario.

A diferencia de un data warehouse su arquitectura es plana, por lo que no cuenta con ficheros ni carpetas para su almacenaje.

A cada elemento de un data lake se le asigna un identificador único y una categoría determinada con un conjunto de metadatos extendidas. Así cuando se presenta una cuestión de negocios que ha de ser resuelta, el data lake nos proporciona los datos relacionados con esa cuestión.

Normalmente se relaciona al data lake con el almacenamiento de Hadoop (framework de software que soporta aplicaciones distribuidas bajo una licencia libre).  Por lo que a veces se subestima al data lake al calificarlo como una simple etiqueta de marketing para un para un producto que soporta Hadoop- No obstante, a medida que avanza su uso está siendo comprendido como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos se consultan.

 

Diferencias Data Warehouse & Data Lake

Sus principales diferencias son las siguientes:

  • Los datos de un data warehouse solo almacena los datos que han sido ya estructurados, en cambio un data lake almacena todos los datos sin tener en cuenta su estado.
  • El procesamiento, con el data warehouse antes de que la empresa pueda cargar los datos, primero debe modelarlos. Mientras que con el data lake, los datos se cargan sin procesar, es decir, tal y como están.
  • Los costes de almacenamiento, en el data lake los costes de almacenamiento son bastante bajos en comparación con los de data warehouse ya que Hadoop, se trata de un software de código abierto, por lo que la concesión de licencias y el soporte de la comunidad es gratuito, además de que Hadoop esta diseñado para ser instalado en hardware de bajo coste.
  • La agilidad es primordial a la hora de cambiar la estructura de los datos. De este modo lleva mucho más tiempo modificar los datos almacenados en un data warehouse que en un data lake, ya que este último permite a los desarrolladores y científicos configurarlos fácilmente y a tiempo real.
  • Como el data warehouse lleva décadas existiendo, su seguridad es mucho mayor que la de un data lake,por lo que es más probable que en un data warehouse los datos esten mucho más protegidos. No obstante, se está investigando y dedicando mucho esfuerzo en aumentar la seguridad en el data lake.

 

Fuente: https://www.master-data-scientist.com/data-warehouse-vs-data-lake/

×
Stay Informed

When you subscribe to the blog, we will send you an e-mail when there are new updates on the site so you wouldn't miss them.

Los policías de Dallas perdieron 8 TB de datos de ...
¿Cómo crear un informe de pentesting?
 

Aporte reciente al blog

10 Febrero 2024
  Un nuevo método de estafa está proliferando a través de WhatsApp, llegando al punto de poner en alerta a las autoridades, que advierten de su peligro a los usuarios. En este caso se trata de las llamadas desde números desconocidos extranjeros, los ...
16 Noviembre 2023
PORTAL UNICO “DOCUEST” Y "PROCEDIMIENTO PARA LA CARGA DE DOCUMENTOS CUESTIONADOS” Fecha de sanción 03-11-2023 Publicada en el Boletín Nacional del 07-Nov-2023 Resumen: APROBAR LA IMPLEMENTACION DEL PORTAL UNICO “DOCUEST” Y EL “PROCEDIMIENTO PARA LA C...

Suscribirme al Blog:

Novedades

El Dr. Dalmacio Vélez Sársfield asiste a una clase por zoom (test). Deepfake en un ciberjuicio o audiencia usando IA. Los riesgos cibernéticos derivados del uso de las nuevas tecnología dentro de un proceso judicial y la necesidad de incorporar seguros de riesgos cibernéticos a las organizaciones que brindan servicios públicos esenciales. Click para ver el video.
 

Buscar
Red Social de Informática & Derecho - Algunos derechos reservados © 2007-2024. Vías de contacto: