CONTENIDO PATROCINADO POR DENODO ESPAÑA Y LATINOAMÉRICA.
Publicamos grabación de 55 minutos de webinar en español de Anastasio Molano (Responsable de Tecnología y Soluciones de Denodo) sobre el uso de la tecnología de Virtualización de Datos en proyectos Big Data, analítica avanzada y Machine Learning.
En el video podrá ver también una demostración en la que se monta un sistema predictivo del uso del servicio de alquiler de bicicletas en Nueva York a partir de diversas fuentes de datos: histórico del servicio, servicios de información metereológica….
Anastasio explica cómo son las nuevas arquitecturas de “Lagos de Datos Virtuales” que permiten tanto la conexión a todo tipo de fuentes de datos (estructuradas, aplicaciones, sensores…) como el uso de todo tipo de analítica y Machine Learning: R, Scala, Spark, Python..
El webinar tuvo lugar el pasado 18/07/2019 y en él se explica en profundidad cómo se puede construir una Arquitectura de Datos Moderna con la Virtualización de Datos.
Según Anastasio estas nuevas Arquitecturas permiten agilizar los proyectos Big Data y hacer que las Organizaciones pongan a disposición de sus usuarios de negocio los datos adecuados y de forma mucho más fácil que con tecnologías tradicionales de Data Warehouse.
Los Científicos de Datos, comenta Molano, “pueden centrarse en el análisis de los datos y no en la preparación e ingesta de los mismos a las que les obligan otras tecnologías de integración”.
Los Data Lakes Virtuales se construyen mediante una capa virtual que ofrece un acceso unificado a todos los datos de negocio.
Alguna de las ventajas de este tipo de arquitecturas de las que se habla en el webinar son:
- Acelera los Proyectos de Big Data
- Unico punto lógico de acceso a datos
- Datos entregados de forma amigable para el negocio: capa semántica
- Datos adaptados a cada unidad de negocio, tipo de usuario y aplicación
- Acceso desde cualquier herramienta/ protocolo/ API. Api de datos.
- Basado en metadatos: no guardo datos
- Gobierno y seguridad centralizado para todos los datos
- 90% de reducción para ofrecer los datos al negocio frente al uso de otras estrategias más tradicionales
- Trazabilidad de los datos Extremo a Extremo para gestión ágil de Cambios
- Fácil transición a tecnologías Big Data para cualquier usuario de negocio
- Modelo unificado de datos (Canónico)
- Catálogo de Datos listos para consumo
- La arquitectura lógica permite el aprovechamiento de sistemas “best of Breed”, facilita cambios
Aquí puede acceder directamente a los capítulos del vídeo:
03:47 Arquitectura Lógica de Provisión de Datos
05:30 Evolución histórica de los DWH
07:56 Logical DataWarehouse
08:45 Big Data Fabric
09:06 ¿Qué es la Virtualización de Datos?
13:57 Capa virtual de provisión de Datos
14:24 Lagos de Datos Virtuales: Mejores Prácticas con Virtualización de Datos
14:48 Arquitectura de Referencia de un Data Lake Virtual
17:48 Flujo de Trabajo de un Científico de Datos
20:00 Mejores Prácticas: Modelo Colaborativo IT- Científico de Datos
23:15 Descubrimiento y Exploración de datos en el Lago
24:12 Transformación y Combinación de Datos
25:00 Materialización de Datos en el Lago
25:39 Análisis mediante herramientas científicas (ML, etc): R, Scala, Spark, Python…
26:30 Operacionalización del Modelo
27:35 Publicación de resultados a los usuarios de negocio: BI o Data Catalog
27:56 Gobierno y Seguridad centralizada del lago de Datos
28:54 Cómo ayuda la Virtualización en todos los pasos del proceso
29:17 Caso Práctico de Analítica predictiva: Predicción del uso del servicio de alquiler de bicicletas de Nueva York. Mediante algoritmo Random Forest- Arboles de Decisión
44:15 Casos de Clientes: Audtodesk: análisis de datos de sensores
46:30 Prologis: Predicción del coste de construcción de plantas industriales
47:36 Performance: “Dynamic Query Optimization + MPP Processing”
48:40 Ventajas de Lago de Datos Virtual