Rick F. van der Lans, reconocido experto en Data Warehouse y Business Intelligence, explica en este whitepaper de 18 páginas en inglés, publicado en febrero de 2019, su idea de los Data Lakes modernos, que esencialmente deben ser una serie de Data Lakes distribuidos por la organización.
Según Rick las organizaciones se ven obligadas a trabajar no sólo con diferentes Data Lakes sino también con otras fuentes de datos dispersas (como Data Warehouses) por razones técnicas, regulatorias u organizacionales.
Pero para trabajar con los datos se requiere fusionar las diferentes fuentes para poder presentar una visión “integrada” de los mismos a los usuarios. Para ello, según van der Lans, existen tres soluciones:
a) Integración mediante herramientas de ciencia de datos
b) Integración mediante replicación de datos
c) Integración mediante virtualización de datos
El índice del documento es el siguiente:
1 Introduction
2 A Modern Data Lake is a Distributed Data Platform
3 Three Alternative Solutions for Developing Fused Data Lakes
4 Data Virtualization for Fusing Data Lakes
4.1 Hiding the Distributed Nature of the Data Lake to Simplify Data Access
4.2 Hiding Heterogeneous Data Platforms to Simplify Data Access
4.3 Query Pushdown to Exploit the Power of the Data Platforms
4.4 Parallel Query Processing to Accelerate Big Queries
4.5 Distributed Query Optimization to Efficiently Access Multiple Data Lakes
4.6 Data Caching to Temporarily Store Data
5 Comparison of Three Solutions for Developing Fused Data Lakes
6 Closing Remarks
9 Summary
Descargue el documento abajo.