¿Qué son los Datos Masivos o Big Data?
El Big data o macrodatos es un término que hace referencia a una cantidad de datos tal que supera las capacidades del software tradicional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente gracias al aumento y abaratamiento de los dispositivos de almacenamiento y procesado de éstos, que han posibilitado un gran avance en la digitalización de las empresas y de la sociedad en general.
Para entenderlo mejor, podemos analizarlos desde la perspectiva de las “5 Vs del Big Data": Volumen, Velocidad, Variedad, Veracidad y Valor.
Volumen:
Los procesos de control de calidad y monitorización que se realizaban en un entorno tradicional de Data Warehouse ya no son viables. Hay que definir nuevas métricas de calidad, dejar de trabajar con valores absolutos, para pasar a hacerlo con aproximaciones e intervalos de confianza.
Velocidad:
No es solo la gran velocidad a la que se generan los datos, sino también los nuevos escenarios que necesitan información en tiempo real o de forma casi inmediata. Si los procesos de depuración de los datos no son los adecuados, para cuando se ha verificado su calidad, estos datos han perdido su valor para el negocio.
En ocasiones, en vez de trabajar con el dataset completo, se recurre a trabajar con una parte de éste (sample), e incrementar así la velocidad. No obstante, este incremento de velocidad se consigue a costa de sesgar la información.
Variedad:
La información procede de distintas fuentes y su estructura puede ser mucha, poca o directamente ninguna. Por ello, es imposible poder aplicar una misma métrica de calidad a todos ellos. Por ejemplo, podemos tener datos procedentes de:
- Bases de datos SQL (o noSQL), propias o de terceros.
- Datos del CRM de la empresa.
- Hojas de cálculo.
- Redes sociales.
- Programas de facturación empresarial.
- Informes de transacciones bancarias.
- Otras fuentes.
Ésta gran variedad de se traduce frecuentemente en grandes diferencias semánticas (campos con nombre idénticos pero significados muy diferentes, según el departamento), o inconsistencias sintácticas (por ejemplo, sellos temporales inútiles por no ir acompañados de información sobre la zona horaria de captura etc). Las primeras, se pueden reducir considerablemente si disponemos de los metadatos adecuados de las distintas fuentes. Para las segundas, habrá que esperar a la fase de Data Engineering, donde se seleccionan los campos útiles para las predicciones y se descartan los que aportan ruido. Por ejemplo, los campos con valores aleatorios, o campos dependientes etc.
Veracidad:
La veracidad de los datos tiene que ver con los posibles sesgos en la información, el ruido, y los datos anormales. Además de una posible falta de precisión, los datos pueden ser poco consistentes o poco fiables (según su origen, proceso de captura de la información, procesado, infraestructura de seguridad etc.).
La causa de este problema radica en que, normalmente, los proveedores de datos y los usuarios de éstos pertenecen a distintas organizaciones, con distintos objetivos y diferentes procesos operacionales. Muchas veces los proveedores de datos desconocen el uso que les dan sus clientes. Esta desconexión entre las fuentes de la información y los usuarios finales de ésta es la causa principal de los problemas de calidad de los datos desde la perspectiva de la Veracidad.
Valor:
El “Valor” del dato es mucho más tangible. Las empresas usan los datos con distintos fines, y el hecho de que se consigan o no estos objetivos nos permite “medir” su calidad, y definir estrategias para mejorarla.