O que são os Dados Massivos ou Big Data?
Big data ou macrodados é um termo que se refere a uma quantidade de dados tal, que está para além das capacidades do software tradicional de ser capturada, gerida e processada num período de tempo razoável. O volume de dados massivos está em constante crescimento, graças ao aumento e barateamento dos dispositivos de armazenamento e processamento, que permitiram um grande avanço na digitalização das empresas e da sociedade em geral.
Para o entendermos melhor, podemos analisá-los na perspetiva dos “5 Vs da Big Data": Volume, Velocidade, Variedade, Veracidade e Valor.
Volume:
Os processos de controlo de qualidade e monitorização que eram realizados num ambiente tradicional de armazenamento de dados já não são viáveis. Novas métricas de qualidade precisam de ser definidas, passando de valores absolutos para aproximações e intervalos de confiança.
Velocidade:
Não é apenas a alta velocidade a que os dados são gerados, mas também os novos cenários que requerem informação em tempo real ou quase de forma imediata. Se os processos de depuração de dados não forem adequados, quando a qualidade dos dados for verificada, os dados perderão o seu valor para o negócio.
Por vezes, em vez de se trabalhar com o dataset completo, é utilizada uma amostra (sample) do dataset para aumentar a velocidade. No entanto, este aumento de velocidade é obtido à custa de um enviesamento de informação.
Variedade:
A informação provém de diferentes fontes e a sua estrutura pode ser muita, pouca ou nenhuma. Por conseguinte, é impossível aplicar a mesma métrica de qualidade a todos eles. Por exemplo, podemos ter dados de:
- Bases de dados SQL (ou não SQL), proprietárias ou de terceiros.
- Dados do CRM da empresa.
- Folhas de cálculo.
- Redes sociais.
- Programas de faturação de empresas.
- Relatórios de transações bancárias.
- Outras fontes.
Esta grande variedade resulta frequentemente em grandes diferenças semânticas (campos com nomes idênticos, mas com significados muito diferentes, dependendo do departamento), ou inconsistências sintáticas (por exemplo, selos temporais que são inúteis porque não incluem informação sobre o fuso horário de captura, etc.). As primeiras podem ser consideravelmente reduzidas se tivermos os metadados corretos das diferentes fontes. Para as segundas, será necessário esperar pela fase de Data Engineering, onde os campos úteis são selecionados para as previsões e os que contribuem com ruído são descartados. Por exemplo, campos com valores aleatórios ou campos dependentes, etc.
Veracidade:
A veracidade dos dados está relacionada com possíveis enviesamentos na informação, ruído e dados anormais. Para além de uma possível falta de precisão, os dados podem ser pouco consistentes ou pouco fiáveis (dependendo da sua origem, do processo de captura de dados, do processamento, da infraestrutura de segurança, etc.).
A causa deste problema é que os fornecedores e utilizadores de dados pertencem normalmente a diferentes organizações, com diferentes objetivos e diferentes processos operacionais. Os fornecedores de dados desconhecem frequentemente a forma como os seus clientes utilizam os seus dados. Esta desconexão entre as fontes de informação e os utilizadores finais da informação é a principal causa de problemas de qualidade de dados numa perspetiva de Veracidade.
Valor:
O "Valor" dos dados é muito mais tangível. As empresas utilizam dados para diferentes fins, e o facto de estes objetivos serem ou não alcançados permite-nos "medir" a sua qualidade e definir estratégias para a melhorar.