O que são dados não estruturados?
Os dados podem ser classificados de acordo com a sua origem, o seu alcance, o tipo de linguagem com que queremos trabalhar neles, etc. A classificação mais prática e global que nos permite trabalhar eficazmente no mundo digital é baseada na sua estrutura. De acordo com ela, existem 3 tipos de dados: estruturados, semiestruturados e não estruturados.
Os dados não estruturados representam 80% do volume de todos os dados gerados, e a percentagem não para de crescer. Estes dados podem ter uma estrutura interna, mas não seguem qualquer esquema ou modelo de dados predefinido.
Podem ser dados textuais ou não textuais; podem ser gerados por máquinas ou gerados por humanos; e podem ser armazenados numa base de dados NoSQL ou diretamente numa base de dados Datalake.
Os exemplos mais conhecidos são:
- Ficheiros de texto: ficheiros de tipo word, folhas de cálculo, apresentações, registos...
- Emails, o corpo da mensagem, o resto da informação é normalmente semiestruturado, como indicamos acima.
- Dados de redes sociais, tais como Facebook, Twitter, Linkedin.
- Dados de websites, tais como Youtube, Instagram, etc.
- Dados móveis: mensagens, localização, chats...
- Imagens, vídeos, áudios, etc.
- Dados meteorológicos, imagens de satélite, dados de sensores, etc.
Trabalhar não só com dados não estruturados, mas com enormes volumes de dados, é um verdadeiro desafio, ao qual respondemos com novas ferramentas baseadas em Machine Learning, novos modelos de armazenamento e computação baseados em sistemas cloud, mudanças nas estratégias tradicionais de engenharia de dados (de ETL para modelos ELT), integração de soluções nativas e de open source, etc. Para além de tudo isto, há a complexidade acrescida de responder em tempo real a um número crescente de aplicações, tais como as baseadas em dispositivos IoT, comércio online, etc.
É muito importante estar ciente do tipo de dados a serem tratados em cada caso, a fim de decidir que recursos e ferramentas são mais apropriados para cada situação. Isto permitir-nos-á definir as arquiteturas mais eficientes que satisfaçam as necessidades de uma empresa com a melhor relação custo-benefício.