Dados não estruturados   

Unstructured data  

O que são dados não estruturados?

Os dados podem ser classificados de acordo com a sua origem, o seu alcance, o tipo de linguagem com que queremos trabalhar neles, etc. A classificação mais prática e global que nos permite trabalhar eficazmente no mundo digital é baseada na sua estrutura. De acordo com ela, existem 3 tipos de dados:  estruturados, semiestruturados e não estruturados.

Os dados não estruturados representam 80% do volume de todos os dados gerados, e a percentagem não para de crescer. Estes dados podem ter uma estrutura interna, mas não seguem qualquer esquema ou modelo de dados predefinido.

Podem ser dados textuais ou não textuais; podem ser gerados por máquinas ou gerados por humanos; e podem ser armazenados numa base de dados NoSQL ou diretamente numa base de dados Datalake.

Os exemplos mais conhecidos são:

  • Ficheiros de texto: ficheiros de tipo word, folhas de cálculo, apresentações, registos...
  • Emails, o corpo da mensagem, o resto da informação é normalmente semiestruturado, como indicamos acima.
  • Dados de redes sociais, tais como Facebook, Twitter, Linkedin.
  • Dados de websites, tais como Youtube, Instagram, etc.
  • Dados móveis: mensagens, localização, chats...
  • Imagens, vídeos, áudios, etc.
  • Dados meteorológicos, imagens de satélite, dados de sensores, etc.

Trabalhar não só com dados não estruturados, mas com enormes volumes de dados, é um verdadeiro desafio, ao qual respondemos com novas ferramentas baseadas em Machine Learning, novos modelos de armazenamento e computação baseados em sistemas cloud, mudanças nas estratégias tradicionais de engenharia de dados (de ETL para modelos ELT), integração de soluções nativas e de open source, etc. Para além de tudo isto, há a complexidade acrescida de responder em tempo real a um número crescente de aplicações, tais como as baseadas em dispositivos IoT, comércio online, etc.

É muito importante estar ciente do tipo de dados a serem tratados em cada caso, a fim de decidir que recursos e ferramentas são mais apropriados para cada situação. Isto permitir-nos-á definir as arquiteturas mais eficientes que satisfaçam as necessidades de uma empresa com a melhor relação custo-benefício.