Dados semiestruturados   

Semi-structured data

O que são dados semiestruturados?

Os dados podem ser classificados de acordo com a sua origem, o seu alcance, o tipo de linguagem com que queremos trabalhar neles, etc. A classificação mais prática e global que nos permite trabalhar eficazmente no mundo digital é baseada na sua estrutura. De acordo com ela, existem 3 tipos de dados:  estruturados, semiestruturados e não estruturados.

Os dados semiestruturados não têm um esquema definido. Não cabem num formato de tabelas / linhas / colunas, mas são organizados por meio de etiquetas ou “tags” que permitem agrupá-los e criar hierarquias. São também conhecidos como não-relacionais ou NoSQL.

Este tipo de dados representa cerca de 5–10% do volume global de dados. No entanto, tem casos de utilização muito relevantes do ponto de vista comercial, em grandes infraestruturas de dados e aplicações web em tempo real.

Alguns serviços bem conhecidos baseados neste tipo de dados são o sistema de recomendação da Amazon, ou os serviços do Linkedin. Muitos dos casos de utilização envolvem transporte de dados, partilha de dados de sensores, intercâmbio eletrónico de dados, plataformas de redes sociais, e bases de dados NoSQL.

Os exemplos mais conhecidos de dados semiestruturados são:

  • Emails, onde os metadados nativos permitem a classificação e pesquisa de palavras-chave na linguagem de marcação
  • XML, cuja estrutura flexível, baseada em etiquetas, permite a estrutura universal de dados, armazenamento e transporte na Web.
  • O padrão aberto JSON (JavaScript Object Notation), outro formato semiestruturado de intercâmbio de dados que é amplamente utilizado na transmissão de dados entre aplicações web e servidores.
  • As bases de dados NoSQL, que não separam o esquema dos dados em si, são mais flexíveis. Permitem armazenar informação que não se enquadra bem no formato registo / tabela, por exemplo, texto de comprimento variável. Também facilitam o intercâmbio de dados entre diferentes bases de dados.