Datapedia
Em nosso dicionário tecnológico, oferecemos um glossário de termos essenciais no mundo de IoT, Big Data, Blockchain e Inteligência Artificial.
A
Database Administrator (DBA)
É responsável pela conceção (física e lógica), gestão e administração de bases de dados. A sua função é garantir a segurança, otimização, monitorização, resolução de problemas e análise / previsão das capacidades atuais e futuras. É um papel altamente técnico que requer um conhecimento profundo da linguagem SQL e também, cada vez mais, de bases de dados não SQL. Podem também ser necessárias competências de gestão para conceber políticas e procedimentos para a utilização, gestão, manutenção e segurança de bases de dados. Em última análise, a sua função é assegurar-se de que "a máquina funciona".
Linear algebra
É um ramo da matemática que trabalha sobre espaços vetoriais e operações sobre eles, tais como a adição e a multiplicação. A álgebra linear é concebida para representar sistemas de equações lineares. As equações lineares representam relações lineares, onde uma entidade pode ser expressa como uma soma de múltiplos de outras entidades. Na nomenclatura da álgebra linear, esta relação linear é representada como um operando: uma matriz.
Algorithm
Consiste numa série definida de passos para realizar uma determinada tarefa com os dados. Tal como acontece com as estruturas de dados, as pessoas que estudam informática, estudam diferentes algoritmos para saber quais são os mais adequados para realizar determinadas tarefas.
Principal component analysis (PCA)
É um algoritmo de aprendizagem automática que procura reduzir a dimensionalidade de um conjunto de variáveis observadas para um conjunto de variáveis não linearmente correlacionadas, denominadas componentes principais. Para este efeito, calcula a direção com a maior variação e define-a como componente principal. É utilizado principalmente na análise exploratória de dados e para construir modelos preditivos.
Exploratory data analysis (EDA)
A fase de análise exploratória do processo de trabalho da ciência dos dados tem como objetivo extrair insights (resultados) dos dados através de técnicas de visualização e de análise estatística.
Data Analyst
É responsável por analisar através de técnicas estatísticas (entre outras) os dados históricos da organização, a fim de tomar decisões futuras mais bem informadas (desde como evitar a fuga de clientes até à definição de estratégias de preços). A sua função é analisar dados históricos para detetar padrões de comportamento ou tendências. (Análise descritiva e/ou preditiva). O conhecimento de estatísticas, aliado à capacidade de pensamento crítico, é essencial para este papel. As capacidades de comunicação são também de grande importância. Em suma, a sua função é "Compreender o que aconteceu no passado para tomar melhores decisões no futuro".
Analytics
Hoje vivemos num mundo hiperconectado. Cada vez mais dispositivos à nossa volta são sensorizados e fornecem dados valiosos para utilizadores ou empresas. Estes dados por si só não têm qualquer valor acrescentado. O valor é produzido quando são cruzados e analisados, e se consegue melhorar a produção, poupar custos e ser mais eficientes através de padrões de comportamento. A análise de dados é central para a transformação digital de uma empresa.
Business Analytics
É a metodologia prática utilizada por uma organização para extrair conhecimentos (Insights) da exploração dos seus dados. Esta metodologia é baseada na análise estatística dos dados.
Descriptive Analytics
É a técnica analítica mais básica e ainda hoje é utilizada por 90% das empresas. Este tipo de analítica responde à pergunta O que aconteceu? - Analisa os dados históricos e os dados recolhidos em tempo real para gerar Insights sobre como funcionavam as estratégias empresariais do passado, por exemplo, uma campanha de marketing.
Predictive analytics
Consiste na análise de dados históricos de uma empresa, a fim de prever comportamentos futuros que contribuam para um melhor planeamento. Para tal, são utilizadas técnicas de modelação preditiva, entre outras. Estas técnicas são baseadas em algoritmos estatísticos e de aprendizagem automática.
Prescriptive analytics
Consiste na análise de dados históricos de uma empresa, não só com o objetivo de prever comportamentos futuros, mas também de avaliar as suas causas, permitindo recomendar ou "prescrever" que ações devem ser realizadas para tirar partido de uma oportunidade ou mitigar um risco.
Self-supervised learning
Aprendizagem Auto-supervisionada (Self-supervised learning) é um termo que se refere a um tipo de aprendizagem não supervisionada dentro de um problema de aprendizagem supervisionada. É uma técnica de aprendizagem relativamente recente onde os dados de treino são etiquetados de forma autónoma.
Machine learning
É um conjunto de técnicas que trabalham com grandes quantidades de dados de forma inteligente (desenvolvendo algoritmos), para obter valiosos Insights sobre os quais se podem basear as iniciativas ou estratégias empresariais. Nestas técnicas, os algoritmos aprendem sozinhos, sem serem explicitamente programados.
Deep learning
Tipicamente, trata-se de um algoritmo multicamadas que identifica detalhes em níveis sucessivos de abstração. Por exemplo, o primeiro nível pode identificar algumas linhas, o nível seguinte identifica formas como combinações de linhas, e o nível seguinte identifica objetos como combinações de formas. Como pode imaginar a partir deste exemplo, a aprendizagem profunda é amplamente utilizada para a classificação de imagens. A Aprendizagem Profunda está associada a um algoritmo de Machine Learning, as redes neurais (daí a identificação gradual por camadas). Tais algoritmos são muito flexíveis e permitem que muitas respostas simultâneas sejam modeladas, mas também exigem uma enorme quantidade de dados.
Supervised learning
Na aprendizagem supervisionada, os algoritmos trabalham com dados "etiquetados” (labeled data), tentando encontrar uma função que, dadas as variáveis de entrada (input data), atribuem a etiqueta de saída apropriada. O algoritmo é treinado com um "histórico" de dados e assim "aprende" a atribuir a etiqueta de saída apropriada a um novo valor, ou seja, prevê o valor de saída. A aprendizagem supervisionada é frequentemente utilizada em problemas de classificação, tais como identificação de dígitos, diagnósticos, ou deteção de fraude de identidade.
Unsupervised learning
A aprendizagem não supervisionada tem lugar quando não há dados "etiquetados" disponíveis para o treino. Só conhecemos os dados de entrada, mas não existem dados de saída correspondentes a um determinado input. Portanto, só podemos descrever a estrutura dos dados para tentar encontrar algum tipo de organização que simplifique a análise. Têm, portanto, um caráter exploratório.
Reinforcement learning
Baseia-se em estudos sobre como promover a aprendizagem em humanos e ratos com base em recompensas e castigos. O algoritmo aprende observando o mundo à sua volta. A sua informação de entrada é o feedback que recebe do mundo exterior em resposta às suas ações. Portanto, o sistema aprende numa base de tentativa e erro.
Transfer learning
Este método é amplamente utilizado na visão artificial porque permite a construção de modelos precisos de forma a poupar muito tempo. Em vez de iniciar o processo de aprendizagem a partir do zero, começa-se por utilizar padrões ou modelos pré-treinados que foram aprendidos ao resolver um problema diferente.
AUC (Area Under the ROC Curve)
É uma métrica de avaliação que considera todos os limiares de classificação possíveis. O gráfico ROC é também conhecido como a representação da sensibilidade face a (1 especificidade). A diagonal divide o espaço ROC. Os pontos acima da diagonal representam os bons resultados de classificação (melhores do que aleatórios) e os pontos abaixo da linha representam os maus resultados (piores do que aleatórios).
Enterprise Data Architect
É o responsável pela criação da infraestrutura de captura e acesso aos dados. Define a forma como os dados são movidos. A sua principal função é a conceção do ambiente de utilização de dados. Como são armazenados, acedidos e partilhados / utilizados por diferentes departamentos, sistemas ou aplicações, de acordo com a estratégia empresarial. É um papel estratégico, para o qual é necessária uma visão completa do ciclo de vida. Deve, portanto, considerar aspetos de modelação de dados, conceção de bases de dados, desenvolvimento de SQL e gestão de projetos de software. É também importante conhecer e compreender como as tecnologias tradicionais e emergentes podem contribuir para a realização dos objetivos empresariais. Em última análise, a sua função é assegurar-se de “definir a visão global”.
Decision trees
Uma árvore de decisão é um tipo de algoritmo de aprendizagem supervisionada (aqueles com uma variável-alvo predefinida) que é frequentemente utilizado em problemas de classificação. Funciona tanto para variáveis de entrada / saída contínuas, como para categóricas. Nesta técnica, a população (ou amostra) é dividida em dois conjuntos homogéneos (ou subpopulações) com base no critério de diferenciação mais significativo das variáveis de entrada.
Asset (Data Governance)
Qualquer recurso da empresa necessário para o fornecimento adequado de serviços de informação. É qualquer informação ou sistema relacionado com o seu processamento que seja de valor para a organização, tais como processos empresariais, dados, aplicações, equipamento informático, pessoal, suportes de informação, redes, equipamento auxiliar ou instalações. É suscetível de sofre um ataque deliberado ou acidental, com consequências para a organização.
B
Naive Bayes classifier
Trata-se de um conjunto de algoritmos de classificação baseados no Teorema de Bayes. Não é um único algoritmo, mas uma família de algoritmos que partilham o princípio comum de que qualquer variável que classificamos é independente do valor das outras variáveis. Por exemplo, podemos considerar que uma fruta é uma maçã se for vermelha, redonda e de um certo tamanho. Um classificador Naive Bayes considera que cada uma destas características (vermelha, redonda, diâmetro aproximado) contribui de forma independente para a probabilidade de o fruto ser uma maçã, independentemente das correlações entre as características. No entanto, as características nem sempre são independentes, razão pela qual estes métodos são chamados de “naive”. No entanto, esta simplificação permite que se possam desenvolver facilmente implementações escaláveis destes algoritmos.
Bayesian Statistics
Um procedimento matemático que aplica a probabilidade a problemas estatísticos. Fornece ferramentas que permitem que as previsões sejam atualizadas com a evidência de novos dados. Difere da abordagem clássica, baseada na frequência e, em vez disso, utiliza a probabilidade Bayesiana para resumir a evidência.
Bayes Theorem
Também conhecido como Regra de Bayes, em honra do matemático e ministro presbiteriano do século XVIII Thomas Bayes. O teorema de Bayes é utilizado para calcular a probabilidade condicional. A probabilidade condicional é a probabilidade de que o evento "B" ocorra quando um evento relacionado "A" tenha ocorrido (P(B|A)).
Python Standard Library
Uma biblioteca não é mais do que um conjunto de módulos (ver módulos). A biblioteca padrão Python é muito extensa e oferece uma grande variedade de módulos que desempenham todo o tipo de funções, desde módulos escritos em C que dão acesso às funcionalidades do sistema, tais como acesso a ficheiros (file I/O). No website da Python pode encontrar uma referência a todos os módulos em "The Python Standard Library". Os instaladores Python para plataformas Windows incluem geralmente a biblioteca padrão completa, incluindo alguns componentes adicionais. No entanto, as instalações Python baseadas em pacotes irão requerer instaladores específicos.
Big Data
Em geral, refere-se à capacidade de trabalhar com volumes de dados que anteriormente eram incontroláveis em termos de tamanho, velocidade e variedade ("Os 3 V's"). Um dos fatores que permitiu esta evolução foi a facilidade de distribuir o armazenamento e processamento de dados através de redes baseadas em hardware básico (“commodity”), utilizando tecnologias Hadoop, em vez de necessitar de computadores dedicados grandes e poderosos. Mas não é o volume de dados que é importante. É a forma como as empresas utilizam estes dados para gerar conhecimento (“insights”). As empresas utilizam uma variedade de técnicas, ferramentas e recursos para dar sentido a estes dados e basear neles, estratégias empresariais mais eficientes.
Blaze
É uma biblioteca Python que estende as capacidades da Numpy e da Pandas a dados distribuídos e em streaming. Pode ser utilizada para aceder a dados de um grande número de fontes, tais como Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc.
Blockchain
Blockchain é um conjunto de tecnologias que permitem a transferência de um valor ou ativo de um lugar para outro, sem intervenção de terceiros. Neste modelo, a autenticidade não é verificada por um terceiro, mas por uma rede de nós (computadores ligados à rede). Por conseguinte, as transferências de ativos são feitas através do consenso e do armazenamento de informação de forma transparente.
Bokeh
É uma biblioteca Python que lhe permite gerar gráficos interativos atrativos em 3D e aplicações web. É utilizada para aplicações de desempenho com dados de streaming.
Bot
Bot, chatbot, talkbot, chatterbot, assistente de conversação, assistente virtual, etc., são apenas nomes diferentes para programas informáticos que comunicam connosco como se fossem humanos. Os bots podem fazer muitas tarefas, algumas boas, tais como comprar bilhetes para concertos, desbloquear a conta de um utilizador ou oferecer opções para reservar uma casa de férias em datas específicas; e outras não tão boas, tais como realizar ciberataques ou causar uma catástrofe financeira ao realizar operações na bolsa de valores a alta velocidade. Os bots (abreviatura de "robot") podem ser concebidos em qualquer linguagem de programação e funcionar como cliente, servidor, agente móvel, etc. Quando se especializam numa função específica, são frequentemente referidos como "Sistemas Especializados".
C
C++
É uma linguagem centrada principalmente em software de baixo nível, como componentes de sistemas operativos ou protocolos de rede. É frequentemente utilizada em sistemas integrados e infraestruturas operadas por sensores. Embora possa ser uma linguagem complicada para principiantes, tem um grande potencial. Tem bibliotecas muito úteis para a Machine Learning, tais como LibSVM, Shark e MLPack.
Hidden layer
Nas redes neurais, uma camada oculta é uma camada sintética entre a camada de entrada (a camada de características) e a camada de saída (a camada de previsão). Numa rede neural pode haver uma ou mais camadas escondidas.
Feature
Este é o termo utilizado no campo da aprendizagem automática para se referir a uma unidade de informação sobre algo. Se armazenar a idade, o rendimento anual e o peso de um conjunto de pessoas, está a guardar três características sobre elas. No mundo da IT, em vez de características, são muitas vezes chamadas de propriedades, atributos ou campos. O processo de seleção de características consiste em escolher as características mais relevantes para a capacidade de previsão do modelo estatístico, descartando aquelas que tenham menor influência. Isto pode ser feito através da filtragem das características menos úteis, ou combinando várias características para criar uma nova característica.
Autonomous vehicle
Um carro conectado é uma experiência de condução inteligente de veículos que fornece informação em tempo real sobre o funcionamento e a utilização do veículo, para que os clientes possam tomar decisões mais eficientes. Está integrado na vida diária do utilizador, que permanece conectado enquanto conduz, e permite-lhe aceder à informação através de uma aplicação móvel onde os dados recolhidos pelo dispositivo conectado ao automóvel são recebidos.
Analyst firms
As casas de análises são fundamentais no nosso setor. São especialistas em diferentes matérias tecnológicas e são formadores de opinião. Têm grande influência sobre os bancos de investimento, atuam como reguladores e como fornecedores de Tecnologias da Informação e Comunicação (TIC). Muitas destas casas geram os seus próprios estudos onde posicionam as Telco em diferentes aspetos e, como resultado, chegam a intervir nas decisões de compra dos clientes no segmento empresarial. São como um medidor de qualidade para empresas.
Chatbot
Um chatbot é um bot (ver bot) ou um assistente virtual que utiliza um chat como interface de comunicação com humanos.
Chi-square test
Um método estatístico utilizado para testar se uma classificação de dados pode ser devida ao acaso ou a alguma lei subjacente (Wordpanda). O teste do qui-quadrado é uma técnica analítica utilizada para estimar se duas variáveis estão correlacionadas numa tabulação cruzada.
Cibersecurity
A instalação de milhões de dispositivos hiperconectados, heterogéneos e numa escala muito diversa traduz-se num claro desafio de segurança. A cibersegurança é responsável pela defesa de todas estas interligações entre dispositivos para evitar ciberataques maliciosos que possam recolher ilegalmente informações e/ou dados pessoais.
Smart Cities
Uma Cidade Inteligente ou Smart City é um cenário no qual a tecnologia é utilizada a fim de melhorar as diferentes infraestruturas para os cidadãos. É um espaço com milhões de dispositivos e de soluções IoT conectadas, cujo principal desafio é como gerir de forma útil e eficiente o enorme volume de dados em tempo real e de uma forma integrada.
Data Scientist
É o responsável por realizar uma análise prescritiva do histórico de dados empresariais, de modo a poder não só antecipar o que irá acontecer no futuro e quando, mas também dar uma razão para tal. Desta forma, pode sugerir que decisões devem ser tomadas para aproveitar uma futura oportunidade de negócio ou mitigar um risco potencial, mostrando a implicação de cada opção no resultado. A sua função é construir e aplicar modelos de Machine Learning capazes de continuar a aprender e a melhorar a sua capacidade preditiva à medida que o volume de dados recolhidos aumenta. Este papel requer conhecimentos avançados de matemática em geral (e de estatística em particular), conhecimentos de Machine Learning, conhecimentos de programação em SQL, Phyton, R ou Scala. O Analista de Dados é por vezes considerado um Cientista de Dados "em formação". Portanto, a fronteira entre as tarefas e as Funções dos dois papéis não é, por vezes, tão clara. Em suma, a sua função é “Moldar o futuro".
Data Science
É uma combinação de análise de dados, desenvolvimento de algoritmos, estatística e engenharia de software para resolver problemas analíticos. O seu principal objetivo é utilizar dados para obter valor comercial.
Binary Class
As variáveis binárias são variáveis que podem ter apenas dois valores. Por exemplo, uma variável "Fumador?" pode ter o valor "Sim" ou "Não".
Classification
É um método de aprendizagem supervisionada onde a variável de saída é categórica, tal como "Masculino” e "Feminino", ou "Sim” e "Não". Por exemplo, decidir se uma mensagem de e-mail é spam ou analisar filmes para os classificar por género são tarefas típicas resolvidas por um algoritmo de classificação. Alguns destes algoritmos são: regressão logística, árvore de decisão, Support Vector Machine, etc.
Cloud
É o fornecimento de serviços alojados através da Internet que permite às empresas ou aos indivíduos consumir recursos informáticos como uma utilidade em qualquer lugar, em vez de ter de construir e manter infraestruturas informáticas em sua casa ou no escritório. Ter os seus documentos na nuvem permite-lhe aceder a eles a partir de qualquer lugar, em qualquer dispositivo, em qualquer altura e sem necessidade de um dispositivo físico (por exemplo, um computador).
Coefficient
Trata-se de um número ou símbolo algébrico prefixado como multiplicador de uma variável ou quantidade desconhecida. Quando se representa graficamente uma equação como y=3X+4, o coeficiente de "x", neste caso "3", determina a pendente da reta. Nas estatísticas, alguns coeficientes são frequentemente mencionados, tais como o coeficiente de correlação, o coeficiente de Cramer ou o coeficiente de Gini.
Edge Computing
É um novo paradigma de computação cuja abordagem aproxima o processamento e armazenamento de dados dos dispositivos que o geram, eliminando a dependência de servidores na cloud ou em data centers localizados a milhares de quilómetros de distância.
Confidentiality (Data Governance)
Assegurar que a informação seja acessível apenas às pessoas autorizadas a ter acesso. A propriedade com que as informações contidas num sistema de informação devem cumprir, pelo que tais informações só são acessíveis para consulta por pessoas autorizadas.
Shell
Ao aceder a um sistema operativo a partir da linha de comando, estamos a utilizar a consola. Para além de linguagens de script como Perl e Python, ferramentas baseadas em Linux como grep, diff, splitt, comm, head e tail são normalmente utilizadas para executar tarefas de preparação / depuração de dados a partir da consola.
Data Controller
A Organização que recolhe os dados (para fins de RGDP)
Correlation
Consiste na correspondência relativa entre dois conjuntos de dados. Se as vendas subirem à medida que o orçamento de publicidade aumenta, isso significa que os dois estão correlacionados. O coeficiente de correlação mede até que ponto dois conjuntos de dados estão correlacionados. Um coeficiente de valor "1" implica uma correlação perfeita, ao passo que 0,9 é uma correlação forte e 0,2 uma correlação fraca. Este valor também pode ser negativo, por exemplo, quando a incidência de uma doença é reduzida através do aumento da taxa de vacinação contra ela. Um coeficiente "-1" é uma correlação negativa perfeita. No entanto, nunca se deve esquecer que a correlação não implica uma causalidade.
Covariance
Consiste na relação entre duas variáveis cujos valores são observados ao mesmo tempo, em particular, o valor médio das duas variáveis dividido pelo produto dos seus valores médios. Tal como a variância mede o desvio de uma variável relativamente à sua média, a covariância mede o desvio conjunto de duas variáveis da sua média.
Kurtosis
A curtose é uma medida que serve para analisar o grau de concentração apresentado dos valores de uma variável analisada em torno da área central da distribuição de frequências. Uma curtose mais elevada implica uma maior concentração de dados, muito próxima da média da distribuição (pico), coexistindo ao mesmo tempo com uma frequência relativamente elevada de dados longe dela.
D
Holdout data
São exemplos que, intencionalmente, não são utilizados (são “retidos”) durante o treino. Os conjuntos de dados de validação e os dados de teste são exemplos de dados de teste. Estes dados ajudam a avaliar a bondade de um modelo para generalizar sobre dados diferentes dos dados utilizados para o treinar. A função de perda em dados de teste dá uma melhor estimativa do valor em novos dados do que esta função dá em dados de treino.
Structured data
Os dados estruturados são os dados típicos da maioria das bases de dados relacionais (RDBMS). Estas bases de dados são caracterizadas por um esquema particular que define como são as tabelas em que os dados são armazenados, que tipo de campos têm e como se relacionam entre si.
Unstructured data
Os dados não estruturados representam 80% do volume de todos os dados gerados, e esta percentagem está a crescer de forma constante. Estes dados podem ter uma estrutura interna, mas não seguem qualquer esquema ou modelo de dados predefinido. Podem ser dados textuais ou não textuais; podem ser gerados por máquinas ou gerados por humanos; e podem ser armazenados numa base de dados NoSQL ou diretamente numa base de dados Datalake.
Semi-structured data
Os dados semiestruturados não têm um esquema definido. Não cabem num formato de tabelas / linhas / colunas, mas são organizados por meio de etiquetas ou “tags” que permitem agrupá-los e criar hierarquias. São também conhecidos como não-relacionais ou NoSQL.
Deeplearning4j
É uma biblioteca dedicada à Deep learning, escrita para Java e Scala. Fornece um ambiente para os programadores treinarem e construírem modelos de IA.
Standard Deviation
É a raiz quadrada da variância e é normalmente usada para indicar até que ponto uma dada medida se afasta da média. Por exemplo, se uma observação se desviar da média em mais de três vezes o desvio padrão, podemos dizer, na maioria das aplicações, que estamos a lidar com um caso anómalo. Os pacotes de software estatístico calculam automaticamente o desvio padrão.
Digital Director ("Chief Data Officer" CDO)
É responsável por liderar, planear e controlar a transformação digital de qualquer marca. É, portanto, responsável pelas áreas de Governança de Dados, Gestão de Informação e Segurança. O seu papel é estabelecer uma estratégia que assegure o crescimento digital da empresa de forma sustentável ao longo do tempo, capaz de se adaptar com fluidez às contínuas mudanças do panorama digital. Terá também de promover relações internas e externas na organização, atrair os melhores talentos, liderar equipas e resolver diplomaticamente potenciais tensões que possam surgir entre diferentes departamentos na empresa. Para este papel, é muito importante ter uma vasta experiência no mundo digital, visão estratégica, capacidades de comunicação para o trabalho em equipa e criatividade. O CDO deve ser inovador, por vezes até disruptor, e ter poder de decisão e recursos. Por conseguinte, normalmente reporta ao CEO (Diretor Geral). O CDO pode ter algumas "sobreposições" com a figura do CIO (Chief Information Officer), mas é um papel que, para além dos aspetos de inovação tecnológica, tem uma clara componente de marketing que está muito orientada para a exploração dos "Ativos Digitais".
Availability (Data Governance)
A propriedade com que a informação contida num sistema de informação deve cumprir, estando a informação disponível para consulta ou modificação quando requerido por um utilizador com as devidas permissões.
Probability distribution
A distribuição de probabilidade de uma variável aleatória discreta é o conjunto de todos os valores possíveis que a variável pode ter, juntamente com as suas probabilidades de ocorrência. Para variáveis discretas, as principais distribuições de probabilidade são a binomial, a de Poisson e a hipergeométrica (esta última para eventos dependentes). Para variáveis contínuas, a distribuição gerada é a distribuição normal ou gaussiana.
Normal distribution
Também conhecida como distribuição gaussiana. É uma distribuição de probabilidade cuja representação gráfica é uma curva simétrica em forma de sino com o valor médio no centro. A altura e a largura da curva são dadas pelo desvio padrão. Uma característica importante desta curva em forma de sino é que ela permite a modelação de muitos fenómenos naturais, sociais e psicológicos. Embora estes fenómenos sejam influenciados por muitas variáveis aleatórias, o comportamento da soma destes fenómenos individuais segue, de facto, o padrão de uma distribuição normal. Isto é devido ao teorema do limite central. Por exemplo, quando falamos de variáveis aleatórias, tais como altura, peso ou rendimentos de uma pessoa, a distribuição de probabilidade destas variáveis seguirá uma distribuição normal e, portanto, os valores mais frequentes estarão no centro, enquanto os valores menos frequentes estarão nos extremos.
T-distribution
São variações das distribuições normais. Foram descobertas por William Gosset em 1908 e publicadas sob o pseudónimo "Estudante". Precisava de uma distribuição que pudesse utilizar quando o tamanho da amostra fosse pequeno e a variância fosse desconhecida e tivesse de ser estimada a partir dos dados. As distribuições t são utilizadas para contabilizar a incerteza acrescida resultante desta estimativa.
Drones
Um Drone é um veículo aéreo não tripulado (VANT) que voa por controlo remoto. Hoje em dia, tem diferentes funções muito úteis à sociedade, por exemplo: ajudar a reduzir acidentes nas estradas, detetar incêndios em campos abertos, ajudar a irrigar os campos de forma mais eficiente...
E
Data Engineer
São especialistas em processamento de dados. Os engenheiros de dados são aqueles que, a partir de um conjunto de dados confusos, criam a infraestrutura que permite a sua análise de uma forma real e tangível. Para tal, utilizam software ETL (Extract, Transform and Load—Extração, Transformação e Carregamento de Dados), combinam conjuntos de dados e depuram e enriquecem os dados que algumas empresas têm vindo a armazenar há anos.
Scalar
Uma variável é de tipo escalar (por oposição a vetorial) quando tem um valor de magnitude, mas sem direção no espaço, por exemplo, volume ou temperatura.
Strata, stratified sampling
Consiste em dividir as amostras de população em grupos homogéneos ou estratos e recolher uma amostra aleatória de cada um deles. Strata é também uma conferência de O'Reilly sobre Big Data, Data Science e tecnologias relacionadas.
Customer Experience
A experiência do utilizador é o conjunto de fatores e ações que têm lugar quando o utilizador interage com um produto ou ambiente. A perceção que a pessoa tem em cada caso pode ser positiva ou negativa e influenciará o processo de compra que poderá ou não ter lugar. Esta perceção pode provir de muitos fatores diferentes, tais como o design, as emoções, os sentimentos, a experiência da marca, a fiabilidade do produto, etc.
F
Random forest
É um algoritmo utilizado para tarefas de regressão ou classificação, que se baseia numa combinação de árvores preditoras. "Para classificar um novo objeto a partir de um vetor de entrada, cada árvore da floresta é alimentada com esse vetor. Cada árvore fornece um resultado de classificação, e dizemos que "vota" por esse resultado. A floresta escolhe a classificação que tem o maior número de votos entre todas as árvores da floresta. O termo “random forest” é uma marca registada dos seus autores.
Activation function
Uma função de ativação é uma função que transmite a informação gerada pela combinação linear de pesos e entradas, ou seja, o meio de transmitir a informação através das conexões de saída. Como queremos que a rede seja capaz de resolver problemas cada vez mais complexos, as funções de ativação geralmente tornarão os modelos não lineares. As mais conhecidas são a função escalonada, sigmoide, ReLu, de tangente hiperbólica ou de base radial (Gaussiana, multiquadrática, multiquadrática inversa)
G
GATE
“General Architecture for Text Engineering” é um ambiente de arquitetura geral para a engenharia de textos. Este ambiente é de código aberto, baseado em Java, e destina-se ao processamento de tarefas em linguagem natural. Permite a integração com outras ferramentas concebidas para interagir com ele. É um projeto da Universidade de Sheffield, Reino Unido.
Data Gobernance Manager
É responsável por definir e organizar o processo de recolha, armazenamento e acesso aos dados, garantindo a todo o momento a sua segurança e confidencialidade. A sua função consiste em definir e verificar o cumprimento de políticas e normas. Gerir o ciclo de vida dos dados e assegurar que os dados são mantidos de forma segura e organizada, e que são acessíveis apenas a pessoas autorizadas. Para este papel, é necessário combinar um conhecimento funcional de como funcionam as bases de dados e outras tecnologias associadas, com um conhecimento profundo da regulamentação de cada indústria em particular (financeira, farmacêutica, telecomunicações, etc.) Em suma, a sua função é "Definir e assegurar o cumprimento das regras que definem o fluxo de dados". Uma vez que tenhamos um sistema em que os dados estejam bem organizados, acessíveis e guardados com segurança, o que nos interessa é aproveitá-los ao máximo, extraindo deles valiosos "Insights" ou chaves para padrões de comportamento que, quando aplicados aos nossos processos do dia-a-dia, os tornam mais eficientes e inovadores. Este é o momento em que dois novos papéis entram em jogo.
Github
A GitHub é uma empresa sem fins lucrativos que oferece um serviço de hosting para repositórios armazenados na nuvem. Foi comprada pela Microsoft em 2018. A GitHub baseia-se na colaboração entre utilizadores, permitindo a vários programadores experimentar com código aberto e partilhar os seus diferentes projetos e ideias.
Data Governance
Um conjunto de políticas e boas práticas que permitem processos que visam promover os dados como um ativo dentro de uma organização para melhorar a tomada de decisões.
Gradient Boosting
O Gradient boosting ou Gradiente de reforço é uma técnica de aprendizagem automática utilizada para a análise de regressão e para problemas de classificação estatística, que produz um modelo preditivo sob a forma de um conjunto de modelos de previsão fracos, geralmente árvores de decisão. Constrói o modelo iterativamente e generaliza-o, permitindo a otimização de uma função de perda diferenciável arbitrária. (Wikipedia)
H
Hadoop
O Hadoop é um projeto open source da Apache Foundation, introduzido em 2006, e desenvolvido em Java, cujo objetivo é oferecer um ambiente de trabalho de acordo com as necessidades da Big Data. O Hadoop, portanto, foi concebido para trabalhar com volumes de dados massivos (Volume), estruturados ou não estruturados (Variedade), e processá-los de forma segura e eficiente (Veracidade / Velocidade), tanto em termos de custo como de tempo. Para tal, distribui tanto o armazenamento da informação, como o seu processamento, entre muitas equipas que trabalham de forma coordenada “em clusters”, com um ou vários nós mestres encarregados de gerir, por um lado, o sistema de ficheiros distribuídos onde os dados são armazenados em diferentes blocos redundantes; e, por outro lado, a coordenação e execução dos diferentes jobs ou tarefas entre os membros do cluster. É, portanto, um sistema altamente escalável que também oferece redundância de software.
Heuristic
Um método heurístico consiste em encontrar uma solução prática para um problema, mesmo que não seja a ideal, mas suficiente para fazer mais progressos ou para aprender com ela. "Em algumas ciências, uma forma de procurar uma solução para um problema por métodos não rigorosos, tais como por tentativa e erro, regras empíricas, etc.". (RAE)
Hyperplane
É um limite que separa o espaço em dois subespaços. Por exemplo, uma linha é um hiperplano em duas dimensões, e um plano é um hiperplano em três. Na aprendizagem automática, um hiperplano é o limite que separa um espaço de muitas dimensões. Os algoritmos Kernel Support Vector Machine utilizam hiperplanos para separar classes positivas das negativas em espaços multidimensionais.
Histogram
É uma representação gráfica de um conjunto de dados numéricos, geralmente sob a forma de um gráfico de barras verticais.
I
Imputation
A imputação é uma técnica utilizada quando há valores em falta no conjunto de dados. É realizada por meio de técnicas estatísticas, como a substituição pela mediana ou pela moda, ou por técnicas de aprendizagem automática, como a imputação kNN.
Lift
Na mineração de dados, o indicador de confiança (“lift”) compara a frequência de um padrão observado com a frequência em que poderíamos ver o mesmo padrão por acaso. Se o valor de "Lift" for próximo de 1, é bem possível que o padrão que observamos seja puramente coincidente. Quanto mais alto for este valor, maior é a probabilidade de o padrão ser real.
Industry 4.0
Também conhecida como a 4ª Revolução Industrial, procura transformar uma empresa numa organização inteligente, a fim de otimizar os seus recursos e poupar custos. Como resultado desta transformação digital, o negócio torna-se mais eficiente e alcança maior competência.
Inferential Statistics
Uma inferência estatística (estatística dedutiva) é quando tentamos retirar hipóteses sobre toda uma população, analisando apenas uma amostra da mesma. Por exemplo, antes de um medicamento ser introduzido no mercado, são realizados testes para comprovar a sua viabilidade. Mas é impossível testar toda a população, por isso, os testes são realizados na amostra que melhor representa a população.
Innovation
A inovação, na maioria dos casos, é uma transformação através da qual são produzidas mudanças para introduzir melhorias ou novas funcionalidades nas soluções existentes. Outras vezes, é um processo de criação de novas soluções a partir do zero. Em qualquer caso, estes desenvolvimentos são criados pelo engenho humano para melhorar a nossa qualidade de vida como espécie e estão intimamente ligados à ciência e à tecnologia.
Data Insight
Não é difícil explicar o conceito, o que é complicado é encontrar um termo em português que o resuma. O conceito de “data insight significa o profundo conhecimento ou compreensão de dados de uma forma que possa orientar ações empresariais corretas e produtivas. As empresas “Data-driven” são aquelas que tomam decisões com base em dados, em particular, insights de dados (decisões baseadas em dados). As soluções da LUCA ajudam as empresas a tornarem-se em empresas Data-driven.
Integrity (Data Governance)
A propriedade com que a informação contida num sistema de informação deve cumprir, pelo que a informação não pode ser modificada sem deixar vestígios de que tal modificação tenha tido lugar, quer nos meios físicos em que é armazenada, quer no transporte da informação através de redes de comunicação.
Artificial Intelligence of Things (AI of Things)
Quando a inteligência artificial e as tecnologias da IoT e da Big Data unem forças para que "as coisas sejam capazes de aprender, partilhar informação umas com as outras e tomar decisões de uma forma quase desacompanhada" para ajudar as organizações a tomar decisões que melhorem a vida das pessoas.
Artificial intelligence
Também conhecida como IA. Na origem da IA nos anos 60, os investigadores implementaram princípios gerais de "inteligência", geralmente automatizando o raciocínio baseado na lógica simbólica. À medida que os custos em recursos de hardware e software foram sendo reduzidos, o foco deslocou-se do raciocínio baseado em regras para a tomada de decisões "inteligentes" baseadas na análise estatística de grandes quantidades de dados.
Cognitive intelligence
A Inteligência Cognitiva é uma parte, embora importante, da Inteligência Artificial, que engloba principalmente as tecnologias e ferramentas que permitem às nossas apps, websites e bots ver, ouvir, falar, compreender e interpretar as necessidades do utilizador através de uma linguagem natural. Ou seja, são as aplicações de IA que permitem às máquinas aprender a linguagem dos utilizadores para que estes não tenham de aprender a linguagem das máquinas.
Business Intelligence
É o conjunto de estratégias, aplicações, dados e tecnologias utilizadas por uma organização para armazenar dados, analisá-los e extrair conclusões (Insights) a partir das quais se podem obter oportunidades de negócio estratégicas.
Internet of Things (IoT)
A Internet of Things ou Internet das Coisas baseia-se na conectividade de milhões de objetos entre si, permitindo-nos aproveitar ao máximo todos os aspetos das nossas vidas. São objetos físicos com sensores integrados para conectar e trocar dados com outros dispositivos e automatizar tarefas, para que possa passar o seu tempo a fazer o que realmente gosta.
Interpretability
Indica o grau em que as previsões de um modelo podem ser interpretáveis. Os modelos baseados na Aprendizagem Profunda (Deep Learning) não o são frequentemente, ou seja, pode ser muito difícil decifrar o que um modelo com diferentes camadas está a fazer. Em contraste, os modelos de regressão linear são facilmente interpretáveis.
Confidence interval
Um intervalo definido em torno de um valor estimado para indicar a margem de erro, combinado com a probabilidade de um valor estar dentro desse intervalo. As estatísticas fornecem fórmulas matemáticas específicas para o cálculo de intervalos de confiança.
IoMT
A IoMT ou Internet das Coisas Médicas é a sensorização de dispositivos médicos para recolher os dados extraídos destes dispositivos e analisá-los, a fim de fornecer um melhor serviço aos pacientes e a profissionais de saúde. Isto traduz-se em grandes vantagens, tanto para os trabalhadores como para os pacientes: - Poupar recursos económicos pela digitalização de revisões médicas através de gadgets, a fim de reduzir o custo das contas hospitalares - Melhorar a qualidade de vida dos pacientes através da gestão e recolha de dados, a fim de detetar e prevenir doenças de uma forma mais personalizada - Automatizar processos, a fim de otimizar os recursos e o pessoal de saúde da melhor forma possível - Melhorar a experiência do utilizador nos centros de saúde, otimizando o espaço através da contagem de pessoas, a fim de reduzir os tempos de espera
J
Java
É uma das linguagens de programação mais utilizadas na aprendizagem mecânica devido à sua grande consistência, clareza e fiabilidade. É uma linguagem open source, compatível com qualquer plataforma, que pode ser utilizada para praticamente qualquer aplicação. Tem um grande número de bibliotecas, algumas das quais centradas no mundo da Machine Learning, tais como Spark+MLlib, Mahout e Deeplearning4j.
K
Keras
É uma API de aprendizagem automática muito popular, baseada na Python. A Keras funciona sobre vários ambientes de aprendizagem profunda (deep learning), incluindo o TensorFlow, que é encontrado como tf.keras.
k-means clustering
É um tipo de Algoritmo supervisionado utilizado para tarefas de clustering. É um processo que simplesmente classifica um conjunto de dados em vários clusters ou agrupamentos (digamos "k" clusters). Os dados são homogéneos dentro de cada cluster, e heterogéneos em relação aos dados de clusters vizinhos.
k-nearest neighbors
O Algoritmo K-Nearest Neighbors é um algoritmo de classificação simples que classifica a probabilidade de um elemento x pertencer a uma determinada classe, com base na informação sobre os seus vizinhos "k". Ao novo elemento é atribuída a classe mais comum entre os seus vizinhos mais próximos, de acordo com uma função de distância. Estas funções de distância podem ser de vários tipos: Euclidean, Manhattan, Minkowski ou Hamming. As três primeiras são utilizadas para funções contínuas, e a quarta para variáveis categóricas.
L
LISP
Acrónimo de List Processor, uma linguagem criada por John McCarthy, hoje considerado por muitos como o pai da Inteligência Artificial. A sua ideia era otimizar o funcionamento e a utilização dos recursos dos computadores da época. Esta nova linguagem, parcialmente baseada na linguagem Fortran já existente, utilizava algumas técnicas inovadoras, tais como estruturas de dados em árvore ou o uso de computação simbólica, da qual mais tarde nasceria a programação simbólica. A Lisp rapidamente se tornou na linguagem de eleição no mundo da Inteligência Artificial.
LibSVM
É uma biblioteca de C++ que é muito útil para trabalhar com máquinas de vetores de suporte (SVM). É utilizada para resolver problemas de classificação e regressão.
Scripting languages
As linguagens de programação de script podem ser executadas diretamente sem a necessidade de as compilar primeiro em código binário, como é o caso de linguagens como Java e C. A sintaxe das linguagens de script é muito mais simples do que a das linguagens compiladas, o que facilita muito as tarefas de programação e execução. Exemplos de tais linguagens são Python, Perl, Rubi, etc.
Computational linguistics
Também conhecida como processamento de linguagem natural PLN. É um ramo da informática que analisa a linguagem falada (por exemplo, em chinês ou inglês) e a converte em dados estruturados que podem ser utilizados como comandos lógicos num programa. Inicialmente, o foco estava em traduzir de uma linguagem para outra, ou aceitar frases completas como consultas para bases de dados. Os esforços estão atualmente concentrados na análise de documentos e outros dados (por exemplo, tweets) para extrair informação potencialmente valiosa.
Logarithm
Na análise matemática, geralmente, o logaritmo de um número real positivo — numa dada base logarítmica — é o expoente ao qual a base deve ser elevada para obter esse número. Os logaritmos são utilizados para transformar a multiplicação em adição e a divisão em subtração. Por conseguinte, simplificam muito os cálculos numéricos. Trabalhar com o logaritmo de uma ou mais variáveis num modelo é mais fácil do que trabalhar com os valores originais, uma vez que permite construir modelos baseados em funções lineares em vez de não lineares.
Smart Retail
A loja conectada é também conhecida por outros nomes, tais como loja IoT, loja do futuro ou loja inteligente. Em suma, uma loja conectada é uma loja tradicional que passou por uma transformação digital e adaptou os seus espaços a novos cenários com dispositivos IoT, para oferecer aos seus clientes uma melhor experiência de utilização. As marcas estão a esforçar-se por adaptar os benefícios do comércio online aos pontos de venda físicos para atrair novos clientes, aumentar as vendas e construir a fidelidade à marca.
M
M2M
Machine to Machine (M2M) é a conexão ou troca de informação, em formato de dados, que é criada entre duas máquinas conectadas. É, de certa forma, na conectividade que se baseia a Internet of Things (IoT). O termo M2M é agora obsoleto, uma vez que evoluiu para o que chamamos IoT, que, para além das máquinas, também conecta as pessoas.
MATLAB
É uma linguagem e ambiente de visualização e desenvolvimento de algoritmos comercial muito popular.
Mahout
É uma biblioteca Java muito semelhante à NumPy no Python. Centra-se em expressões matemáticas, algébricas e estatísticas.
Support vector machine
Uma máquina de vetores de suporte é um algoritmo de aprendizagem automática supervisionada utilizado tanto para tarefas de classificação como de regressão. Baseiam-se na ideia de encontrar o hiperplano que melhor divide o conjunto de dados em duas classes distintas. Intuitivamente, quanto mais longe do hiperplano estão os nossos valores, mais seguros estamos de que eles estão corretamente classificados. No entanto, por vezes, não é fácil encontrar o hiperplano que melhor classifica os dados e é necessário saltar para uma dimensão superior (do plano para 3 dimensões ou mesmo n dimensões). As SVMs são utilizadas para tarefas como a classificação de texto, deteção de spam, análise de sentimentos, etc. São também utilizadas para o reconhecimento de imagens.
Matplotlib
É uma biblioteca Python que lhe permite realizar todo o tipo de gráficos: desde histogramas, a gráficos de linhas ou mapas de calor. Também permite o uso de comandos LaTeX para adicionar expressões matemáticas a um gráfico.
Confusion matrix
É uma tabela frequentemente utilizada para descrever o desempenho de um modelo de classificação. É constituída por uma matriz N*N, onde N é o número de classes. A matriz é completada com os valores previstos pelo modelo versus os valores reais. O segundo quadrante é chamado de erro Tipo II ou "falsos negativos", enquanto o terceiro quadrante é chamado de erro Tipo I ou "falsos positivos".
Correlation matrix
A matriz de correlação mostra os valores de correlação de Pearson, que medem o grau de relação linear entre duas variáveis. Os valores de correlação estão normalmente entre -1 e +1. No entanto, na prática, os elementos têm geralmente correlações positivas. Se os dois elementos tendem a aumentar ou a diminuir ao mesmo tempo, o valor de correlação é positivo. Em geral, as variáveis com valores de correlação superiores a 0,7 são consideradas altamente correlacionadas, embora o valor possa depender de cada caso particular.
Metadata
Dados sobre dados, que permitem que a informação seja contextualizada. Descrevem as características dos dados para ajudar a identificá-los, descobri-los, valorizá-los e geri-los. Existem três tipos de metadados: técnicos, organizacionais e comerciais (TON).
Evaluation metrics
O objetivo das métricas de avaliação é medir a qualidade do modelo estatístico / de Machine Learning.
Data mining
Consiste na utilização de computadores para analisar grandes conjuntos de dados (estruturados ou não estruturados) de várias fontes, em busca de padrões que permitam a tomada de decisões empresariais. É um termo que remonta aos anos 90. A mineração de dados é utilizada na análise de mercado, definição de padrões de compra, planeamento financeiro, deteção de fraudes, etc.
Mlpack
Esta biblioteca de C++ destina-se a fornecer uma implementação rápida de algoritmos de Machine Learning. Facilita a integração de algoritmos em soluções de maior escala através de uma linha de código.
Predictive Modeling
Implica o desenvolvimento de modelos estatísticos e de aprendizagem automática para prever o comportamento futuro com base em dados históricos.
Python Module
Os módulos são a forma da Python armazenar definições (instruções ou variáveis) num ficheiro, para que possam ser utilizadas mais tarde num script ou numa instância interativa do intérprete. Desta forma, não precisam de ser redefinidas de cada vez. A principal vantagem da capacidade da Python de separar um programa em módulos é, evidentemente, podermos reutilizá-los noutros programas ou módulos. Para o fazer, será necessário importar os módulos que se pretende utilizar em cada situação. A Python vem com uma coleção de módulos padrão que podem ser utilizados como base para um novo programa ou como exemplos para começar a aprender.
N
NB-IoT
NB-IoT são as primeiras tecnologias padrão 3GPP concebidas ad hoc para a IoT nas bandas licenciadas. Ambas as tecnologias fazem parte de redes LPWA (low power wide area) e foram concebidas para otimizar o consumo massivo de Low Data e aplicações IoT de baixo custo. Graças a esta tecnologia, podemos reduzir o custo dos dispositivos e prolongar a vida útil das baterias durante anos. Também oferece melhor cobertura, tanto em interiores (locais de difícil cobertura, por exemplo, caves), como em exteriores (longo alcance).
NoSQL
Os sistemas tradicionais de bases de dados tradicionais, conhecidos como sistemas relacionais (RDBMS) dependem fortemente de linhas, colunas, esquemas e tabelas, para recuperar e organizar os dados armazenados em bases de dados. Para este fim, utilizam uma linguagem de consulta estruturada SQL. Estes sistemas apresentam certos problemas para trabalhar com Big Data, tais como: não escalabilidade, falta de flexibilidade e problemas de desempenho. As bases de dados não-relacionais NoSQL são muito mais flexíveis. Permitem trabalhar com dados não estruturados, tais como dados de chat, mensagens, dados de registo, dados de utilizador e de sessão, dados de grande dimensão, como vídeos e imagens, bem como dados da Internet das Coisas e dados de dispositivos. São também concebidas para se obter uma altíssima capacidade de volume de armazenamento, graças ao armazenamento distribuído de dados e à velocidade de processamento de informação. São, portanto, altamente escaláveis. São também independentes da linguagem de programação. As bases de dados NoSQL são de código aberto, o que as torna acessíveis, mas, como contrapartida, cria problemas de falta de normalização e interoperabilidade. Algumas das bases de dados NoSQL disponíveis no mercado são: Couchbase, Dynamo Db da Amazon, MongoDB e MarkLogic, etc.
New technologies
As novas tecnologias são técnicas que nunca foram utilizadas antes, mas que surgiram nos últimos anos nos campos das tecnologias da informação e da comunicação. São pequenos avanços na humanidade que ajudam as pessoas a evoluir e tornam as suas vidas mais fáceis. Quando surgiram, ferramentas como a Internet, o DVD, os computadores de secretária e os computadores portáteis eram exemplos deste conceito. Hoje em dia, entendemos como novas tecnologias conceitos como IoT, Big Data, Inteligência Artificial, Realidade Virtual...
NumPy
Acrónimo de Numerical Python, é a principal biblioteca Python para computação científica. Uma das suas características mais poderosas é que pode trabalhar com matrizes (array) de “n” dimensões. Também oferece funções básicas de álgebra linear, transformação de Fourier, capacidades avançadas com números aleatórios, e ferramentas de integração com outras linguagens de baixo nível, tais como Fortran, C e C++.
O
Polanyi Paradox
Michael Polanyi foi um estudioso e filósofo anglo-húngaro que, já em 1966, no seu livro "The Tacit Dimension" (“A Dimensão Tácita”), argumentou que o conhecimento humano se baseia largamente em regras e competências que nos foram transmitidas pela cultura, tradição, evolução, etc., e que, por isso, nem sempre estamos plenamente cientes de tal. Ele definiu o que é chamado de "conhecimento tácito" e resumiu-o nesta frase: We can know more than we can tell = Podemos saber mais do que podemos dizer. O que Polanyi quis dizer com isto é que muitas das tarefas que executamos são baseadas em conhecimento tácito e intuitivo e, por isso, são muito difíceis de codificar ou automatizar. Porquê? Porque nós próprios não sabemos como o fazemos. Por exemplo, alguma vez tentou explicar a uma criança como se salta à corda? Em que momento tem de entrar para não pisar a corda ou ficar enredado nela? Parece simples, não é? Mas não é. Agora imagine como o explicaria a um robô.
P
Pandas
É uma das mais populares bibliotecas de processamento de dados Python entre os cientistas de dados. Consiste numa API de análise de dados orientada por colunas. Muitos ambientes de Aprendizagem Automática, incluindo TensorFlow, trabalham com estruturas de dados Pandas. Ver a documentação sobre a Pandas para mais informações (em inglês).
Moravec´s Paradox
Nos anos 80, Hans Moravec, Rodney Brooks e Marvin Minsky, investigadores no campo da inteligência artificial e da robótica, apresentaram o que é conhecido como o paradoxo de Moravec. Este paradoxo reflete a contradição inerente ao facto de que atividades que envolvem um elevado nível de raciocínio, tais como jogar xadrez ou fazer um teste de inteligência, requerem muito pouca carga computacional, enquanto outras atividades de baixo nível cognitivo, tais como identificar um rosto familiar, requerem uma enorme quantidade destes recursos. Nas palavras do próprio Moravec: “É relativamente fácil conseguir que uma máquina apresente o mesmo desempenho que um adulto num teste de inteligência ou a jogar damas; no entanto, é muito mais difícil, ou mesmo impossível, conseguir com que atinja o nível de habilidade de uma criança de um ano de idade quando se trata de perceção e mobilidade.” É claro que o crescimento exponencial e o barateamento dos recursos informáticos disponíveis pode significar que mesmo estas capacidades sensoriomotoras poderão ser realizadas por uma IA no futuro. Contudo, aqui entra em jogo outro paradoxo, que é anterior ao paradoxo de Moravec, mas que está intimamente relacionado com ele: ver o paradoxo de Polanyi.
Perceptron
O algoritmo perceptron foi criado no final da década de 1950. A sua primeira implementação foi como hardware. Na verdade, foi a primeira rede neural a ser criada. O perceptron é um algoritmo de aprendizagem supervisionada para classificadores binários. É um classificador linear, ou seja, um algoritmo de classificação baseado numa função linear que aplica uma série de funções de peso aos valores de entrada, e passa os valores desta soma ponderada para uma função cujo resultado de saída é "ou". O perceptron é a rede neural mais simples, pois simula o funcionamento de um único neurónio com n valores de entrada binários. Calcula uma soma ponderada dos valores de entrada e dispara se essa soma for igual ou superior a zero.
Profiling
O perfil é o processo de utilização de dados pessoais para avaliar certos aspetos pessoais, a fim de analisar e prever o comportamento / desempenho / responsabilidade, etc.
Perl
É uma antiga linguagem de scripting enraizada em sistemas pré-UNIX. A Perl tem sido amplamente utilizada para processamento de texto e tarefas de limpeza e depuração de dados.
Accuracy
A fração de previsões corretas feitas por um modelo de classificação. Num modelo multiclasse, a precisão é definida da seguinte forma: Precisão=Previsões corretas / Número total de exemplos No caso da classificação binária, a definição é: Precisão= (Verdadeiros Positivos + Verdadeiros Negativos) / Número total de exemplos
Precision and Recall
A precisão (“Precision” em inglês) é uma métrica para modelos de classificação que responde à seguinte pergunta: De todos os resultados que o modelo dá como positivos, quantos são realmente positivos? Representa o quão próximo o modelo ou resultado da medição está do valor real. É também conhecida como a taxa de Verdadeiro Positivo (ou “True positive rate”). A sensibilidade indica quantas das previsões positivas são corretas. A exatidão e a sensibilidade indicam-nos a relevância dos resultados. Por exemplo, um algoritmo muito preciso, (P elevado), dar-nos-á muito mais resultados relevantes do que irrelevantes, enquanto um algoritmo muito específico, (TP elevado), detetará a maioria dos resultados de interesse (os primeiros).
Data Processor – Procesador de datos
Muitas vezes, é um terceiro responsável pela recolha de dados em nome do controlador (para efeitos de RGDP)
Data wrangling
Consiste em converter dados, geralmente através de linguagens de scrip, para um formato em que seja mais fácil trabalhar com eles. É uma tarefa que consome muito tempo.
Natural language processing (NLP)
O processamento da Linguagem Natural é o ramo da Informática, Linguística e Inteligência Artificial que trata do estudo e desenvolvimento de técnicas que permitem aos computadores compreender e processar a linguagem humana.
Pseudonymization
O processo de Pseudonimização é uma alternativa à anonimização de dados. Enquanto a anonimização implica a eliminação completa de toda a informação identificável, a Pseudonimização visa remover a ligação entre um conjunto de dados e a identidade do indivíduo. Exemplos de pseudonimização são a encriptação e a tokenização.
Python
É uma linguagem de programação criada em 1994 que é amplamente utilizada na ciência dos dados. Para principiantes, é muito fácil de aprender, mas, ao mesmo tempo, é uma linguagem muito poderosa para utilizadores avançados, pois possui bibliotecas especializadas para a aprendizagem automática e a geração de gráficos.
Q
R
R
Linguagem de programação de código aberto, de ambiente de cálculo estatístico e de geração de gráficos disponível para ambientes Linux, Windows e Mac.
GDPR
O Regulamento Geral de Proteção de Dados (GDPR), que entrou em vigor em 25 de maio de 2018. Este novo regulamento tem como principal objetivo regular a recolha, a utilização e o intercâmbio de dados pessoais. A quantidade de dados que criamos todos os dias cresce a um ritmo exponencial e, como diz o regulamento, "o tratamento de dados pessoais deve ser concebido para servir a humanidade".
Virtual Reality
É um sistema informático que gera simulações de espaços reais ou fictícios onde podemos interagir e explorar como se estivéssemos realmente lá.
Neural network
É um modelo que, inspirado no funcionamento do cérebro, é composto por diferentes camadas (pelo menos uma das quais está escondida), consistindo em unidades únicas conectadas entre si (neurónios). As redes neurais são utilizadas na aprendizagem profunda para o processamento de imagens (associadas a características) e muito mais. O que torna este tipo de rede especial é a utilização da camada oculta de funções de "peso", os neurónios, com os quais uma rede pode ser construída para reproduzir muitas outras funções. Sem esta camada oculta, as redes neurais não seriam mais do que simples funções ponderadas.
Convolutional neural networks (CNN)
São modelos de aprendizagem profunda que podem aprender automaticamente representações hierárquicas das características. Isto significa que as características calculadas pela primeira camada são gerais e podem ser reutilizadas em diferentes problemas, enquanto as características calculadas pela última camada são específicas e dependem do conjunto de dados e da tarefa escolhida.
Dimension reduction
Implica a utilização de uma técnica chamada de análise de componentes principais, para extrair uma ou mais dimensões que captem a maior variação possível dos dados. Isto é feito usando álgebra linear, que, em resumo, é o ramo da matemática que nos permite traduzir algo que ocorre num espaço de m dimensões para outro espaço com um número menor de dimensões.
Regression
É um método de aprendizagem supervisionada em que a variável de saída é um valor real e contínuo, tal como "altura" ou "peso". A regressão é a adaptação de qualquer conjunto de dados a um determinado modelo. Nos algoritmos de regressão podemos encontrar regressão linear, não linear, por mínimos quadrados, Lasso, etc.
Linear Regression
É uma técnica que procura uma relação linear (isto é, uma relação entre duas quantidades variáveis, como preços e vendas, podendo ser expressa por uma equação cuja representação gráfica é uma linha reta), começando com um conjunto de pontos que inicialmente não estão bem alinhados. Este processo é feito através do cálculo da aproximação por mínimos quadrados. É aquela que, num gráfico de coordenadas cartesianas x-y, dá o melhor ajuste aos dados de acordo com um critério de mínimos quadrados (minimiza a soma dos quadrados das diferenças nas ordenadas entre os pontos gerados pela função escolhida e os valores correspondentes nos dados)
Logistic Regression
É um modelo semelhante à regressão linear, mas os resultados obtidos são categóricos em vez de serem valores contínuos.
Resilience (Data Governance)
A resiliência é a capacidade dos sistemas de manter ou restaurar a sua funcionalidade básica após a ocorrência de um risco ou evento (mesmo desconhecido).
Text summarization o Automatic summarization
É a técnica pela qual podemos sintetizar longos fragmentos de texto em fragmentos de texto mais curtos que contenham apenas a informação que é relevante. Isto permite-nos conceber e desenvolver modelos que nos ajudam a condensar e apresentar a informação, de forma a poupar tempo de leitura e a maximizar a quantidade de informação por palavra.
Robot
Um robô é um sistema eletromecânico com independência própria para criar movimentos ou realizar operações que podem ser, no mínimo, uma questão de estudo. São criados através de uma técnica chamada robótica, que é utilizada para os desenhar e construir.
Ruby
É uma linguagem de script que surgiu em 1996. É amplamente utilizada por cientistas de dados, mas não é tão popular como a Python, que oferece bibliotecas mais especializadas para diferentes tarefas de Data Science.
S
SAS
É um pacote de software estatístico que inclui uma linguagem de programação também conhecida como SAS
SQL
A SQL (Structured Query Language) é uma linguagem padrão e interativa de acesso a bases de dados relacionais que lhe permite especificar vários tipos de operações de bases de dados. A SQL baseia-se na utilização de álgebra e cálculo relacionais para realizar consultas a bases de dados de uma forma simples. As consultas são realizadas utilizando uma linguagem de comando que lhe permite selecionar, inserir, atualizar e averiguar a localização dos dados, e muito mais.
SciPy
Acrónimo de Scientific Python. A SciPy é uma biblioteca Python que está construída sobre a biblioteca de computação científica NumPy. É uma das mais úteis pela sua vasta gama de módulos de ciência e engenharia de alto nível, tais como a transformação de Fourier discreta, a álgebra linear e matrizes de otimização
Scikit Learn
É uma biblioteca Python construída sobre NumPy, SciPy e matplotlib. Esta biblioteca contém um grande número de ferramentas eficientes para Machine Learning e modelação estatística, tais como algoritmos de classificação, regressão, clustering e redução da dimensionalidade.
Scrapy
É uma biblioteca Python utilizada para rastrear a web. É um ambiente muito útil para a obtenção de certos padrões de dados. A partir da URL da homepage de um site, pode rastrear as diferentes páginas do site para recolher informações.
Seaborn
É uma biblioteca Python baseada na matplotlib, utilizada para tornar os gráficos e a informação estatística no Python mais atraentes. Visa dar maior destaque às visualizações, no âmbito das tarefas de exploração e interpretação de dados.
Clustering
É um método de aprendizagem não supervisionada utilizado para descobrir os agrupamentos inerentes aos dados. Por exemplo, agrupamento de clientes de acordo com os seus hábitos de compra, a fim de os segmentar. Desta forma, as empresas podem definir as estratégias de marketing mais adequadas para aumentar os seus lucros. Exemplos de algoritmos de clustering são: K-Means, clustering hierárquico, etc.
Sensitivity and Specificity
São métricas estatísticas utilizadas para medir o desempenho de um classificador binário. A sensibilidade (também chamada de taxa de verdadeiro positivo, ou de probabilidade de deteção em alguns campos) mede a proporção de casos positivos corretamente identificados pelo algoritmo classificador. Por exemplo, a percentagem de pessoas com uma doença que são corretamente detetadas. A sua fórmula é: Sensibilidade=Verdadeiros Positivos/ (Verdadeiros Positivos + Falsos Negativos) A especificidade (também chamada de taxa de verdadeiros negativos) mede a proporção de casos negativos corretamente identificados como tal pelo algoritmo classificador. Por exemplo, é utilizada para indicar o número de pessoas saudáveis que foram corretamente identificadas como tal pelo algoritmo. Especificidade=Verdadeiros Negativos/ (Verdadeiros Negativos + Falsos Positivos)
IoT Sensors
Um sensor IoT é um dispositivo capaz de detetar, medir ou indicar alterações num espaço / objeto físico, transforma-as num sinal elétrico e carrega-as de uma forma legível numa plataforma de conectividade. Estes sensores podem medir uma multiplicidade de variáveis (localização, temperatura, humidade, pressão, velocidade...). Por si só, não seriam úteis, pelo que todos os dados recolhidos são carregados numa plataforma onde, através do Big Data, podemos analisá-los e criar padrões de comportamento a fim de definir os valores e obter valor acrescentado a partir do dispositivo.
Spatiotemporal data
São dados de séries cronológicas que também incluem identificadores geográficos, tais como pares de coordenadas de latitude-longitude.
Time series data
Uma série temporal é uma sequência de medições espaçadas em intervalos de tempo que não são necessariamente iguais. Assim, as séries temporais consistem numa medida (por exemplo, a pressão atmosférica ou o preço das ações) acompanhada de um selo temporal.
Shark
Esta biblioteca de C++ fornece métodos de otimização lineares e não lineares. Baseia-se em métodos de kernel, redes neurais e outras técnicas avançadas de Machine Learning. É compatível com a maioria dos sistemas operativos.
Expert system
É um sistema que utiliza o conhecimento humano capturado num computador para resolver problemas que normalmente seriam resolvidos por especialistas humanos. Os sistemas bem concebidos imitam o processo de raciocínio que os especialistas utilizam para resolver problemas específicos. Estes sistemas podem funcionar melhor do que qualquer especialista humano na tomada de decisões individuais em certos domínios e podem ser utilizados por humanos não experientes para melhorar as suas capacidades de resolução de problemas.
Overfitting
Um modelo é "Sobreajustado" quando tantas particularidades e valores anónimos foram tidos em conta que o modelo tornou-se demasiado complicado e não é aplicável a nenhum conjunto de dados, exceto aquele para o qual foi utilizado para o treinar.
Spark+Mllib
É uma biblioteca Java que encaixa perfeitamente com as APIs Spark e funciona em conjunto com NumPy. A Spark acelera o funcionamento da MLlib, que tem como objetivo tornar a aprendizagem escalável e mais simples.
Statsmodels
É um módulo Python para modelação estatística. Permite aos utilizadores explorar dados, estimar modelos estatísticos e realizar testes estatísticos. Oferece uma extensa lista de estatísticas descritivas, testes, funções gráficas, etc., para diferentes tipos de dados e estimadores.
Data Subject
O indivíduo cujos dados estão a ser utilizados (para fins de GDPR)
SymPy
É uma biblioteca Python utilizada para cálculo simbólico, desde aritmética, cálculo, álgebra, matemática discreta e física quântica. Também permite que os resultados sejam formatados em código LaTeX.
T
Data Governance table
As tabelas de dados são um canal de responsabilidade social corporativo, solidário e ético onde se realiza um trabalho multidisciplinar sobre os dados e as diferentes disciplinas da governança de dados. Podem ser virtuais, com fluxos de trabalho e automatismos, ou presenciais. Participação multidisciplinar em que os dados são trabalhados com os meios técnicos disponíveis em qualquer situação.
Pivot table
As tabelas dinâmicas resumem longas listas de dados de forma rápida e fácil, sem necessidade de escrever fórmulas ou copiar células. Mas a sua característica mais importante é que podem ser dinamicamente reorganizadas. Movendo simplesmente o rato, a tabela pivotante pode ser reorganizada para resumir os dados, por exemplo, agrupando-os por sexo, idade ou localização geográfica. O processo de reorganização da tabela é conhecido como "pivotar os dados". Consiste em distribuir a informação de forma que possa ser examinada de diferentes ângulos. O termo tabela pivotante é uma frase genérica utilizada por vários fornecedores. No entanto, a Microsoft Corporation registou a marca comercial específica "PivotTable".
Fifth Generation Technology (5G)
O 5G é uma das novas conectividades que estão a ser implementadas em diferentes países, cuja principal função é suportar velocidades de carregamento de dados muito superiores a qualquer outra tecnologia criada até agora. Isto significa que, para os serviços que beneficiam desta tecnologia, a entrega de informação será ainda mais rápida do que atualmente.
Tensor
Os tensores são objetos matemáticos que armazenam valores numéricos e podem ter diferentes dimensões. Assim, por exemplo, um tensor 1D é um vetor, um tensor 2D é uma matriz, um tensor 3D é um cubo, etc.
Tensorflow
É uma biblioteca de software open source para computação numérica que utiliza gráficos de fluxo de dados. Os nós no gráfico representam operações matemáticas, enquanto que os bordos representam os conjuntos de dados multidimensionais (tensores) que comunicam entre eles.
Digital Transformation
A transformação digital é a reinvenção de uma empresa através da implementação de capacidades digitais nos seus processos, produtos e ativos, para se tornar mais eficiente, proporcionar uma melhor experiência ao utilizador e poupar custos.
Transparency (Data Governance)
Conceito subjacente à forma como os utilizadores são sensibilizados para as informações armazenadas pelo serviço, como dar e poder revogar o seu consentimento explícito e ter acesso à sua revogação durante a operação do serviço e ter garantias de que foi removida no final do serviço.
U
UIMA
A “Arquitetura Não Estruturada de Gestão de Informação (Unstructured Information Management Architecture)” foi desenvolvida pela IBM como um ambiente para a análise de dados não estruturados, especialmente de linguagem natural. A OASIS UIMA é uma especificação que uniformiza este ambiente e o Apache UIMA é uma implementação de código aberto da mesma. Este ambiente permite trabalhar com diferentes ferramentas concebidas para se conectarem com ele.
Graphics processing unit (GPU)
A unidade de processamento gráfico (GPU) é o componente de hardware que assegura que o conteúdo é apresentado corretamente no ecrã ou monitor do computador. Gere tudo, desde a interface do utilizador a aplicações e sites e, é claro, jogos. A utilização de computação paralela massiva com GPUs tem sido fundamental para o desenvolvimento da Deep Learning.
V
Cross-validation
É utilizada na aplicação de algoritmos a conjuntos de dados. Consiste num conjunto de técnicas que dividem os dados em dados de treino e dados de teste. Os dados de treino são introduzidos no algoritmo, juntamente com as respostas corretas, e assim "aprendem" com os dados. Uma vez treinado, o algoritmo é capaz de prever as respostas corretas para cada um dos dados de entrada no conjunto de dados do teste. As respostas dadas pelo algoritmo são comparadas com os valores reais, e assim pode ser estimado se o algoritmo acertou.
Outlier
São valores extremos que se podem dever a erros de medição ou de registo de dados, ou refletir eventos reais, mas pouco frequentes.
Categorical Variable
As variáveis categóricas (ou variáveis nominais) são aquelas que têm valores qualitativos discretos. Por exemplo, os nomes de cidades como Madrid, Valência ou Bilbau, são categóricos.
Continuous variable
São variáveis cujo valor pode ser qualquer valor que possa ser expresso como um número decimal. A idade ou o tamanho podem ser variáveis contínuas. Tem 2,5 anos. A sua representação gráfica é uma função contínua. As variáveis discretas, por outro lado, são expressas por números inteiros, ou valores concretos, tais como "homem", "mulher", "sim" ou "não".
Dependent Variable
É chamada de variável dependente porque o seu valor está relacionado ("depende") com o valor da variável dependente. Se estivermos a medir o efeito do tamanho do orçamento para a publicidade no total de vendas, o orçamento para a publicidade seria a variável independente e as vendas totais seriam a variável dependente.
Discrete Variable
É uma variável cujos valores potenciais pertencem a um conjunto específico de valores. Por exemplo, se alguém classificar um filme entre uma e cinco estrelas e não forem permitidos valores de uma fração de estrela (por exemplo, quatro estrelas e meia), a variável de classificação é uma variável discreta. Numa representação gráfica, as variáveis discretas são expressas sob a forma de histogramas.
Vector
A definição matemática de um vetor é "uma quantidade com uma magnitude e uma direção, representada por uma seta cujo comprimento representa a magnitude e cuja orientação no espaço representa a direção". No entanto, os cientistas de dados utilizam o termo neste sentido: "conjunto ordenado de números reais que denotam uma distância sobre um eixo de coordenadas. Estes números podem representar características de uma pessoa, de um filme, de um produto ou do que quisermos modelar. Esta representação matemática das variáveis permite trabalhar com bibliotecas de software que aplicam operações matemáticas avançadas aos dados. Um espaço vetorial é um conjunto de vetores, por exemplo, uma matriz.
Bias
É o termo independente na origem. Nos modelos de Machine Learning (aprendizagem automática), é frequentemente referido como b ou w0. Na fórmula seguinte seria o termo b. y′=b+w1x1+w2x2+...wnxn Na Machine Learning, o viés é a tendência do aprendente para repetir o mesmo erro de forma consistente. A Variância é a tendência para aprender factos aleatórios independentemente do sinal. Por vezes, evitar a variação (overfitting) leva ao erro oposto, ao enviesamento (underfitting).
W
Weka
O Weka é um conjunto de algoritmos de aprendizagem automática para a realização de tarefas de analítica de dados. Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamados a partir do seu próprio código Java. O Weka oferece ferramentas para o pré-processamento, classificação, regressão, clustering, regras de associação e visualização de dados. É também adequado para o desenvolvimento de novos modelos de aprendizagem automática. O Weka é um software de código aberto desenvolvido pela Universidade de Waikato na Nova Zelândia.
X
Y
Z