Búsquedas recomendadas

  • Energy Booster Pack
  • Paneles Energía Solar
  • Energy Surge
Todos os resultados ()
Não foram encontrados resultados para a pesquisa ''.



PESQUISAS RECOMENDADAS
  1. Conectividade Gerenciada | Tecnologia da Telefônica

  2. Otimização de processos industriais | Indústria 5.0 | Tecnologia da Telefônica

  3. Monitorização e gestão energética | Tecnologia da Telefônica

  4. Histórias de sucesso | Clientes | Tecnologia da Telefônica

  • ES EN PT
  • Contato
Contato
  • Casos de êxito
  • Contato
Sobre nós

Somos AI of Things: Unimos as capacidades de IoT e a Inteligência Artificial para oferecer uma tecnologia que conecta ainda mais coisas e pessoas.

Sustentabilidade

Devolvemos o valor dos dados à sociedade. Conheça nosso compromisso de sustentabilidade para a sociedade e o meio ambiente.

Inovação

Estamos comprometidos com a inovação e a tornamos realidade graças às tecnologias como IoT, Big Data, Blockchain e Inteligência Artificial.

Parceiros

Temos o ecossistema de parceiros que você precisa para completar qualquer solução e necessidade. E você também pode fazer parte disso.

IoT Partners
Por que nós?

Torne-se Partner IoT da Telefónica Tech

Torne-se parceiro
Multimídia

Oferecemos uma variedade de conteúdos sobre o mundo das tecnologias de Big Data, IoT, Inteligência Artificial e Blockchain.

Datapédia

Oferecemos um glossário de termos essenciais do mundo de Big Data, IoT, Inteligência Artificial e Blockchain

Recursos

Se os dados pudessem viajar, que destino escolheria?

Ver detalhes
Gerenciamento de Mobilidade

IoT e Inteligência Artificial, o conjunto perfeito para a gestão da mobilidade.

Indústria 5.0

Soluções para acelerar a transformação digital na sua empresa.

Espaços Inteligentes

Consiga a máxima eficiência ao mesmo tempo que melhora a experiência nos espaços físicos.

Monitoramento e Gestão Energética

Otimiza o consumo e promove menor impacto ao meio ambiente graças ao IoT.

Soluções Publicitárias

Conheça e conecte com a sua audiência para impulsionar vendas e otimizar resultados das suas campanhas publicitárias.

Ver todas as soluções

Quer ajuda para encontrar o produto que precisa?

Encontre seu produto

Serviços de Conectividade

Conectividade e dispositivos para ir um passo além.

Dispositivos
Conectividade gerenciada

Serviços Profissionais

Uma peça-chave na sua estratégia corporativa e de negócio.

Consultoria estratégica
Análises avançadas
Treinamento

AI & Business Insights

Insights de negócios para fazer a diferença

Mobility & Profiling
Antifraud & Identity
Scoring Solutions
AI Suite

Habilitadores Tecnológicos

Escolha a melhor tecnologia para jornada e tomada de decisão mais inteligente.

Blockchain
Plataformas Big Data
Segurança
Ver todas as capacidades

Quer ajuda para encontrar o produto que precisa?

Encontre seu produto
Logística
Transporte
Varejo
Agricultura e Pecuária
Indústria
Turismo e Lazer
Bancos
Seguros
Telecom
Saúde
Esportes
Óleo & Gás
Energia & Utilities
Cidades inteligentes
Ver todos os setores

Quer ajuda para encontrar o produto que precisa?

Encontre seu produto
  • Soluções
    Gerenciamento de Mobilidade

    IoT e Inteligência Artificial, o conjunto perfeito para a gestão da mobilidade.

    Indústria 5.0

    Soluções para acelerar a transformação digital na sua empresa.

    Espaços Inteligentes

    Consiga a máxima eficiência ao mesmo tempo que melhora a experiência nos espaços físicos.

    Monitoramento e Gestão Energética

    Otimiza o consumo e promove menor impacto ao meio ambiente graças ao IoT.

    Soluções Publicitárias

    Conheça e conecte com a sua audiência para impulsionar vendas e otimizar resultados das suas campanhas publicitárias.

    Ver todas as soluções

    Quer ajuda para encontrar o produto que precisa?

    Encontre seu produto
  • Capacidades

    Serviços de Conectividade

    Conectividade e dispositivos para ir um passo além.

    Dispositivos
    Conectividade gerenciada

    Serviços Profissionais

    Uma peça-chave na sua estratégia corporativa e de negócio.

    Consultoria estratégica
    Análises avançadas
    Treinamento

    AI & Business Insights

    Insights de negócios para fazer a diferença

    Mobility & Profiling
    Antifraud & Identity
    Scoring Solutions
    AI Suite

    Habilitadores Tecnológicos

    Escolha a melhor tecnologia para jornada e tomada de decisão mais inteligente.

    Blockchain
    Plataformas Big Data
    Segurança
    Ver todas as capacidades

    Quer ajuda para encontrar o produto que precisa?

    Encontre seu produto
  • Setores
    Logística
    Transporte
    Varejo
    Agricultura e Pecuária
    Indústria
    Turismo e Lazer
    Bancos
    Seguros
    Telecom
    Saúde
    Esportes
    Óleo & Gás
    Energia & Utilities
    Cidades inteligentes
    Ver todos os setores
  • Casos de êxito
    • Por que nós?
      Sobre nós

      Somos AI of Things: Unimos as capacidades de IoT e a Inteligência Artificial para oferecer uma tecnologia que conecta ainda mais coisas e pessoas.

      Sustentabilidade

      Devolvemos o valor dos dados à sociedade. Conheça nosso compromisso de sustentabilidade para a sociedade e o meio ambiente.

      Inovação

      Estamos comprometidos com a inovação e a tornamos realidade graças às tecnologias como IoT, Big Data, Blockchain e Inteligência Artificial.

      Parceiros

      Temos o ecossistema de parceiros que você precisa para completar qualquer solução e necessidade. E você também pode fazer parte disso.

      IoT Partners
      Por que nós?

      Torne-se Partner IoT da Telefónica Tech

      Torne-se parceiro
    • Recursos
      Multimídia

      Oferecemos uma variedade de conteúdos sobre o mundo das tecnologias de Big Data, IoT, Inteligência Artificial e Blockchain.

      Datapédia

      Oferecemos um glossário de termos essenciais do mundo de Big Data, IoT, Inteligência Artificial e Blockchain

      Recursos

      Se os dados pudessem viajar, que destino escolheria?

      Ver detalhes
  • ES EN PT
Contato
Datapedia
  1. Home >
  2. Recursos >
  3. Datapedia

Datapedia

Em nosso dicionário tecnológico, oferecemos um glossário de termos essenciais no mundo de IoT, Big Data, Blockchain e Inteligência Artificial.

Conheça a Datapedia: nosso dicionário tecnológico

Os termos mais consultados

Dados não estruturados   

Função de ativação

Inteligência artificial

Inteligência cognitiva

  • A
  • B
  • C
  • D
  • E
  • F
  • G
  • H
  • I
  • J
  • K
  • L
  • M
  • N
  • O
  • P
  • Q
  • R
  • S
  • T
  • U
  • V
  • W
  • X
  • Y
  • Z

A

Administrador de bases de dados

Database Administrator (DBA)

É responsável pela conceção (física e lógica), gestão e administração de bases de dados. A sua função é garantir a segurança, otimização, monitorização, resolução de problemas e análise / previsão das capacidades atuais e futuras. É um papel altamente técnico que requer um conhecimento profundo da linguagem SQL e também, cada vez mais, de bases de dados não SQL. Podem também ser necessárias competências de gestão para conceber políticas e procedimentos para a utilização, gestão, manutenção e segurança de bases de dados. Em última análise, a sua função é assegurar-se de que "a máquina funciona".

Álgebra linear

Linear algebra

É um ramo da matemática que trabalha sobre espaços vetoriais e operações sobre eles, tais como a adição e a multiplicação. A álgebra linear é concebida para representar sistemas de equações lineares. As equações lineares representam relações lineares, onde uma entidade pode ser expressa como uma soma de múltiplos de outras entidades. Na nomenclatura da álgebra linear, esta relação linear é representada como um operando: uma matriz.

Algoritmo

Algorithm

Consiste numa série definida de passos para realizar uma determinada tarefa com os dados. Tal como acontece com as estruturas de dados, as pessoas que estudam informática, estudam diferentes algoritmos para saber quais são os mais adequados para realizar determinadas tarefas.

Análise de componentes principais (ACP)

Principal component analysis (PCA)

É um algoritmo de aprendizagem automática que procura reduzir a dimensionalidade de um conjunto de variáveis observadas para um conjunto de variáveis não linearmente correlacionadas, denominadas componentes principais. Para este efeito, calcula a direção com a maior variação e define-a como componente principal. É utilizado principalmente na análise exploratória de dados e para construir modelos preditivos.

Ler mais

Análise exploratória

Exploratory data analysis (EDA)

A fase de análise exploratória do processo de trabalho da ciência dos dados tem como objetivo extrair insights (resultados) dos dados através de técnicas de visualização e de análise estatística.

Analista de dados

Data Analyst

É responsável por analisar através de técnicas estatísticas (entre outras) os dados históricos da organização, a fim de tomar decisões futuras mais bem informadas (desde como evitar a fuga de clientes até à definição de estratégias de preços). A sua função é analisar dados históricos para detetar padrões de comportamento ou tendências. (Análise descritiva e/ou preditiva). O conhecimento de estatísticas, aliado à capacidade de pensamento crítico, é essencial para este papel. As capacidades de comunicação são também de grande importância. Em suma, a sua função é "Compreender o que aconteceu no passado para tomar melhores decisões no futuro".

Analítica

Analytics

Hoje vivemos num mundo hiperconectado. Cada vez mais dispositivos à nossa volta são sensorizados e fornecem dados valiosos para utilizadores ou empresas. Estes dados por si só não têm qualquer valor acrescentado. O valor é produzido quando são cruzados e analisados, e se consegue melhorar a produção, poupar custos e ser mais eficientes através de padrões de comportamento. A análise de dados é central para a transformação digital de uma empresa.

Analítica de Negócios

Business Analytics

É a metodologia prática utilizada por uma organização para extrair conhecimentos (Insights) da exploração dos seus dados. Esta metodologia é baseada na análise estatística dos dados.

Analítica descritiva

Descriptive Analytics

É a técnica analítica mais básica e ainda hoje é utilizada por 90% das empresas. Este tipo de analítica responde à pergunta O que aconteceu? - Analisa os dados históricos e os dados recolhidos em tempo real para gerar Insights sobre como funcionavam as estratégias empresariais do passado, por exemplo, uma campanha de marketing.

Ler mais

Analítica preditiva

Predictive analytics

Consiste na análise de dados históricos de uma empresa, a fim de prever comportamentos futuros que contribuam para um melhor planeamento. Para tal, são utilizadas técnicas de modelação preditiva, entre outras. Estas técnicas são baseadas em algoritmos estatísticos e de aprendizagem automática.

Analítica prescritiva

Prescriptive analytics

Consiste na análise de dados históricos de uma empresa, não só com o objetivo de prever comportamentos futuros, mas também de avaliar as suas causas, permitindo recomendar ou "prescrever" que ações devem ser realizadas para tirar partido de uma oportunidade ou mitigar um risco.

Aprendizagem Auto-supervisionada

Self-supervised learning 

Aprendizagem Auto-supervisionada (Self-supervised learning) é um termo que se refere a um tipo de aprendizagem não supervisionada dentro de um problema de aprendizagem supervisionada. É uma técnica de aprendizagem relativamente recente onde os dados de treino são etiquetados de forma autónoma.

Ler mais

Aprendizagem Automática

Machine learning

É um conjunto de técnicas que trabalham com grandes quantidades de dados de forma inteligente (desenvolvendo algoritmos), para obter valiosos Insights sobre os quais se podem basear as iniciativas ou estratégias empresariais. Nestas técnicas, os algoritmos aprendem sozinhos, sem serem explicitamente programados.

Ler mais

Aprendizagem Profunda

Deep learning

Tipicamente, trata-se de um algoritmo multicamadas que identifica detalhes em níveis sucessivos de abstração. Por exemplo, o primeiro nível pode identificar algumas linhas, o nível seguinte identifica formas como combinações de linhas, e o nível seguinte identifica objetos como combinações de formas. Como pode imaginar a partir deste exemplo, a aprendizagem profunda é amplamente utilizada para a classificação de imagens. A Aprendizagem Profunda está associada a um algoritmo de Machine Learning, as redes neurais (daí a identificação gradual por camadas). Tais algoritmos são muito flexíveis e permitem que muitas respostas simultâneas sejam modeladas, mas também exigem uma enorme quantidade de dados.

Ler mais

Aprendizagem Supervisionada

Supervised learning

Na aprendizagem supervisionada, os algoritmos trabalham com dados "etiquetados” (labeled data), tentando encontrar uma função que, dadas as variáveis de entrada (input data), atribuem a etiqueta de saída apropriada. O algoritmo é treinado com um "histórico" de dados e assim "aprende" a atribuir a etiqueta de saída apropriada a um novo valor, ou seja, prevê o valor de saída. A aprendizagem supervisionada é frequentemente utilizada em problemas de classificação, tais como identificação de dígitos, diagnósticos, ou deteção de fraude de identidade.

Aprendizagem não supervisionada

Unsupervised learning

A aprendizagem não supervisionada tem lugar quando não há dados "etiquetados" disponíveis para o treino. Só conhecemos os dados de entrada, mas não existem dados de saída correspondentes a um determinado input. Portanto, só podemos descrever a estrutura dos dados para tentar encontrar algum tipo de organização que simplifique a análise. Têm, portanto, um caráter exploratório.

Aprendizagem por reforço

Reinforcement learning

Baseia-se em estudos sobre como promover a aprendizagem em humanos e ratos com base em recompensas e castigos. O algoritmo aprende observando o mundo à sua volta. A sua informação de entrada é o feedback que recebe do mundo exterior em resposta às suas ações. Portanto, o sistema aprende numa base de tentativa e erro.

Aprendizagem por transferência

Transfer learning

Este método é amplamente utilizado na visão artificial porque permite a construção de modelos precisos de forma a poupar muito tempo. Em vez de iniciar o processo de aprendizagem a partir do zero, começa-se por utilizar padrões ou modelos pré-treinados que foram aprendidos ao resolver um problema diferente.

Área sob a curva ROC

AUC (Area Under the ROC Curve)

É uma métrica de avaliação que considera todos os limiares de classificação possíveis. O gráfico ROC é também conhecido como a representação da sensibilidade face a (1 especificidade). A diagonal divide o espaço ROC. Os pontos acima da diagonal representam os bons resultados de classificação (melhores do que aleatórios) e os pontos abaixo da linha representam os maus resultados (piores do que aleatórios).

Arquiteto de dados

Enterprise Data Architect

É o responsável pela criação da infraestrutura de captura e acesso aos dados. Define a forma como os dados são movidos. A sua principal função é a conceção do ambiente de utilização de dados. Como são armazenados, acedidos e partilhados / utilizados por diferentes departamentos, sistemas ou aplicações, de acordo com a estratégia empresarial. É um papel estratégico, para o qual é necessária uma visão completa do ciclo de vida. Deve, portanto, considerar aspetos de modelação de dados, conceção de bases de dados, desenvolvimento de SQL e gestão de projetos de software. É também importante conhecer e compreender como as tecnologias tradicionais e emergentes podem contribuir para a realização dos objetivos empresariais. Em última análise, a sua função é assegurar-se de “definir a visão global”.

Árvore de decisão

Decision trees

Uma árvore de decisão é um tipo de algoritmo de aprendizagem supervisionada (aqueles com uma variável-alvo predefinida) que é frequentemente utilizado em problemas de classificação. Funciona tanto para variáveis de entrada / saída contínuas, como para categóricas. Nesta técnica, a população (ou amostra) é dividida em dois conjuntos homogéneos (ou subpopulações) com base no critério de diferenciação mais significativo das variáveis de entrada.

Ativo (Governança de Dados)

Asset (Data Governance)

Qualquer recurso da empresa necessário para o fornecimento adequado de serviços de informação. É qualquer informação ou sistema relacionado com o seu processamento que seja de valor para a organização, tais como processos empresariais, dados, aplicações, equipamento informático, pessoal, suportes de informação, redes, equipamento auxiliar ou instalações. É suscetível de sofre um ataque deliberado ou acidental, com consequências para a organização.

B

Bayes (Classificador Naive Bayes)

Naive Bayes classifier

Trata-se de um conjunto de algoritmos de classificação baseados no Teorema de Bayes. Não é um único algoritmo, mas uma família de algoritmos que partilham o princípio comum de que qualquer variável que classificamos é independente do valor das outras variáveis. Por exemplo, podemos considerar que uma fruta é uma maçã se for vermelha, redonda e de um certo tamanho. Um classificador Naive Bayes considera que cada uma destas características (vermelha, redonda, diâmetro aproximado) contribui de forma independente para a probabilidade de o fruto ser uma maçã, independentemente das correlações entre as características. No entanto, as características nem sempre são independentes, razão pela qual estes métodos são chamados de “naive”. No entanto, esta simplificação permite que se possam desenvolver facilmente implementações escaláveis destes algoritmos.

Bayes (Estatística Bayesiana)

Bayesian Statistics

Um procedimento matemático que aplica a probabilidade a problemas estatísticos. Fornece ferramentas que permitem que as previsões sejam atualizadas com a evidência de novos dados. Difere da abordagem clássica, baseada na frequência e, em vez disso, utiliza a probabilidade Bayesiana para resumir a evidência.

Bayes (Teorema de Bayes)

Bayes Theorem

Também conhecido como Regra de Bayes, em honra do matemático e ministro presbiteriano do século XVIII Thomas Bayes. O teorema de Bayes é utilizado para calcular a probabilidade condicional. A probabilidade condicional é a probabilidade de que o evento "B" ocorra quando um evento relacionado "A" tenha ocorrido (P(B|A)).

Biblioteca padrão (Python)

Python Standard Library

Uma biblioteca não é mais do que um conjunto de módulos (ver módulos). A biblioteca padrão Python é muito extensa e oferece uma grande variedade de módulos que desempenham todo o tipo de funções, desde módulos escritos em C que dão acesso às funcionalidades do sistema, tais como acesso a ficheiros (file I/O). No website da Python pode encontrar uma referência a todos os módulos em "The Python Standard Library". Os instaladores Python para plataformas Windows incluem geralmente a biblioteca padrão completa, incluindo alguns componentes adicionais. No entanto, as instalações Python baseadas em pacotes irão requerer instaladores específicos.

Ler mais

Big Data

Big Data

Em geral, refere-se à capacidade de trabalhar com volumes de dados que anteriormente eram incontroláveis em termos de tamanho, velocidade e variedade ("Os 3 V's"). Um dos fatores que permitiu esta evolução foi a facilidade de distribuir o armazenamento e processamento de dados através de redes baseadas em hardware básico (“commodity”), utilizando tecnologias Hadoop, em vez de necessitar de computadores dedicados grandes e poderosos. Mas não é o volume de dados que é importante. É a forma como as empresas utilizam estes dados para gerar conhecimento (“insights”). As empresas utilizam uma variedade de técnicas, ferramentas e recursos para dar sentido a estes dados e basear neles, estratégias empresariais mais eficientes.

Ler mais

Blaze

Blaze

É uma biblioteca Python que estende as capacidades da Numpy e da Pandas a dados distribuídos e em streaming. Pode ser utilizada para aceder a dados de um grande número de fontes, tais como Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc.

Blockchain

Blockchain

Blockchain é um conjunto de tecnologias que permitem a transferência de um valor ou ativo de um lugar para outro, sem intervenção de terceiros. Neste modelo, a autenticidade não é verificada por um terceiro, mas por uma rede de nós (computadores ligados à rede). Por conseguinte, as transferências de ativos são feitas através do consenso e do armazenamento de informação de forma transparente.

Bokeh

Bokeh

É uma biblioteca Python que lhe permite gerar gráficos interativos atrativos em 3D e aplicações web. É utilizada para aplicações de desempenho com dados de streaming.

Bot

Bot

Bot, chatbot, talkbot, chatterbot, assistente de conversação, assistente virtual, etc., são apenas nomes diferentes para programas informáticos que comunicam connosco como se fossem humanos. Os bots podem fazer muitas tarefas, algumas boas, tais como comprar bilhetes para concertos, desbloquear a conta de um utilizador ou oferecer opções para reservar uma casa de férias em datas específicas; e outras não tão boas, tais como realizar ciberataques ou causar uma catástrofe financeira ao realizar operações na bolsa de valores a alta velocidade. Os bots (abreviatura de "robot") podem ser concebidos em qualquer linguagem de programação e funcionar como cliente, servidor, agente móvel, etc. Quando se especializam numa função específica, são frequentemente referidos como "Sistemas Especializados".

C

C++

C++

É uma linguagem centrada principalmente em software de baixo nível, como componentes de sistemas operativos ou protocolos de rede. É frequentemente utilizada em sistemas integrados e infraestruturas operadas por sensores. Embora possa ser uma linguagem complicada para principiantes, tem um grande potencial. Tem bibliotecas muito úteis para a Machine Learning, tais como LibSVM, Shark e MLPack.

Camada Oculta

Hidden layer

Nas redes neurais, uma camada oculta é uma camada sintética entre a camada de entrada (a camada de características) e a camada de saída (a camada de previsão). Numa rede neural pode haver uma ou mais camadas escondidas.

Característica

Feature

Este é o termo utilizado no campo da aprendizagem automática para se referir a uma unidade de informação sobre algo. Se armazenar a idade, o rendimento anual e o peso de um conjunto de pessoas, está a guardar três características sobre elas. No mundo da IT, em vez de características, são muitas vezes chamadas de propriedades, atributos ou campos. O processo de seleção de características consiste em escolher as características mais relevantes para a capacidade de previsão do modelo estatístico, descartando aquelas que tenham menor influência. Isto pode ser feito através da filtragem das características menos úteis, ou combinando várias características para criar uma nova característica.

Carro conectado

Autonomous vehicle

Um carro conectado é uma experiência de condução inteligente de veículos que fornece informação em tempo real sobre o funcionamento e a utilização do veículo, para que os clientes possam tomar decisões mais eficientes. Está integrado na vida diária do utilizador, que permanece conectado enquanto conduz, e permite-lhe aceder à informação através de uma aplicação móvel onde os dados recolhidos pelo dispositivo conectado ao automóvel são recebidos.

Ler mais

Casa de Análises

Analyst firms

As casas de análises são fundamentais no nosso setor. São especialistas em diferentes matérias tecnológicas e são formadores de opinião. Têm grande influência sobre os bancos de investimento, atuam como reguladores e como fornecedores de Tecnologias da Informação e Comunicação (TIC). Muitas destas casas geram os seus próprios estudos onde posicionam as Telco em diferentes aspetos e, como resultado, chegam a intervir nas decisões de compra dos clientes no segmento empresarial. São como um medidor de qualidade para empresas.

Chatbot

Chatbot

Um chatbot é um bot (ver bot) ou um assistente virtual que utiliza um chat como interface de comunicação com humanos.

Chi (Teste qui-quadrado)

Chi-square test

Um método estatístico utilizado para testar se uma classificação de dados pode ser devida ao acaso ou a alguma lei subjacente (Wordpanda). O teste do qui-quadrado é uma técnica analítica utilizada para estimar se duas variáveis estão correlacionadas numa tabulação cruzada.

Cibersegurança

Cibersecurity

A instalação de milhões de dispositivos hiperconectados, heterogéneos e numa escala muito diversa traduz-se num claro desafio de segurança. A cibersegurança é responsável pela defesa de todas estas interligações entre dispositivos para evitar ciberataques maliciosos que possam recolher ilegalmente informações e/ou dados pessoais.

Cidades Inteligentes

Smart Cities

Uma Cidade Inteligente ou Smart City é um cenário no qual a tecnologia é utilizada a fim de melhorar as diferentes infraestruturas para os cidadãos. É um espaço com milhões de dispositivos e de soluções IoT conectadas, cujo principal desafio é como gerir de forma útil e eficiente o enorme volume de dados em tempo real e de uma forma integrada.

Ler mais

Cientista de dados

Data Scientist

É o responsável por realizar uma análise prescritiva do histórico de dados empresariais, de modo a poder não só antecipar o que irá acontecer no futuro e quando, mas também dar uma razão para tal. Desta forma, pode sugerir que decisões devem ser tomadas para aproveitar uma futura oportunidade de negócio ou mitigar um risco potencial, mostrando a implicação de cada opção no resultado. A sua função é construir e aplicar modelos de Machine Learning capazes de continuar a aprender e a melhorar a sua capacidade preditiva à medida que o volume de dados recolhidos aumenta. Este papel requer conhecimentos avançados de matemática em geral (e de estatística em particular), conhecimentos de Machine Learning, conhecimentos de programação em SQL, Phyton, R ou Scala. O Analista de Dados é por vezes considerado um Cientista de Dados "em formação". Portanto, a fronteira entre as tarefas e as Funções dos dois papéis não é, por vezes, tão clara. Em suma, a sua função é “Moldar o futuro".

Ciência de dados

Data Science

É uma combinação de análise de dados, desenvolvimento de algoritmos, estatística e engenharia de software para resolver problemas analíticos. O seu principal objetivo é utilizar dados para obter valor comercial.

Ler mais

Classe binária

Binary Class

As variáveis binárias são variáveis que podem ter apenas dois valores. Por exemplo, uma variável "Fumador?" pode ter o valor "Sim" ou "Não".

Classificação

Classification

É um método de aprendizagem supervisionada onde a variável de saída é categórica, tal como "Masculino” e "Feminino", ou "Sim” e "Não". Por exemplo, decidir se uma mensagem de e-mail é spam ou analisar filmes para os classificar por género são tarefas típicas resolvidas por um algoritmo de classificação. Alguns destes algoritmos são: regressão logística, árvore de decisão, Support Vector Machine, etc.

Cloud

Cloud

É o fornecimento de serviços alojados através da Internet que permite às empresas ou aos indivíduos consumir recursos informáticos como uma utilidade em qualquer lugar, em vez de ter de construir e manter infraestruturas informáticas em sua casa ou no escritório. Ter os seus documentos na nuvem permite-lhe aceder a eles a partir de qualquer lugar, em qualquer dispositivo, em qualquer altura e sem necessidade de um dispositivo físico (por exemplo, um computador).

Coeficiente

Coefficient

Trata-se de um número ou símbolo algébrico prefixado como multiplicador de uma variável ou quantidade desconhecida. Quando se representa graficamente uma equação como y=3X+4, o coeficiente de "x", neste caso "3", determina a pendente da reta. Nas estatísticas, alguns coeficientes são frequentemente mencionados, tais como o coeficiente de correlação, o coeficiente de Cramer ou o coeficiente de Gini.

Computação de borda

Edge Computing

É um novo paradigma de computação cuja abordagem aproxima o processamento e armazenamento de dados dos dispositivos que o geram, eliminando a dependência de servidores na cloud ou em data centers localizados a milhares de quilómetros de distância.

Ler mais

Confidencialidade (Governança de Dados)

Confidentiality (Data Governance)

Assegurar que a informação seja acessível apenas às pessoas autorizadas a ter acesso. A propriedade com que as informações contidas num sistema de informação devem cumprir, pelo que tais informações só são acessíveis para consulta por pessoas autorizadas.

Consola

Shell

Ao aceder a um sistema operativo a partir da linha de comando, estamos a utilizar a consola. Para além de linguagens de script como Perl e Python, ferramentas baseadas em Linux como grep, diff, splitt, comm, head e tail são normalmente utilizadas para executar tarefas de preparação / depuração de dados a partir da consola.

Controlador de dados

Data Controller

A Organização que recolhe os dados (para fins de RGDP)

Correlação

Correlation

Consiste na correspondência relativa entre dois conjuntos de dados. Se as vendas subirem à medida que o orçamento de publicidade aumenta, isso significa que os dois estão correlacionados. O coeficiente de correlação mede até que ponto dois conjuntos de dados estão correlacionados. Um coeficiente de valor "1" implica uma correlação perfeita, ao passo que 0,9 é uma correlação forte e 0,2 uma correlação fraca. Este valor também pode ser negativo, por exemplo, quando a incidência de uma doença é reduzida através do aumento da taxa de vacinação contra ela. Um coeficiente "-1" é uma correlação negativa perfeita. No entanto, nunca se deve esquecer que a correlação não implica uma causalidade.

Covariância

Covariance

Consiste na relação entre duas variáveis cujos valores são observados ao mesmo tempo, em particular, o valor médio das duas variáveis dividido pelo produto dos seus valores médios. Tal como a variância mede o desvio de uma variável relativamente à sua média, a covariância mede o desvio conjunto de duas variáveis da sua média.

Curtose ou achatamento

Kurtosis

A curtose é uma medida que serve para analisar o grau de concentração apresentado dos valores de uma variável analisada em torno da área central da distribuição de frequências. Uma curtose mais elevada implica uma maior concentração de dados, muito próxima da média da distribuição (pico), coexistindo ao mesmo tempo com uma frequência relativamente elevada de dados longe dela.

D

Dados de teste

Holdout data

São exemplos que, intencionalmente, não são utilizados (são “retidos”) durante o treino. Os conjuntos de dados de validação e os dados de teste são exemplos de dados de teste. Estes dados ajudam a avaliar a bondade de um modelo para generalizar sobre dados diferentes dos dados utilizados para o treinar. A função de perda em dados de teste dá uma melhor estimativa do valor em novos dados do que esta função dá em dados de treino.

Dados estruturados   

Structured data  

Os dados estruturados são os dados típicos da maioria das bases de dados relacionais (RDBMS). Estas bases de dados são caracterizadas por um esquema particular que define como são as tabelas em que os dados são armazenados, que tipo de campos têm e como se relacionam entre si.

Ler mais

Dados não estruturados   

Unstructured data  

Os dados não estruturados representam 80% do volume de todos os dados gerados, e esta percentagem está a crescer de forma constante. Estes dados podem ter uma estrutura interna, mas não seguem qualquer esquema ou modelo de dados predefinido. Podem ser dados textuais ou não textuais; podem ser gerados por máquinas ou gerados por humanos; e podem ser armazenados numa base de dados NoSQL ou diretamente numa base de dados Datalake.

Ler mais

Dados semiestruturados   

Semi-structured data

Os dados semiestruturados não têm um esquema definido. Não cabem num formato de tabelas / linhas / colunas, mas são organizados por meio de etiquetas ou “tags” que permitem agrupá-los e criar hierarquias. São também conhecidos como não-relacionais ou NoSQL.

Ler mais

Deeplearning4j

Deeplearning4j

É uma biblioteca dedicada à Deep learning, escrita para Java e Scala. Fornece um ambiente para os programadores treinarem e construírem modelos de IA.

Desvio padrão

Standard Deviation

É a raiz quadrada da variância e é normalmente usada para indicar até que ponto uma dada medida se afasta da média. Por exemplo, se uma observação se desviar da média em mais de três vezes o desvio padrão, podemos dizer, na maioria das aplicações, que estamos a lidar com um caso anómalo. Os pacotes de software estatístico calculam automaticamente o desvio padrão.

Diretor Digital

Digital Director ("Chief Data Officer" CDO)

É responsável por liderar, planear e controlar a transformação digital de qualquer marca. É, portanto, responsável pelas áreas de Governança de Dados, Gestão de Informação e Segurança. O seu papel é estabelecer uma estratégia que assegure o crescimento digital da empresa de forma sustentável ao longo do tempo, capaz de se adaptar com fluidez às contínuas mudanças do panorama digital. Terá também de promover relações internas e externas na organização, atrair os melhores talentos, liderar equipas e resolver diplomaticamente potenciais tensões que possam surgir entre diferentes departamentos na empresa. Para este papel, é muito importante ter uma vasta experiência no mundo digital, visão estratégica, capacidades de comunicação para o trabalho em equipa e criatividade. O CDO deve ser inovador, por vezes até disruptor, e ter poder de decisão e recursos. Por conseguinte, normalmente reporta ao CEO (Diretor Geral). O CDO pode ter algumas "sobreposições" com a figura do CIO (Chief Information Officer), mas é um papel que, para além dos aspetos de inovação tecnológica, tem uma clara componente de marketing que está muito orientada para a exploração dos "Ativos Digitais".

Disponibilidade (Governança de Dados)

Availability (Data Governance)

A propriedade com que a informação contida num sistema de informação deve cumprir, estando a informação disponível para consulta ou modificação quando requerido por um utilizador com as devidas permissões.

Distribuição de probabilidade

Probability distribution

A distribuição de probabilidade de uma variável aleatória discreta é o conjunto de todos os valores possíveis que a variável pode ter, juntamente com as suas probabilidades de ocorrência. Para variáveis discretas, as principais distribuições de probabilidade são a binomial, a de Poisson e a hipergeométrica (esta última para eventos dependentes). Para variáveis contínuas, a distribuição gerada é a distribuição normal ou gaussiana.

Distribuição normal

Normal distribution

Também conhecida como distribuição gaussiana. É uma distribuição de probabilidade cuja representação gráfica é uma curva simétrica em forma de sino com o valor médio no centro. A altura e a largura da curva são dadas pelo desvio padrão. Uma característica importante desta curva em forma de sino é que ela permite a modelação de muitos fenómenos naturais, sociais e psicológicos. Embora estes fenómenos sejam influenciados por muitas variáveis aleatórias, o comportamento da soma destes fenómenos individuais segue, de facto, o padrão de uma distribuição normal. Isto é devido ao teorema do limite central. Por exemplo, quando falamos de variáveis aleatórias, tais como altura, peso ou rendimentos de uma pessoa, a distribuição de probabilidade destas variáveis seguirá uma distribuição normal e, portanto, os valores mais frequentes estarão no centro, enquanto os valores menos frequentes estarão nos extremos.

Distribuição t de Student

T-distribution

São variações das distribuições normais. Foram descobertas por William Gosset em 1908 e publicadas sob o pseudónimo "Estudante". Precisava de uma distribuição que pudesse utilizar quando o tamanho da amostra fosse pequeno e a variância fosse desconhecida e tivesse de ser estimada a partir dos dados. As distribuições t são utilizadas para contabilizar a incerteza acrescida resultante desta estimativa.

Drones

Drones

Um Drone é um veículo aéreo não tripulado (VANT) que voa por controlo remoto. Hoje em dia, tem diferentes funções muito úteis à sociedade, por exemplo: ajudar a reduzir acidentes nas estradas, detetar incêndios em campos abertos, ajudar a irrigar os campos de forma mais eficiente...

E

Engenheiro de dados

Data Engineer

São especialistas em processamento de dados. Os engenheiros de dados são aqueles que, a partir de um conjunto de dados confusos, criam a infraestrutura que permite a sua análise de uma forma real e tangível. Para tal, utilizam software ETL (Extract, Transform and Load—Extração, Transformação e Carregamento de Dados), combinam conjuntos de dados e depuram e enriquecem os dados que algumas empresas têm vindo a armazenar há anos.

Escalar

Scalar

Uma variável é de tipo escalar (por oposição a vetorial) quando tem um valor de magnitude, mas sem direção no espaço, por exemplo, volume ou temperatura.

Estrato, amostragem estratificada

Strata, stratified sampling

Consiste em dividir as amostras de população em grupos homogéneos ou estratos e recolher uma amostra aleatória de cada um deles. Strata é também uma conferência de O'Reilly sobre Big Data, Data Science e tecnologias relacionadas.

Experiência do Cliente

Customer Experience

A experiência do utilizador é o conjunto de fatores e ações que têm lugar quando o utilizador interage com um produto ou ambiente. A perceção que a pessoa tem em cada caso pode ser positiva ou negativa e influenciará o processo de compra que poderá ou não ter lugar. Esta perceção pode provir de muitos fatores diferentes, tais como o design, as emoções, os sentimentos, a experiência da marca, a fiabilidade do produto, etc.

F

Floresta aleatória

Random forest

É um algoritmo utilizado para tarefas de regressão ou classificação, que se baseia numa combinação de árvores preditoras. "Para classificar um novo objeto a partir de um vetor de entrada, cada árvore da floresta é alimentada com esse vetor. Cada árvore fornece um resultado de classificação, e dizemos que "vota" por esse resultado. A floresta escolhe a classificação que tem o maior número de votos entre todas as árvores da floresta. O termo “random forest” é uma marca registada dos seus autores.

Função de ativação

Activation function

Uma função de ativação é uma função que transmite a informação gerada pela combinação linear de pesos e entradas, ou seja, o meio de transmitir a informação através das conexões de saída. Como queremos que a rede seja capaz de resolver problemas cada vez mais complexos, as funções de ativação geralmente tornarão os modelos não lineares. As mais conhecidas são a função escalonada, sigmoide, ReLu, de tangente hiperbólica ou de base radial (Gaussiana, multiquadrática, multiquadrática inversa)

Ler mais

G

GATE

GATE

“General Architecture for Text Engineering” é um ambiente de arquitetura geral para a engenharia de textos. Este ambiente é de código aberto, baseado em Java, e destina-se ao processamento de tarefas em linguagem natural. Permite a integração com outras ferramentas concebidas para interagir com ele. É um projeto da Universidade de Sheffield, Reino Unido.

Gestor de Governança de Dados

Data Gobernance Manager

É responsável por definir e organizar o processo de recolha, armazenamento e acesso aos dados, garantindo a todo o momento a sua segurança e confidencialidade. A sua função consiste em definir e verificar o cumprimento de políticas e normas. Gerir o ciclo de vida dos dados e assegurar que os dados são mantidos de forma segura e organizada, e que são acessíveis apenas a pessoas autorizadas. Para este papel, é necessário combinar um conhecimento funcional de como funcionam as bases de dados e outras tecnologias associadas, com um conhecimento profundo da regulamentação de cada indústria em particular (financeira, farmacêutica, telecomunicações, etc.) Em suma, a sua função é "Definir e assegurar o cumprimento das regras que definem o fluxo de dados". Uma vez que tenhamos um sistema em que os dados estejam bem organizados, acessíveis e guardados com segurança, o que nos interessa é aproveitá-los ao máximo, extraindo deles valiosos "Insights" ou chaves para padrões de comportamento que, quando aplicados aos nossos processos do dia-a-dia, os tornam mais eficientes e inovadores. Este é o momento em que dois novos papéis entram em jogo.

Github

Github

A GitHub é uma empresa sem fins lucrativos que oferece um serviço de hosting para repositórios armazenados na nuvem. Foi comprada pela Microsoft em 2018. A GitHub baseia-se na colaboração entre utilizadores, permitindo a vários programadores experimentar com código aberto e partilhar os seus diferentes projetos e ideias.

Ler mais

Governança de Dados

Data Governance

Um conjunto de políticas e boas práticas que permitem processos que visam promover os dados como um ativo dentro de uma organização para melhorar a tomada de decisões.

Gradiente de reforço

Gradient Boosting

O Gradient boosting ou Gradiente de reforço é uma técnica de aprendizagem automática utilizada para a análise de regressão e para problemas de classificação estatística, que produz um modelo preditivo sob a forma de um conjunto de modelos de previsão fracos, geralmente árvores de decisão. Constrói o modelo iterativamente e generaliza-o, permitindo a otimização de uma função de perda diferenciável arbitrária. (Wikipedia)

H

Hadoop

Hadoop

O Hadoop é um projeto open source da Apache Foundation, introduzido em 2006, e desenvolvido em Java, cujo objetivo é oferecer um ambiente de trabalho de acordo com as necessidades da Big Data. O Hadoop, portanto, foi concebido para trabalhar com volumes de dados massivos (Volume), estruturados ou não estruturados (Variedade), e processá-los de forma segura e eficiente (Veracidade / Velocidade), tanto em termos de custo como de tempo. Para tal, distribui tanto o armazenamento da informação, como o seu processamento, entre muitas equipas que trabalham de forma coordenada “em clusters”, com um ou vários nós mestres encarregados de gerir, por um lado, o sistema de ficheiros distribuídos onde os dados são armazenados em diferentes blocos redundantes; e, por outro lado, a coordenação e execução dos diferentes jobs ou tarefas entre os membros do cluster. É, portanto, um sistema altamente escalável que também oferece redundância de software.

Ler mais

Heurístico

Heuristic

Um método heurístico consiste em encontrar uma solução prática para um problema, mesmo que não seja a ideal, mas suficiente para fazer mais progressos ou para aprender com ela. "Em algumas ciências, uma forma de procurar uma solução para um problema por métodos não rigorosos, tais como por tentativa e erro, regras empíricas, etc.". (RAE)

Hiperplano

Hyperplane

É um limite que separa o espaço em dois subespaços. Por exemplo, uma linha é um hiperplano em duas dimensões, e um plano é um hiperplano em três. Na aprendizagem automática, um hiperplano é o limite que separa um espaço de muitas dimensões. Os algoritmos Kernel Support Vector Machine utilizam hiperplanos para separar classes positivas das negativas em espaços multidimensionais.

Histograma

Histogram

É uma representação gráfica de um conjunto de dados numéricos, geralmente sob a forma de um gráfico de barras verticais.

I

Imputação

Imputation

A imputação é uma técnica utilizada quando há valores em falta no conjunto de dados. É realizada por meio de técnicas estatísticas, como a substituição pela mediana ou pela moda, ou por técnicas de aprendizagem automática, como a imputação kNN.

Indicador de confiança

Lift

Na mineração de dados, o indicador de confiança (“lift”) compara a frequência de um padrão observado com a frequência em que poderíamos ver o mesmo padrão por acaso. Se o valor de "Lift" for próximo de 1, é bem possível que o padrão que observamos seja puramente coincidente. Quanto mais alto for este valor, maior é a probabilidade de o padrão ser real.

Indústria 4.0

Industry 4.0

Também conhecida como a 4ª Revolução Industrial, procura transformar uma empresa numa organização inteligente, a fim de otimizar os seus recursos e poupar custos. Como resultado desta transformação digital, o negócio torna-se mais eficiente e alcança maior competência.

Inferência estatística

Inferential Statistics

Uma inferência estatística (estatística dedutiva) é quando tentamos retirar hipóteses sobre toda uma população, analisando apenas uma amostra da mesma. Por exemplo, antes de um medicamento ser introduzido no mercado, são realizados testes para comprovar a sua viabilidade. Mas é impossível testar toda a população, por isso, os testes são realizados na amostra que melhor representa a população.

Inovação

Innovation

A inovação, na maioria dos casos, é uma transformação através da qual são produzidas mudanças para introduzir melhorias ou novas funcionalidades nas soluções existentes. Outras vezes, é um processo de criação de novas soluções a partir do zero. Em qualquer caso, estes desenvolvimentos são criados pelo engenho humano para melhorar a nossa qualidade de vida como espécie e estão intimamente ligados à ciência e à tecnologia.

Insights de Dados, Descobertas, Achados, Chaves

Data Insight

Não é difícil explicar o conceito, o que é complicado é encontrar um termo em português que o resuma. O conceito de “data insight significa o profundo conhecimento ou compreensão de dados de uma forma que possa orientar ações empresariais corretas e produtivas. As empresas “Data-driven” são aquelas que tomam decisões com base em dados, em particular, insights de dados (decisões baseadas em dados). As soluções da LUCA ajudam as empresas a tornarem-se em empresas Data-driven.

Integridade (Governança de Dados)

Integrity (Data Governance)

A propriedade com que a informação contida num sistema de informação deve cumprir, pelo que a informação não pode ser modificada sem deixar vestígios de que tal modificação tenha tido lugar, quer nos meios físicos em que é armazenada, quer no transporte da informação através de redes de comunicação.

Inteligência Artificial das Coisas (IA das Coisas)

Artificial Intelligence of Things (AI of Things)

Quando a inteligência artificial e as tecnologias da IoT e da Big Data unem forças para que "as coisas sejam capazes de aprender, partilhar informação umas com as outras e tomar decisões de uma forma quase desacompanhada" para ajudar as organizações a tomar decisões que melhorem a vida das pessoas.

Ler mais

Inteligência artificial

Artificial intelligence

Também conhecida como IA. Na origem da IA nos anos 60, os investigadores implementaram princípios gerais de "inteligência", geralmente automatizando o raciocínio baseado na lógica simbólica. À medida que os custos em recursos de hardware e software foram sendo reduzidos, o foco deslocou-se do raciocínio baseado em regras para a tomada de decisões "inteligentes" baseadas na análise estatística de grandes quantidades de dados.

Ler mais

Inteligência cognitiva

Cognitive intelligence

A Inteligência Cognitiva é uma parte, embora importante, da Inteligência Artificial, que engloba principalmente as tecnologias e ferramentas que permitem às nossas apps, websites e bots ver, ouvir, falar, compreender e interpretar as necessidades do utilizador através de uma linguagem natural. Ou seja, são as aplicações de IA que permitem às máquinas aprender a linguagem dos utilizadores para que estes não tenham de aprender a linguagem das máquinas.

Ler mais

Inteligência empresarial

Business Intelligence

É o conjunto de estratégias, aplicações, dados e tecnologias utilizadas por uma organização para armazenar dados, analisá-los e extrair conclusões (Insights) a partir das quais se podem obter oportunidades de negócio estratégicas.

Internet das coisas (IoT)

Internet of Things (IoT)

A Internet of Things ou Internet das Coisas baseia-se na conectividade de milhões de objetos entre si, permitindo-nos aproveitar ao máximo todos os aspetos das nossas vidas. São objetos físicos com sensores integrados para conectar e trocar dados com outros dispositivos e automatizar tarefas, para que possa passar o seu tempo a fazer o que realmente gosta.

Ler mais

Interpretabilidade

Interpretability

Indica o grau em que as previsões de um modelo podem ser interpretáveis. Os modelos baseados na Aprendizagem Profunda (Deep Learning) não o são frequentemente, ou seja, pode ser muito difícil decifrar o que um modelo com diferentes camadas está a fazer. Em contraste, os modelos de regressão linear são facilmente interpretáveis.

Intervalo de confiança

Confidence interval

Um intervalo definido em torno de um valor estimado para indicar a margem de erro, combinado com a probabilidade de um valor estar dentro desse intervalo. As estatísticas fornecem fórmulas matemáticas específicas para o cálculo de intervalos de confiança.

IoMT

IoMT

A IoMT ou Internet das Coisas Médicas é a sensorização de dispositivos médicos para recolher os dados extraídos destes dispositivos e analisá-los, a fim de fornecer um melhor serviço aos pacientes e a profissionais de saúde. Isto traduz-se em grandes vantagens, tanto para os trabalhadores como para os pacientes: - Poupar recursos económicos pela digitalização de revisões médicas através de gadgets, a fim de reduzir o custo das contas hospitalares - Melhorar a qualidade de vida dos pacientes através da gestão e recolha de dados, a fim de detetar e prevenir doenças de uma forma mais personalizada - Automatizar processos, a fim de otimizar os recursos e o pessoal de saúde da melhor forma possível - Melhorar a experiência do utilizador nos centros de saúde, otimizando o espaço através da contagem de pessoas, a fim de reduzir os tempos de espera

J

Java

Java

É uma das linguagens de programação mais utilizadas na aprendizagem mecânica devido à sua grande consistência, clareza e fiabilidade. É uma linguagem open source, compatível com qualquer plataforma, que pode ser utilizada para praticamente qualquer aplicação. Tem um grande número de bibliotecas, algumas das quais centradas no mundo da Machine Learning, tais como Spark+MLlib, Mahout e Deeplearning4j.

K

Keras

Keras

É uma API de aprendizagem automática muito popular, baseada na Python. A Keras funciona sobre vários ambientes de aprendizagem profunda (deep learning), incluindo o TensorFlow, que é encontrado como tf.keras.

k-significa clustering

k-means clustering

É um tipo de Algoritmo supervisionado utilizado para tarefas de clustering. É um processo que simplesmente classifica um conjunto de dados em vários clusters ou agrupamentos (digamos "k" clusters). Os dados são homogéneos dentro de cada cluster, e heterogéneos em relação aos dados de clusters vizinhos.

k-vizinho mais próximo

k-nearest neighbors

O Algoritmo K-Nearest Neighbors é um algoritmo de classificação simples que classifica a probabilidade de um elemento x pertencer a uma determinada classe, com base na informação sobre os seus vizinhos "k". Ao novo elemento é atribuída a classe mais comum entre os seus vizinhos mais próximos, de acordo com uma função de distância. Estas funções de distância podem ser de vários tipos: Euclidean, Manhattan, Minkowski ou Hamming. As três primeiras são utilizadas para funções contínuas, e a quarta para variáveis categóricas.

L

LISP

LISP

Acrónimo de List Processor, uma linguagem criada por John McCarthy, hoje considerado por muitos como o pai da Inteligência Artificial. A sua ideia era otimizar o funcionamento e a utilização dos recursos dos computadores da época. Esta nova linguagem, parcialmente baseada na linguagem Fortran já existente, utilizava algumas técnicas inovadoras, tais como estruturas de dados em árvore ou o uso de computação simbólica, da qual mais tarde nasceria a programação simbólica. A Lisp rapidamente se tornou na linguagem de eleição no mundo da Inteligência Artificial.

Ler mais

LibSVM

LibSVM

É uma biblioteca de C++ que é muito útil para trabalhar com máquinas de vetores de suporte (SVM). É utilizada para resolver problemas de classificação e regressão.

Linguagens de programação de script

Scripting languages

As linguagens de programação de script podem ser executadas diretamente sem a necessidade de as compilar primeiro em código binário, como é o caso de linguagens como Java e C. A sintaxe das linguagens de script é muito mais simples do que a das linguagens compiladas, o que facilita muito as tarefas de programação e execução. Exemplos de tais linguagens são Python, Perl, Rubi, etc.

Linguística computacional

Computational linguistics

Também conhecida como processamento de linguagem natural PLN. É um ramo da informática que analisa a linguagem falada (por exemplo, em chinês ou inglês) e a converte em dados estruturados que podem ser utilizados como comandos lógicos num programa. Inicialmente, o foco estava em traduzir de uma linguagem para outra, ou aceitar frases completas como consultas para bases de dados. Os esforços estão atualmente concentrados na análise de documentos e outros dados (por exemplo, tweets) para extrair informação potencialmente valiosa.

Logaritmo

Logarithm

Na análise matemática, geralmente, o logaritmo de um número real positivo — numa dada base logarítmica — é o expoente ao qual a base deve ser elevada para obter esse número. Os logaritmos são utilizados para transformar a multiplicação em adição e a divisão em subtração. Por conseguinte, simplificam muito os cálculos numéricos. Trabalhar com o logaritmo de uma ou mais variáveis num modelo é mais fácil do que trabalhar com os valores originais, uma vez que permite construir modelos baseados em funções lineares em vez de não lineares.

Loja conectada

Smart Retail

A loja conectada é também conhecida por outros nomes, tais como loja IoT, loja do futuro ou loja inteligente. Em suma, uma loja conectada é uma loja tradicional que passou por uma transformação digital e adaptou os seus espaços a novos cenários com dispositivos IoT, para oferecer aos seus clientes uma melhor experiência de utilização. As marcas estão a esforçar-se por adaptar os benefícios do comércio online aos pontos de venda físicos para atrair novos clientes, aumentar as vendas e construir a fidelidade à marca.

Ler mais

M

M2M

M2M

Machine to Machine (M2M) é a conexão ou troca de informação, em formato de dados, que é criada entre duas máquinas conectadas. É, de certa forma, na conectividade que se baseia a Internet of Things (IoT). O termo M2M é agora obsoleto, uma vez que evoluiu para o que chamamos IoT, que, para além das máquinas, também conecta as pessoas.

MATLAB

MATLAB

É uma linguagem e ambiente de visualização e desenvolvimento de algoritmos comercial muito popular.

Mahout

Mahout

É uma biblioteca Java muito semelhante à NumPy no Python. Centra-se em expressões matemáticas, algébricas e estatísticas.

Máquina de vetores de suporte

Support vector machine

Uma máquina de vetores de suporte é um algoritmo de aprendizagem automática supervisionada utilizado tanto para tarefas de classificação como de regressão. Baseiam-se na ideia de encontrar o hiperplano que melhor divide o conjunto de dados em duas classes distintas. Intuitivamente, quanto mais longe do hiperplano estão os nossos valores, mais seguros estamos de que eles estão corretamente classificados. No entanto, por vezes, não é fácil encontrar o hiperplano que melhor classifica os dados e é necessário saltar para uma dimensão superior (do plano para 3 dimensões ou mesmo n dimensões). As SVMs são utilizadas para tarefas como a classificação de texto, deteção de spam, análise de sentimentos, etc. São também utilizadas para o reconhecimento de imagens.

Matplotlib

Matplotlib

É uma biblioteca Python que lhe permite realizar todo o tipo de gráficos: desde histogramas, a gráficos de linhas ou mapas de calor. Também permite o uso de comandos LaTeX para adicionar expressões matemáticas a um gráfico.

Matriz de confusão

Confusion matrix

É uma tabela frequentemente utilizada para descrever o desempenho de um modelo de classificação. É constituída por uma matriz N*N, onde N é o número de classes. A matriz é completada com os valores previstos pelo modelo versus os valores reais. O segundo quadrante é chamado de erro Tipo II ou "falsos negativos", enquanto o terceiro quadrante é chamado de erro Tipo I ou "falsos positivos".

Matriz de correlação

Correlation matrix

A matriz de correlação mostra os valores de correlação de Pearson, que medem o grau de relação linear entre duas variáveis. Os valores de correlação estão normalmente entre -1 e +1. No entanto, na prática, os elementos têm geralmente correlações positivas. Se os dois elementos tendem a aumentar ou a diminuir ao mesmo tempo, o valor de correlação é positivo. Em geral, as variáveis com valores de correlação superiores a 0,7 são consideradas altamente correlacionadas, embora o valor possa depender de cada caso particular.

Metadados

Metadata

Dados sobre dados, que permitem que a informação seja contextualizada. Descrevem as características dos dados para ajudar a identificá-los, descobri-los, valorizá-los e geri-los. Existem três tipos de metadados: técnicos, organizacionais e comerciais (TON).

Métricas de avaliação

Evaluation metrics

O objetivo das métricas de avaliação é medir a qualidade do modelo estatístico / de Machine Learning.

Mineração de dados

Data mining

Consiste na utilização de computadores para analisar grandes conjuntos de dados (estruturados ou não estruturados) de várias fontes, em busca de padrões que permitam a tomada de decisões empresariais. É um termo que remonta aos anos 90. A mineração de dados é utilizada na análise de mercado, definição de padrões de compra, planeamento financeiro, deteção de fraudes, etc.

Mlpack

Mlpack

Esta biblioteca de C++ destina-se a fornecer uma implementação rápida de algoritmos de Machine Learning. Facilita a integração de algoritmos em soluções de maior escala através de uma linha de código.

Modelação Preditiva

Predictive Modeling

Implica o desenvolvimento de modelos estatísticos e de aprendizagem automática para prever o comportamento futuro com base em dados históricos.

Módulo (Python)

Python Module

Os módulos são a forma da Python armazenar definições (instruções ou variáveis) num ficheiro, para que possam ser utilizadas mais tarde num script ou numa instância interativa do intérprete. Desta forma, não precisam de ser redefinidas de cada vez. A principal vantagem da capacidade da Python de separar um programa em módulos é, evidentemente, podermos reutilizá-los noutros programas ou módulos. Para o fazer, será necessário importar os módulos que se pretende utilizar em cada situação. A Python vem com uma coleção de módulos padrão que podem ser utilizados como base para um novo programa ou como exemplos para começar a aprender.

N

NB-IoT

NB-IoT

NB-IoT são as primeiras tecnologias padrão 3GPP concebidas ad hoc para a IoT nas bandas licenciadas. Ambas as tecnologias fazem parte de redes LPWA (low power wide area) e foram concebidas para otimizar o consumo massivo de Low Data e aplicações IoT de baixo custo. Graças a esta tecnologia, podemos reduzir o custo dos dispositivos e prolongar a vida útil das baterias durante anos. Também oferece melhor cobertura, tanto em interiores (locais de difícil cobertura, por exemplo, caves), como em exteriores (longo alcance).

NoSQL

NoSQL

Os sistemas tradicionais de bases de dados tradicionais, conhecidos como sistemas relacionais (RDBMS) dependem fortemente de linhas, colunas, esquemas e tabelas, para recuperar e organizar os dados armazenados em bases de dados. Para este fim, utilizam uma linguagem de consulta estruturada SQL. Estes sistemas apresentam certos problemas para trabalhar com Big Data, tais como: não escalabilidade, falta de flexibilidade e problemas de desempenho. As bases de dados não-relacionais NoSQL são muito mais flexíveis. Permitem trabalhar com dados não estruturados, tais como dados de chat, mensagens, dados de registo, dados de utilizador e de sessão, dados de grande dimensão, como vídeos e imagens, bem como dados da Internet das Coisas e dados de dispositivos. São também concebidas para se obter uma altíssima capacidade de volume de armazenamento, graças ao armazenamento distribuído de dados e à velocidade de processamento de informação. São, portanto, altamente escaláveis. São também independentes da linguagem de programação. As bases de dados NoSQL são de código aberto, o que as torna acessíveis, mas, como contrapartida, cria problemas de falta de normalização e interoperabilidade. Algumas das bases de dados NoSQL disponíveis no mercado são: Couchbase, Dynamo Db da Amazon, MongoDB e MarkLogic, etc.

Novas tecnologias

New technologies

As novas tecnologias são técnicas que nunca foram utilizadas antes, mas que surgiram nos últimos anos nos campos das tecnologias da informação e da comunicação. São pequenos avanços na humanidade que ajudam as pessoas a evoluir e tornam as suas vidas mais fáceis. Quando surgiram, ferramentas como a Internet, o DVD, os computadores de secretária e os computadores portáteis eram exemplos deste conceito. Hoje em dia, entendemos como novas tecnologias conceitos como IoT, Big Data, Inteligência Artificial, Realidade Virtual...

NumPy

NumPy

Acrónimo de Numerical Python, é a principal biblioteca Python para computação científica. Uma das suas características mais poderosas é que pode trabalhar com matrizes (array) de “n” dimensões. Também oferece funções básicas de álgebra linear, transformação de Fourier, capacidades avançadas com números aleatórios, e ferramentas de integração com outras linguagens de baixo nível, tais como Fortran, C e C++.

O

O paradoxo de Polanyi

Polanyi Paradox

Michael Polanyi foi um estudioso e filósofo anglo-húngaro que, já em 1966, no seu livro "The Tacit Dimension" (“A Dimensão Tácita”), argumentou que o conhecimento humano se baseia largamente em regras e competências que nos foram transmitidas pela cultura, tradição, evolução, etc., e que, por isso, nem sempre estamos plenamente cientes de tal. Ele definiu o que é chamado de "conhecimento tácito" e resumiu-o nesta frase: We can know more than we can tell = Podemos saber mais do que podemos dizer. O que Polanyi quis dizer com isto é que muitas das tarefas que executamos são baseadas em conhecimento tácito e intuitivo e, por isso, são muito difíceis de codificar ou automatizar. Porquê? Porque nós próprios não sabemos como o fazemos. Por exemplo, alguma vez tentou explicar a uma criança como se salta à corda? Em que momento tem de entrar para não pisar a corda ou ficar enredado nela? Parece simples, não é? Mas não é. Agora imagine como o explicaria a um robô.

Ler mais

P

Pandas

Pandas

É uma das mais populares bibliotecas de processamento de dados Python entre os cientistas de dados. Consiste numa API de análise de dados orientada por colunas. Muitos ambientes de Aprendizagem Automática, incluindo TensorFlow, trabalham com estruturas de dados Pandas. Ver a documentação sobre a Pandas para mais informações (em inglês).

Paradoxo de Moravec

Moravec´s Paradox

Nos anos 80, Hans Moravec, Rodney Brooks e Marvin Minsky, investigadores no campo da inteligência artificial e da robótica, apresentaram o que é conhecido como o paradoxo de Moravec. Este paradoxo reflete a contradição inerente ao facto de que atividades que envolvem um elevado nível de raciocínio, tais como jogar xadrez ou fazer um teste de inteligência, requerem muito pouca carga computacional, enquanto outras atividades de baixo nível cognitivo, tais como identificar um rosto familiar, requerem uma enorme quantidade destes recursos. Nas palavras do próprio Moravec: “É relativamente fácil conseguir que uma máquina apresente o mesmo desempenho que um adulto num teste de inteligência ou a jogar damas; no entanto, é muito mais difícil, ou mesmo impossível, conseguir com que atinja o nível de habilidade de uma criança de um ano de idade quando se trata de perceção e mobilidade.” É claro que o crescimento exponencial e o barateamento dos recursos informáticos disponíveis pode significar que mesmo estas capacidades sensoriomotoras poderão ser realizadas por uma IA no futuro. Contudo, aqui entra em jogo outro paradoxo, que é anterior ao paradoxo de Moravec, mas que está intimamente relacionado com ele: ver o paradoxo de Polanyi.

Perceptron

Perceptron

O algoritmo perceptron foi criado no final da década de 1950. A sua primeira implementação foi como hardware. Na verdade, foi a primeira rede neural a ser criada. O perceptron é um algoritmo de aprendizagem supervisionada para classificadores binários. É um classificador linear, ou seja, um algoritmo de classificação baseado numa função linear que aplica uma série de funções de peso aos valores de entrada, e passa os valores desta soma ponderada para uma função cujo resultado de saída é "ou". O perceptron é a rede neural mais simples, pois simula o funcionamento de um único neurónio com n valores de entrada binários. Calcula uma soma ponderada dos valores de entrada e dispara se essa soma for igual ou superior a zero.

Perfis

Profiling

O perfil é o processo de utilização de dados pessoais para avaliar certos aspetos pessoais, a fim de analisar e prever o comportamento / desempenho / responsabilidade, etc.

Perl

Perl

É uma antiga linguagem de scripting enraizada em sistemas pré-UNIX. A Perl tem sido amplamente utilizada para processamento de texto e tarefas de limpeza e depuração de dados.

Precisão

Accuracy

A fração de previsões corretas feitas por um modelo de classificação. Num modelo multiclasse, a precisão é definida da seguinte forma: Precisão=Previsões corretas / Número total de exemplos No caso da classificação binária, a definição é: Precisão= (Verdadeiros Positivos + Verdadeiros Negativos) / Número total de exemplos

Precisão e Sensibilidade

Precision and Recall

A precisão (“Precision” em inglês) é uma métrica para modelos de classificação que responde à seguinte pergunta: De todos os resultados que o modelo dá como positivos, quantos são realmente positivos? Representa o quão próximo o modelo ou resultado da medição está do valor real. É também conhecida como a taxa de Verdadeiro Positivo (ou “True positive rate”). A sensibilidade indica quantas das previsões positivas são corretas. A exatidão e a sensibilidade indicam-nos a relevância dos resultados. Por exemplo, um algoritmo muito preciso, (P elevado), dar-nos-á muito mais resultados relevantes do que irrelevantes, enquanto um algoritmo muito específico, (TP elevado), detetará a maioria dos resultados de interesse (os primeiros).

Processador de dados

Data Processor – Procesador de datos

Muitas vezes, é um terceiro responsável pela recolha de dados em nome do controlador (para efeitos de RGDP)

Processamento de dados

Data wrangling

Consiste em converter dados, geralmente através de linguagens de scrip, para um formato em que seja mais fácil trabalhar com eles. É uma tarefa que consome muito tempo.

Processamento de linguagem natural (NLP)

Natural language processing (NLP)

O processamento da Linguagem Natural é o ramo da Informática, Linguística e Inteligência Artificial que trata do estudo e desenvolvimento de técnicas que permitem aos computadores compreender e processar a linguagem humana.

Pseudonimização

Pseudonymization

O processo de Pseudonimização é uma alternativa à anonimização de dados. Enquanto a anonimização implica a eliminação completa de toda a informação identificável, a Pseudonimização visa remover a ligação entre um conjunto de dados e a identidade do indivíduo. Exemplos de pseudonimização são a encriptação e a tokenização.

Python

Python

É uma linguagem de programação criada em 1994 que é amplamente utilizada na ciência dos dados. Para principiantes, é muito fácil de aprender, mas, ao mesmo tempo, é uma linguagem muito poderosa para utilizadores avançados, pois possui bibliotecas especializadas para a aprendizagem automática e a geração de gráficos.

Ler mais

Q

R

R

R

Linguagem de programação de código aberto, de ambiente de cálculo estatístico e de geração de gráficos disponível para ambientes Linux, Windows e Mac.

RGDP

GDPR

O Regulamento Geral de Proteção de Dados (GDPR), que entrou em vigor em 25 de maio de 2018. Este novo regulamento tem como principal objetivo regular a recolha, a utilização e o intercâmbio de dados pessoais. A quantidade de dados que criamos todos os dias cresce a um ritmo exponencial e, como diz o regulamento, "o tratamento de dados pessoais deve ser concebido para servir a humanidade".

Ler mais

Realidade Virtual

Virtual Reality

É um sistema informático que gera simulações de espaços reais ou fictícios onde podemos interagir e explorar como se estivéssemos realmente lá.

Rede neural

Neural network

É um modelo que, inspirado no funcionamento do cérebro, é composto por diferentes camadas (pelo menos uma das quais está escondida), consistindo em unidades únicas conectadas entre si (neurónios). As redes neurais são utilizadas na aprendizagem profunda para o processamento de imagens (associadas a características) e muito mais. O que torna este tipo de rede especial é a utilização da camada oculta de funções de "peso", os neurónios, com os quais uma rede pode ser construída para reproduzir muitas outras funções. Sem esta camada oculta, as redes neurais não seriam mais do que simples funções ponderadas.

Redes neurais convolucionais

Convolutional neural networks (CNN)

São modelos de aprendizagem profunda que podem aprender automaticamente representações hierárquicas das características. Isto significa que as características calculadas pela primeira camada são gerais e podem ser reutilizadas em diferentes problemas, enquanto as características calculadas pela última camada são específicas e dependem do conjunto de dados e da tarefa escolhida.

Redução da dimensionalidade

Dimension reduction

Implica a utilização de uma técnica chamada de análise de componentes principais, para extrair uma ou mais dimensões que captem a maior variação possível dos dados. Isto é feito usando álgebra linear, que, em resumo, é o ramo da matemática que nos permite traduzir algo que ocorre num espaço de m dimensões para outro espaço com um número menor de dimensões.

Regressão

Regression

É um método de aprendizagem supervisionada em que a variável de saída é um valor real e contínuo, tal como "altura" ou "peso". A regressão é a adaptação de qualquer conjunto de dados a um determinado modelo. Nos algoritmos de regressão podemos encontrar regressão linear, não linear, por mínimos quadrados, Lasso, etc.

Regressão linear

Linear Regression

É uma técnica que procura uma relação linear (isto é, uma relação entre duas quantidades variáveis, como preços e vendas, podendo ser expressa por uma equação cuja representação gráfica é uma linha reta), começando com um conjunto de pontos que inicialmente não estão bem alinhados. Este processo é feito através do cálculo da aproximação por mínimos quadrados. É aquela que, num gráfico de coordenadas cartesianas x-y, dá o melhor ajuste aos dados de acordo com um critério de mínimos quadrados (minimiza a soma dos quadrados das diferenças nas ordenadas entre os pontos gerados pela função escolhida e os valores correspondentes nos dados)

Regressão logística

Logistic Regression

É um modelo semelhante à regressão linear, mas os resultados obtidos são categóricos em vez de serem valores contínuos.

Resiliência (Governança de Dados)

Resilience (Data Governance)

A resiliência é a capacidade dos sistemas de manter ou restaurar a sua funcionalidade básica após a ocorrência de um risco ou evento (mesmo desconhecido).

Resumo automático

Text summarization o Automatic summarization

É a técnica pela qual podemos sintetizar longos fragmentos de texto em fragmentos de texto mais curtos que contenham apenas a informação que é relevante. Isto permite-nos conceber e desenvolver modelos que nos ajudam a condensar e apresentar a informação, de forma a poupar tempo de leitura e a maximizar a quantidade de informação por palavra.

Robô

Robot

Um robô é um sistema eletromecânico com independência própria para criar movimentos ou realizar operações que podem ser, no mínimo, uma questão de estudo. São criados através de uma técnica chamada robótica, que é utilizada para os desenhar e construir.

Rubi

Ruby

É uma linguagem de script que surgiu em 1996. É amplamente utilizada por cientistas de dados, mas não é tão popular como a Python, que oferece bibliotecas mais especializadas para diferentes tarefas de Data Science.

S

SAS

SAS

É um pacote de software estatístico que inclui uma linguagem de programação também conhecida como SAS

SQL

SQL

A SQL (Structured Query Language) é uma linguagem padrão e interativa de acesso a bases de dados relacionais que lhe permite especificar vários tipos de operações de bases de dados. A SQL baseia-se na utilização de álgebra e cálculo relacionais para realizar consultas a bases de dados de uma forma simples. As consultas são realizadas utilizando uma linguagem de comando que lhe permite selecionar, inserir, atualizar e averiguar a localização dos dados, e muito mais.

SciPy

SciPy

Acrónimo de Scientific Python. A SciPy é uma biblioteca Python que está construída sobre a biblioteca de computação científica NumPy. É uma das mais úteis pela sua vasta gama de módulos de ciência e engenharia de alto nível, tais como a transformação de Fourier discreta, a álgebra linear e matrizes de otimização

Scikit Learn

Scikit Learn

É uma biblioteca Python construída sobre NumPy, SciPy e matplotlib. Esta biblioteca contém um grande número de ferramentas eficientes para Machine Learning e modelação estatística, tais como algoritmos de classificação, regressão, clustering e redução da dimensionalidade.

Scrapy

Scrapy

É uma biblioteca Python utilizada para rastrear a web. É um ambiente muito útil para a obtenção de certos padrões de dados. A partir da URL da homepage de um site, pode rastrear as diferentes páginas do site para recolher informações.

Seaborn

Seaborn

É uma biblioteca Python baseada na matplotlib, utilizada para tornar os gráficos e a informação estatística no Python mais atraentes. Visa dar maior destaque às visualizações, no âmbito das tarefas de exploração e interpretação de dados.

Segmentação

Clustering

É um método de aprendizagem não supervisionada utilizado para descobrir os agrupamentos inerentes aos dados. Por exemplo, agrupamento de clientes de acordo com os seus hábitos de compra, a fim de os segmentar. Desta forma, as empresas podem definir as estratégias de marketing mais adequadas para aumentar os seus lucros. Exemplos de algoritmos de clustering são: K-Means, clustering hierárquico, etc.

Sensibilidade e Especificidade

Sensitivity and Specificity

São métricas estatísticas utilizadas para medir o desempenho de um classificador binário. A sensibilidade (também chamada de taxa de verdadeiro positivo, ou de probabilidade de deteção em alguns campos) mede a proporção de casos positivos corretamente identificados pelo algoritmo classificador. Por exemplo, a percentagem de pessoas com uma doença que são corretamente detetadas. A sua fórmula é: Sensibilidade=Verdadeiros Positivos/ (Verdadeiros Positivos + Falsos Negativos) A especificidade (também chamada de taxa de verdadeiros negativos) mede a proporção de casos negativos corretamente identificados como tal pelo algoritmo classificador. Por exemplo, é utilizada para indicar o número de pessoas saudáveis que foram corretamente identificadas como tal pelo algoritmo. Especificidade=Verdadeiros Negativos/ (Verdadeiros Negativos + Falsos Positivos)

Sensores IoT

IoT Sensors

Um sensor IoT é um dispositivo capaz de detetar, medir ou indicar alterações num espaço / objeto físico, transforma-as num sinal elétrico e carrega-as de uma forma legível numa plataforma de conectividade. Estes sensores podem medir uma multiplicidade de variáveis (localização, temperatura, humidade, pressão, velocidade...). Por si só, não seriam úteis, pelo que todos os dados recolhidos são carregados numa plataforma onde, através do Big Data, podemos analisá-los e criar padrões de comportamento a fim de definir os valores e obter valor acrescentado a partir do dispositivo.

Série espácio-temporal

Spatiotemporal data

São dados de séries cronológicas que também incluem identificadores geográficos, tais como pares de coordenadas de latitude-longitude.

Série temporal

Time series data

Uma série temporal é uma sequência de medições espaçadas em intervalos de tempo que não são necessariamente iguais. Assim, as séries temporais consistem numa medida (por exemplo, a pressão atmosférica ou o preço das ações) acompanhada de um selo temporal.

Shark

Shark

Esta biblioteca de C++ fornece métodos de otimização lineares e não lineares. Baseia-se em métodos de kernel, redes neurais e outras técnicas avançadas de Machine Learning. É compatível com a maioria dos sistemas operativos.

Sistema especialista

Expert system

É um sistema que utiliza o conhecimento humano capturado num computador para resolver problemas que normalmente seriam resolvidos por especialistas humanos. Os sistemas bem concebidos imitam o processo de raciocínio que os especialistas utilizam para resolver problemas específicos. Estes sistemas podem funcionar melhor do que qualquer especialista humano na tomada de decisões individuais em certos domínios e podem ser utilizados por humanos não experientes para melhorar as suas capacidades de resolução de problemas.

Ler mais

Sobreajuste

Overfitting

Um modelo é "Sobreajustado" quando tantas particularidades e valores anónimos foram tidos em conta que o modelo tornou-se demasiado complicado e não é aplicável a nenhum conjunto de dados, exceto aquele para o qual foi utilizado para o treinar.

Spark+MLlib

Spark+Mllib

É uma biblioteca Java que encaixa perfeitamente com as APIs Spark e funciona em conjunto com NumPy. A Spark acelera o funcionamento da MLlib, que tem como objetivo tornar a aprendizagem escalável e mais simples.

Statsmodels

Statsmodels

É um módulo Python para modelação estatística. Permite aos utilizadores explorar dados, estimar modelos estatísticos e realizar testes estatísticos. Oferece uma extensa lista de estatísticas descritivas, testes, funções gráficas, etc., para diferentes tipos de dados e estimadores.

Sujeito dos dados

Data Subject

O indivíduo cujos dados estão a ser utilizados (para fins de GDPR)

SymPy

SymPy

É uma biblioteca Python utilizada para cálculo simbólico, desde aritmética, cálculo, álgebra, matemática discreta e física quântica. Também permite que os resultados sejam formatados em código LaTeX.

T

Tabela de dados

Data Governance table

As tabelas de dados são um canal de responsabilidade social corporativo, solidário e ético onde se realiza um trabalho multidisciplinar sobre os dados e as diferentes disciplinas da governança de dados. Podem ser virtuais, com fluxos de trabalho e automatismos, ou presenciais. Participação multidisciplinar em que os dados são trabalhados com os meios técnicos disponíveis em qualquer situação.

Tabela pivotante ou tabela dinâmica

Pivot table

As tabelas dinâmicas resumem longas listas de dados de forma rápida e fácil, sem necessidade de escrever fórmulas ou copiar células. Mas a sua característica mais importante é que podem ser dinamicamente reorganizadas. Movendo simplesmente o rato, a tabela pivotante pode ser reorganizada para resumir os dados, por exemplo, agrupando-os por sexo, idade ou localização geográfica. O processo de reorganização da tabela é conhecido como "pivotar os dados". Consiste em distribuir a informação de forma que possa ser examinada de diferentes ângulos. O termo tabela pivotante é uma frase genérica utilizada por vários fornecedores. No entanto, a Microsoft Corporation registou a marca comercial específica "PivotTable".

Tecnologia 5G

Fifth Generation Technology (5G)

O 5G é uma das novas conectividades que estão a ser implementadas em diferentes países, cuja principal função é suportar velocidades de carregamento de dados muito superiores a qualquer outra tecnologia criada até agora. Isto significa que, para os serviços que beneficiam desta tecnologia, a entrega de informação será ainda mais rápida do que atualmente.

Tensor

Tensor

Os tensores são objetos matemáticos que armazenam valores numéricos e podem ter diferentes dimensões. Assim, por exemplo, um tensor 1D é um vetor, um tensor 2D é uma matriz, um tensor 3D é um cubo, etc.

Tensorflow

Tensorflow

É uma biblioteca de software open source para computação numérica que utiliza gráficos de fluxo de dados. Os nós no gráfico representam operações matemáticas, enquanto que os bordos representam os conjuntos de dados multidimensionais (tensores) que comunicam entre eles.

Transformação Digital

Digital Transformation

A transformação digital é a reinvenção de uma empresa através da implementação de capacidades digitais nos seus processos, produtos e ativos, para se tornar mais eficiente, proporcionar uma melhor experiência ao utilizador e poupar custos.

Transparência (Governança de Dados)

Transparency (Data Governance)

Conceito subjacente à forma como os utilizadores são sensibilizados para as informações armazenadas pelo serviço, como dar e poder revogar o seu consentimento explícito e ter acesso à sua revogação durante a operação do serviço e ter garantias de que foi removida no final do serviço.

U

UIMA

UIMA

A “Arquitetura Não Estruturada de Gestão de Informação (Unstructured Information Management Architecture)” foi desenvolvida pela IBM como um ambiente para a análise de dados não estruturados, especialmente de linguagem natural. A OASIS UIMA é uma especificação que uniformiza este ambiente e o Apache UIMA é uma implementação de código aberto da mesma. Este ambiente permite trabalhar com diferentes ferramentas concebidas para se conectarem com ele.

Unidade de processamento gráfico (GPU)

Graphics processing unit (GPU)

A unidade de processamento gráfico (GPU) é o componente de hardware que assegura que o conteúdo é apresentado corretamente no ecrã ou monitor do computador. Gere tudo, desde a interface do utilizador a aplicações e sites e, é claro, jogos. A utilização de computação paralela massiva com GPUs tem sido fundamental para o desenvolvimento da Deep Learning.

V

Validação cruzada

Cross-validation

É utilizada na aplicação de algoritmos a conjuntos de dados. Consiste num conjunto de técnicas que dividem os dados em dados de treino e dados de teste. Os dados de treino são introduzidos no algoritmo, juntamente com as respostas corretas, e assim "aprendem" com os dados. Uma vez treinado, o algoritmo é capaz de prever as respostas corretas para cada um dos dados de entrada no conjunto de dados do teste. As respostas dadas pelo algoritmo são comparadas com os valores reais, e assim pode ser estimado se o algoritmo acertou.

Valores anómalos

Outlier

São valores extremos que se podem dever a erros de medição ou de registo de dados, ou refletir eventos reais, mas pouco frequentes.

Variável categórica

Categorical Variable

As variáveis categóricas (ou variáveis nominais) são aquelas que têm valores qualitativos discretos. Por exemplo, os nomes de cidades como Madrid, Valência ou Bilbau, são categóricos.

Variável contínua

Continuous variable

São variáveis cujo valor pode ser qualquer valor que possa ser expresso como um número decimal. A idade ou o tamanho podem ser variáveis contínuas. Tem 2,5 anos. A sua representação gráfica é uma função contínua. As variáveis discretas, por outro lado, são expressas por números inteiros, ou valores concretos, tais como "homem", "mulher", "sim" ou "não".

Variável dependente

Dependent Variable

É chamada de variável dependente porque o seu valor está relacionado ("depende") com o valor da variável dependente. Se estivermos a medir o efeito do tamanho do orçamento para a publicidade no total de vendas, o orçamento para a publicidade seria a variável independente e as vendas totais seriam a variável dependente.

Variável discreta

Discrete Variable

É uma variável cujos valores potenciais pertencem a um conjunto específico de valores. Por exemplo, se alguém classificar um filme entre uma e cinco estrelas e não forem permitidos valores de uma fração de estrela (por exemplo, quatro estrelas e meia), a variável de classificação é uma variável discreta. Numa representação gráfica, as variáveis discretas são expressas sob a forma de histogramas.

Vetor

Vector

A definição matemática de um vetor é "uma quantidade com uma magnitude e uma direção, representada por uma seta cujo comprimento representa a magnitude e cuja orientação no espaço representa a direção". No entanto, os cientistas de dados utilizam o termo neste sentido: "conjunto ordenado de números reais que denotam uma distância sobre um eixo de coordenadas. Estes números podem representar características de uma pessoa, de um filme, de um produto ou do que quisermos modelar. Esta representação matemática das variáveis permite trabalhar com bibliotecas de software que aplicam operações matemáticas avançadas aos dados. Um espaço vetorial é um conjunto de vetores, por exemplo, uma matriz.

Viés

Bias

É o termo independente na origem. Nos modelos de Machine Learning (aprendizagem automática), é frequentemente referido como b ou w0. Na fórmula seguinte seria o termo b. y′=b+w1x1+w2x2+...wnxn Na Machine Learning, o viés é a tendência do aprendente para repetir o mesmo erro de forma consistente. A Variância é a tendência para aprender factos aleatórios independentemente do sinal. Por vezes, evitar a variação (overfitting) leva ao erro oposto, ao enviesamento (underfitting).

W

Weka

Weka

O Weka é um conjunto de algoritmos de aprendizagem automática para a realização de tarefas de analítica de dados. Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamados a partir do seu próprio código Java. O Weka oferece ferramentas para o pré-processamento, classificação, regressão, clustering, regras de associação e visualização de dados. É também adequado para o desenvolvimento de novos modelos de aprendizagem automática. O Weka é um software de código aberto desenvolvido pela Universidade de Waikato na Nova Zelândia.

X

Y

Z

Os termos mais consultados

Dados não estruturados   

Função de ativação

Inteligência artificial

Inteligência cognitiva

Sobre nós Sustentabilidade Inovação Parceiros
Torre Outlet: o centro comercial inteligente INE: estatísticas mais detalhadas e frequentes graças aos dados da Telco Auth4art: obras de arte digital em forma de NFTs Mifra: vantagens das soluções AgroTech nas fazendas
Se os dados pudessem viajar, que destino escolheria? Podemos fazer mais para cuidar melhor do sistema que cuidar de nós? Ecossistema de relacionamentos com parceiros IoT

Descubra todas as últimas notícias da Telefónica Tech para ficar em dia com a inovação e a tecnologia

Todas as últimas notícias
  • Por que nós?
    Sobre nós Sustentabilidade Inovação Parceiros
  • Casos de êxito
    Torre Outlet: o centro comercial inteligente INE: estatísticas mais detalhadas e frequentes graças aos dados da Telco Auth4art: obras de arte digital em forma de NFTs Mifra: vantagens das soluções AgroTech nas fazendas
  • Recursos
    Se os dados pudessem viajar, que destino escolheria? Podemos fazer mais para cuidar melhor do sistema que cuidar de nós? Ecossistema de relacionamentos com parceiros IoT
  • Notícias

    Descubra todas as últimas notícias da Telefónica Tech para ficar em dia com a inovação e a tecnologia

    Todas as últimas notícias
    Disclaimer Política de Privacidade Cookies Configurações de cookies
    Blog