Búsquedas recomendadas

  • Energy Booster Pack
  • Paneles Energía Solar
  • Energy Surge
Todos los resultados ()
No se han encontrado resultados para la búsqueda ''.



BÚSQUEDAS RECOMENDADAS
  1. Conectividad Gestionada | Telefónica Tech

  2. Optimización de procesos industriales | Industria 5.0 | Telefónica Tech

  3. Monitorización y gestión energética | Telefónica Tech

  4. Casos de éxito | Clientes | Telefónica Tech

  • ES EN PT
  • Contáctanos
Contáctanos
  • Casos de éxito
  • Contáctanos
Quienes somos

Somos AI of Things: Unimos las capacidades de IoT y la Inteligencia Artificial para ofrecer una tecnología que conecta aún más las cosas con las personas.

Sostenibilidad

Devolvemos el valor del dato a la sociedad. Conoce nuestro compromiso de sostenibilidad por la sociedad y medioambiente.

Innovación

Apostamos por la innovación y la hacemos realidad gracias a tecnologías como IoT, Big Data, Blockchain e Inteligencia Artificial.

Partners

Contamos con el ecosistema de Partners que necesitas para completar cualquier solución y necesidad. Y además, puedes formar parte del mismo.

IoT Partners
Por qué nosotros

Líder en el Cuadrante Mágico de Gartner por Servicios de Conectividad Gestionada IoT global por noveno año consecutivo.
Enero 2023
Gartner

Acceder al informe
Multimedia

Te ofrecemos multitud de contenidos sobre el mundo de las tecnologías Big Data, IoT, Inteligencia Artificial y Blockchain.

Datapedia

Te ofrecemos un glosario de términos esencial en el mundo Big Data, IoT, Inteligencia Artificial y Blockchain

Recursos

¿Si los datos pudieran, qué destino elegirían para viajar?

Ver detalles
Gestión de la movilidad

IoT e inteligencia artificial, el tándem perfecto para la gestión de la movilidad

Industria 5.0

Soluciones para acelerar la transformacion digital en su compañia.

Espacios inteligentes

Consigue la máxima eficiencia al mismo tiempo que mejoras la experiencia en los espacios físicos.

Monitorización y gestión energética

Optimiza los consumos y genera un menor impacto en el medio ambiente gracias al IoT

Soluciones publicitarias

Conoce y conecta con tu audiencia logrando impulsar tus ventas y optimizar los resultados de tus campañas publicitarias

Ver todas las soluciones

¿Necesitas ayuda para encontrar el producto que quieres?

Encuentra tu producto

Servicios de conectividad

Conectividad y dispositivos para ir un paso más allá

Dispositivos
Conectividad gestionada

Servicios profesionales

Una pieza clave en tu estrategia corporativa y de negocio.

Consultoría estratégica
Analítica avanzada
Formación

AI & Business Insights

Insights de negocio para marcar la diferencia

Insights de movilidad
Servicios de Identidad
Scoring Solutions
AI Suite

Habilitadores tecnológicos

Elige la mejor tecnología para tu viaje hacia la toma de decisiones inteligentes.

Blockchain
Plataformas Big Data
Seguridad
Ver todas las capacidades

Conoce la solución completa de conectividad IoT gestionada a través de la solución de Kite Platform para tu negocio.

Solo disponible para empresas del mercado español.
Solicita una demo o contrata la solución
Logística
Transporte
Retail
Agricultura y Ganadería
Industria
Turismo y Ocio
Banca
Seguros
Telco
Sanidad
Deportes
Oil&Gas
Energía & Utilities
Ciudades Inteligentes
Ver todos los sectores

¿Necesitas ayuda para encontrar el producto que quieres?

Encuentra tu producto
  • Soluciones
    Gestión de la movilidad

    IoT e inteligencia artificial, el tándem perfecto para la gestión de la movilidad

    Industria 5.0

    Soluciones para acelerar la transformacion digital en su compañia.

    Espacios inteligentes

    Consigue la máxima eficiencia al mismo tiempo que mejoras la experiencia en los espacios físicos.

    Monitorización y gestión energética

    Optimiza los consumos y genera un menor impacto en el medio ambiente gracias al IoT

    Soluciones publicitarias

    Conoce y conecta con tu audiencia logrando impulsar tus ventas y optimizar los resultados de tus campañas publicitarias

    Ver todas las soluciones

    ¿Necesitas ayuda para encontrar el producto que quieres?

    Encuentra tu producto
  • Capacidades

    Servicios de conectividad

    Conectividad y dispositivos para ir un paso más allá

    Dispositivos
    Conectividad gestionada

    Servicios profesionales

    Una pieza clave en tu estrategia corporativa y de negocio.

    Consultoría estratégica
    Analítica avanzada
    Formación

    AI & Business Insights

    Insights de negocio para marcar la diferencia

    Insights de movilidad
    Servicios de Identidad
    Scoring Solutions
    AI Suite

    Habilitadores tecnológicos

    Elige la mejor tecnología para tu viaje hacia la toma de decisiones inteligentes.

    Blockchain
    Plataformas Big Data
    Seguridad
    Ver todas las capacidades

    Conoce la solución completa de conectividad IoT gestionada a través de la solución de Kite Platform para tu negocio.

    Solo disponible para empresas del mercado español.
    Solicita una demo o contrata la solución
  • Sectores
    Logística
    Transporte
    Retail
    Agricultura y Ganadería
    Industria
    Turismo y Ocio
    Banca
    Seguros
    Telco
    Sanidad
    Deportes
    Oil&Gas
    Energía & Utilities
    Ciudades Inteligentes
    Ver todos los sectores
  • Casos de éxito
    • Por qué nosotros
      Quienes somos

      Somos AI of Things: Unimos las capacidades de IoT y la Inteligencia Artificial para ofrecer una tecnología que conecta aún más las cosas con las personas.

      Sostenibilidad

      Devolvemos el valor del dato a la sociedad. Conoce nuestro compromiso de sostenibilidad por la sociedad y medioambiente.

      Innovación

      Apostamos por la innovación y la hacemos realidad gracias a tecnologías como IoT, Big Data, Blockchain e Inteligencia Artificial.

      Partners

      Contamos con el ecosistema de Partners que necesitas para completar cualquier solución y necesidad. Y además, puedes formar parte del mismo.

      IoT Partners
      Por qué nosotros

      Líder en el Cuadrante Mágico de Gartner por Servicios de Conectividad Gestionada IoT global por noveno año consecutivo.
      Enero 2023
      Gartner

      Acceder al informe
    • Recursos
      Multimedia

      Te ofrecemos multitud de contenidos sobre el mundo de las tecnologías Big Data, IoT, Inteligencia Artificial y Blockchain.

      Datapedia

      Te ofrecemos un glosario de términos esencial en el mundo Big Data, IoT, Inteligencia Artificial y Blockchain

      Recursos

      ¿Si los datos pudieran, qué destino elegirían para viajar?

      Ver detalles
  • ES EN PT
Contáctanos
Datapedia
  1. Home >
  2. Recursos >
  3. Datapedia

Datapedia

En nuestro diccionario tecnológico te ofrecemos un glosario de términos esencial en el mundo de IoT, Big Data, Blockchain e Inteligencia Artificial.

Conoce Datapedia: nuestro diccionario tecnológico

Términos más consultados

Datos no-estructurados   

Función de activación

Inteligencia artificial

Inteligencia cognitiva

  • A
  • B
  • C
  • D
  • E
  • F
  • G
  • H
  • I
  • J
  • K
  • L
  • M
  • N
  • Ñ
  • O
  • P
  • Q
  • R
  • S
  • T
  • U
  • V
  • W
  • X
  • Y
  • Z

A

Activo (Gobierno del Dato)

Asset (Data Governance)

Cualquier recurso de la empresa necesario para la correcta provisión de servicios de la información. Es cualquier información o sistema relacionado con el tratamiento de la misma que tenga valor para la organización, pueden ser procesos de negocio, datos, aplicaciones, equipos informáticos, personal, soportes de información, redes, equipamiento auxiliar o instalaciones. Es susceptible de ser atacado deliberada o accidentalmente con consecuencias para la organización.

Administrador de bases de datos

Database Administrator (DBA)

Es el responsable del diseño (físico y lógico), gestión y administración de las bases de datos. Su función es garantizar la Seguridad, optimización, monitorización, resolución de problemas, y análisis/previsión capacidades presentes y futuras. Es un rol muy técnico para el que son necesarios profundos conocimientos de lenguaje SQL y también, cada día más, de bases de datos noSQL. Asimismo, pueden ser necesarias habilidades de gestión dirigidas al diseño de políticas y procedimientos de uso, gestión, mantenimiento y seguridad de las bases de datos.

En definitiva, su función es asegurarse de que “la máquina, funciona”.

Algebra lineal

Linear algebra

Es una rama de las matemáticas que trabaja sobre espacios vectoriales y operaciones sobre ellos, tales como suma y multiplicación, El álgebra lineal está diseñado para representar sistemas de ecuaciones lineales. Las ecuaciones lineales representan relaciones lineales, donde una entidad puede expresarse como suma de múltiplos de otras entidades. En la nomenclatura del álgebra lineal, esta relación lineal se representa como un operado: una matriz.

Algoritmo

Algorithm

Consiste en una serie definida de pasos para realizar determinada tarea con los datos. Al igual que ocurre con las estructuras de datos, las personas que estudian ciencias de la computación, estudian diferentes algoritmos para ver cuáles son más apropiados para realizar determinadas tareas.

Análisis de componentes principales (ACP)

Principal component analysis (PCA)

Es un algoritmo de aprendizaje automático que busca reducir la dimensionalidad de un conjunto de variables observadas a un conjunto de variables sin correlación lineal, llamadas componentes principales. Para ello calcula la dirección con la mayor varianza y la define como componente principal. Se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos.

Leer más

Análisis exploratorio

Exploratory data analysis (EDA)

La fase de análisis exploratorio, dentro del proceso de trabajo en ciencia de datos, tiene como objetivo extraer Insights (resultados) de los datos a través de técnicas de visualización y análisis estadístico.

Analista de datos

Data Analyst

Es el encargado de analizar mediante técnicas estadísticas (entre otras) los datos históricos de la organización para poder tomar decisiones futuras mejor informadas (desde cómo evitar la fuga de clientes, a la definición de estrategias de precios).

Su función es analizar datos históricos para detectar patrones de comportamiento o tendencias. (Análisis descriptivo y/o predictivo).

Para este rol son fundamentales los conocimientos sobre estadística, unidos a habilidades de pensamiento crítico. También son de gran importancia las habilidades de comunicación.

En definitiva, su función es “Comprender lo que ha sucedido en el pasado para tomar mejores decisiones en el futuro”.

Analítica

Analytics

Actualmente vivimos en un mundo hiperconectado. Cada vez más dispositivos de nuestro alrededor están sensorizados y aportan datos de valor para los usuarios o empresas. Estos datos por sí solos no tienen ningún valor añadido. El valor llega cuando los cruzas, analizas y consigues mejorar la producción, ahorrar costes y ser más eficiente mediante pautas de comportamiento. La analítica de los datos es primordial para una transformación digital de una empresa.

Analítica de Negocio

Business Analytics

Consiste en la metodología práctica que usa una organización para extraer conocimiento (Insights) de la exploración de sus datos. Esta metodología se basa en el análisis estadístico de los datos.

Analítica descriptiva

Descriptive Analytics

Es la técnica analítica más básica, y todavía hoy, la usada por el 90% de las empresas. Este tipo de analítica responde a la pregunta ¿Qué ha pasado? - Analiza datos históricos y datos recogidos en tiempo real para generar Insights sobre cómo han funcionado estrategias de negocio en el pasado, por ejemplo, una campaña de marketing.

Leer más

Analítica predictiva

Predictive analytics

Consiste en el análisis de datos históricos del negocio con el objeto de predecir comportamientos futuros que ayuden a una mejor planificación. Para ello se usan técnicas de modelado predictivo, entre otras. Estas técnicas se basan en algoritmos estadísticos y de aprendizaje automático.

Analítica prescriptiva

Prescriptive analytics

Consiste en el análisis de datos históricos del negocio con el objetivo, no sólo de predecir comportamientos futuros, sino de valorar sus causas, permitiendo recomendar o “prescribir” qué acciones de deben llevar a cabo para aprovechar una oportunidad o mitigar un riesgo.

Aprendizaje Auto-supervisado

Self-supervised learning 

Aprendizaje Auto-supervisado ( Self-supervised learning) es un término que se refiere a un tipo de aprendizaje no supervisado enmarcado dentro de un problema de aprendizaje supervisado. Es una técnica de aprendizaje relativamente reciente donde los datos de entrenamiento se etiquetan de forma autónoma.

Lee más

Aprendizaje Automático

Machine learning

Es un conjunto de técnicas que trabajan con grandes cantidades de datos de forma inteligente (desarrollando algoritmos), para obtener valiosos Insights en que basar iniciativas o estrategias de negocio. En estas técnicas, los algoritmos aprenden por sí mismos, sin ser programados de forma explícita.

Leer más

Aprendizaje Profundo

Deep learning

Normalmente, se trata de un algoritmo multicapa que va identificando detalles en sucesivos niveles de abstracción. Por ejemplo, el primer nivel puede identificar algunas líneas, el siguiente nivel identifica formas como combinaciones de líneas, y el siguiente identifica objetos como combinaciones de formas. Como puede imaginarse con este ejemplo, el aprendizaje profundo se usa mucho para clasificación de imágenes.

El Aprendizaje Profundo se asocia con un algoritmo de machine-Learning, las redes neuronales (de ahí la identificación gradual por capas). Este tipo de algoritmos son muy flexibles y permiten modelar muchas respuestas simultaneas, pero también requieren una ingente cantidad de datos.

Leer más

Aprendizaje Supervisado

Supervised learning

En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” (labeled data), intentado encontrar una función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor da salida.

El aprendizaje supervisado se suele usar en problemas de clasificación, como identificación de dígitos, diagnósticos, o detección de fraude de identidad.

Aprendizaje no supervisado

Unsupervised learning

El aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados” para el entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar algún tipo de organización que simplifique el análisis. Por ello, tienen un carácter exploratorio.

Aprendizaje por refuerzo

Reinforcement learning

Se basan en los estudios sobre cómo fomentar el aprendizaje en humanos y ratas basándose en recompensas y castigos. El algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende a base de ensayo-error.

Aprendizaje por transferencia.

Transfer learning

Se trata de un método muy utilizado en visión artificial porque permite construir modelos precisos ahorrando una gran cantidad de tiempo. En lugar de comenzar el proceso de aprendizaje desde cero, se comienza haciendo uso de patrones o modelos pre-entrenados que se han aprendido al resolver un problema diferente.

Árbol de decisión

Decision trees

Un árbol de decisión es un tipo de algoritmo de aprendizaje supervisado (aquellos que tienen una variable objetivo predefinida) que se suele usar en problemas de clasificación. Funciona tanto para variables de entrada/salida continuas y categóricas. En esta técnica, se divide la población (o muestra) en dos conjuntos homogéneos (o subpoblaciones) basados en el criterio diferenciador de las variables de entrada que resulte más significativo.

Área bajo la curva ROC

AUC (Area Under the ROC Curve)

Se trata de una métrica de evaluación que considera todos los umbrales de clasificación posibles. El gráfico ROC también es conocido como la representación de sensibilidad frente a (1-especificidad). La diagonal divide el espacio ROC. Los puntos por encima de la diagonal representan los buenos resultados de clasificación (mejor que el azar), puntos por debajo de la línea de los resultados pobres (peor que al azar).

Arquitecto de datos

Enterprise Data Architect

Es el responsable de crear la infraestructura de captura, y acceso a los datos. Define cómo se mueven los datos.

Su función principal es el diseño del entorno de uso de los datos. Cómo se almacenan, cómo se accede a ellos y cómo son compartidos/utilizados por distintos departamentos, sistemas o aplicaciones, en línea con la estrategia empresarial.

Es un rol estratégico, para el cual se requiere una visión del ciclo de vida completo. Por tanto, debe considerar aspectos de modelado de datos, diseño de bases de datos, desarrollo SQL, y gestión de proyectos de software. También es importante conocer y comprender cómo las tecnologías tradicionales y las emergentes pueden contribuir al logro de los objetivos empresariales.

En definitiva, su función es asegurarse de que “definir la visión global”.

B

Bayes (Clasificador Naive Bayes)

Naive Bayes classifier

Se trata de un grupo de algoritmos de clasificación basados en el Teorema de Bayes. No es un único algoritmo, sino una familia de ellos que comparten el principio común de que cualquier variable que clasifiquemos es independiente del valor de las otras variables. Por ejemplo, podemos considerar que una fruta es una manzana si es roja, redonda y de un tamaño determinado. Un clasificador Naive Bayes considera que cada una de estas características (roja, redonda, diámetro aproximado) contribuye de forma independiente a la probabilidad de que la fruta sea una manzana, independientemente de las correlaciones entre características. Sin embargo, las características no siempre son independientes, y por eso estos métodos se llaman “naive”. Sin embargo, esta simplificación permite desarrollar implementaciones de estos algoritmos fácilmente escalables.

Bayes (Estadística Bayesiana)

Bayesian Statistics

Es un procedimiento matemático que aplica probabilidad a problemas estadísticos. Proporciona herramientas que permiten actualizar las predicciones con la evidencia de datos nuevos. Se diferencia de la aproximación clásica, basada en la frecuencia, y en su lugar usa probabilidad bayesiana para resumir la evidencia.

Bayes (Teorema de Bayes)

Bayes Theorem

También conocido como Regla de Bayes, en honor del matemático y ministro presbiteriano del siglo XVIII Thomas Bayes. El teorema de Bayes se usa para calcular probabilidad condicionada. La probabilidad condicionada consiste en la probabilidad de que ocurra el evento “B” cuando un evento relacionado “A” ha ocurrido (P(B|A)).

Big Data

Big Data

En general, se refiere a la capacidad de trabajar con volúmenes de datos que anteriormente eran inmanejables, tanto por su tamaño, velocidad y variedad (“Las 3 “V”s). Uno de los factores que ha permitido esta evolución ha sido la facilidad de distribución del almacenamiento y procesamiento de los datos a través de redes basadas en hardware básico (“commodity”), usando tecnologías Hadoop, en lugar de necesitar grandes y potentes computadoras dedicadas. Pero no es el volumen de datos lo importante. Es cómo las empresas usan estos datos para generar conocimiento (“insights”). Las empresas usan distintas técnicas, herramientas y recursos para dar sentido a estos datos y basar en ellos estrategias de negocio más eficientes.

Leer más

Blaze

Blaze

Es una librería de Python que extiende las capacidades de Numpy y Pandas a datos distribuidos y en streaming. Se puede usar para acceder a datos de un gran número de fuentes como Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc.

Blockchain

Blockchain

Blockchain es un conjunto de tecnologías que permiten la transferencia de un valor o activo de un lugar a otro, sin intervención de terceros. En este modelo, la autenticidad no la verifica un tercero sino una red de nodos (computadores conectados a la red). Por ello, las transferencias de activos se realizan a través de un consenso y almacenando la información de manera transparente.

Bokeh

Bokeh

Es una librería de Python que permite generar atractivos gráficos interactivos en 3D, y aplicaciones web. Se usa para aplicaciones de rendimiento con datos en streaming.

Bosque aleatorio

Random forest

Se trata de un algoritmo usado para tareas de regresión o clasificación que se basa en una combinación de árboles predictores. “Para clasificar un nuevo objeto a partir de un vector de entrada, se alimenta cada uno de los árboles del bosque con ese vector. Cada árbol ofrece como resultado una clasificación, y decimos que “vota” por ese resultado. El bosque elige la clasificación que tiene más votos entre todos los árboles del bosque. El término “random forest” es una marca registrada por sus autores.

Bot

Bot

Bot, chatbot, talkbot, chatterbot, asistente conversacional, asistente virtual etc no son más que distintas formas de ponerle nombre a programas informáticos que se comunican con nosotros como si fueran humanos. Los bots pueden hacer muchas tareas, algunas buenas, como comprar entradas para un concierto, desbloquear la cuenta de un usuario, u ofrecer opciones para reservar una casa de vacaciones en unas fechas concretas; y otras no tanto, como realizar ciberataques, o provocar una catástrofe financiera realizando operaciones bursátiles a alta velocidad.

Los bots (diminutivo de “robot”) pueden estar diseñados en cualquier lenguaje de programación y funcionar como cliente, como servidor, como agente móvil etc. Cuando se especializan en una función específica se les suele llamar “Sistemas Expertos”.

C

C++

C++

Es un lenguaje enfocado principalmente a software a bajo nivel como el de componentes de un sistema operativo o protocolos de red. Se utiliza con frecuencia en sistemas integrados e infraestructuras que funcionan con sensores. Aunque puede resultar un lenguaje complicado para principiantes, goza de un gran potencial. Tiene librerías muy útiles para machine Learning como LibSVM, Shark y MLPack.

Capa Oculta

Hidden layer

En las redes neuronales, una capa oculta es una capa sintética entre la capa de entrada (la capa de características) y la capa de salida (la capa de predicción). En una red neuronal puede haber una o más capas ocultas.

Característica

Feature

Es el término con el que se denomina en el área del aprendizaje automático, una unidad de información sobre algo. Si almacenas la edad, los ingresos anuales, y el peso de un conjunto de personas, estás guardando tres características sobre ellos. En el mundo IT, en lugar de característica, se suelen llamar propiedad, atributo o campo.

El proceso de selección de características consiste en elegir cuáles de ellas tienen mayor relevancia sobre la capacidad predictiva del modelo estadístico, descartando las que tengan menor influencia. Esto puede hacerse filtrando las características menos útiles, o combinando varias para crear una característica nueva.

Casa de analistas

Analyst firms

Las casas de Analistas son clave en nuestro sector. Son expertos en diferentes materias tecnológicas y son creadores de opinión. Tienen gran influencia en los bancos de inversión, actúan como reguladores y como proveedores Tecnologías de la Información y la Comunicación (TIC). Muchas de estas casas generan sus propios estudios donde posicionan a las Telco en diferentes aspectos y, por ello, llegan a intervenir en las decisiones de compra de los clientes en el segmento empresarial. Son como un medidor de calidad de las empresas.

Chatbot

Chatbot

Un chatbot es un bot (Ver bot) o asistente virtual que usa un chat como interfaz de comunicación con los humanos.

Chi (Test chi-cuadrado)

Chi-square test

Es un método estadístico que se usa para probar si una clasificación de datos puede ser debida al azar o a alguna ley subyacente (Wordpanda). El test chi-cuadrado es una técnica de análisis que se usa para estimar si dos variables están correlacionadas en una tabulación cruzada.

Ciberseguridad

Cibersecurity

El despliegue de millones de dispositivos hiperconectados, heterogéneos y a escala muy diversa se traduce en un claro desafío de seguridad. La ciberseguridad se encarga de defender todas estas interconexiones entre dispositivos para evitar ciberataques maliciosos que puedan recoger información y/o datos personales de forma ilegal.

Ciencia de datos

Data Science

Es una combinación de análisis de datos, desarrollo de algoritmos, estadística e ingeniería de software para resolver problemas analíticos. Su principal objetivo es usar los datos para obtener valor de negocio.

Leer más

Científico de datos

Data Scientist

Es el encargado de realizar un análisis prescriptivo del histórico de datos empresariales, de forma que no sólo puede anticipar qué va a pasar en el futuro y cuándo, sino también dar una razón del porqué. De esta forma podrá sugerir qué decisiones habrá que tomar para sacar partido de una oportunidad de negocio futura o mitigar un posible riesgo, mostrando la implicación de cada opción sobre el resultado.

Su función es construir y aplicar modelos de Machine Learning capaces de seguir aprendiendo y mejorando su capacidad predictiva conforme va aumentando el volumen de datos recolectados.

Para este rol son necesarios conocimientos avanzados de matemáticas en general (y de estadística en particular), conocimientos de Machine Learning, conocimientos de programación en SQL, Phyton, R o Scala. En ocasiones, el Analista de Datos es considerado un Científico de Datos “en formación”. Por ello, la frontera entre las tareas y Funciones de uno y otro rol a veces no son tan claras.

En definitiva, su función es “Modelar el futuro”.

Ciudades Inteligentes

Smart Cities

Una Ciudad Inteligente o Smart City es un escenario en el que se utiliza la tecnología con el fin de mejorar las diferentes infraestructuras para los ciudadanos. Se trata de un espacio con millones de dispositivos y soluciones IoT conectados cuyo principal desafío es cómo gestionar de manera útil y eficiente el enorme volumen de datos en tiempo real y de manera integrada.

Leer más

Clase binaria

Binary Class

Las variables binarias son aquellas que pueden tener únicamente dos valores. Por ejemplo, una variable “¿Fumador?” puede tener el valor “Si” o “No”.

Clasificación

Classification

Es un método de aprendizaje supervisado donde la variable de salida es categórica, como “Masculino”, “Femenino”, o “Si”, “No”. Por ejemplo, decidir si un mensaje de correo es no deseado (spam), o analizar películas para clasificarlas por género, son tareas típicas que resuelve un algoritmo de clasificación. Algunos de estos algoritmos son: regresión logística, árbol de decisión, Support Vector Machine etc.

Cloud

Cloud

Es la prestación de servicios alojados a través de Internet que permite a las empresas o individuos consumir recursos informáticos como una utilidad en cualquier lugar, en vez de tener que construir y mantener infraestructuras de computación en tu casa o tus oficinas. Tener tus documentos en la nube te permite poder acceder a ellos desde cualquier sitio, dispositivo y hora y poder prescindir del dispositivo físico (por ejemplo un ordenador).

Coche conectado

Autonomous vehicle

Un coche conectado es una experiencia de conducción de vehículo inteligente que proporciona información en tiempo real sobre el funcionamiento del vehículo y su uso para que los clientes pueden tomar decisiones más eficientes. Se integra en el día a día del usuario que permanece conectado mientras conduce y le permite acceder a la información a través de una aplicación móvil donde se reciben los datos recogidos por el dispositivo conectado al coche.

Leer más

Coeficiente

Coefficient

Se trata de un número o símbolo algebraico prefijado como multiplicador de una variable o cantidad desconocida. Al representar gráficamente una ecuación como y=3X+4, el coeficiente de “x”, en este caso, “3”, determina la pendiente de la recta. En estadística se suelen mencionar determinados coeficientes como el coeficiente de correlación, el coeficiente de Cramer, o el coeficiente de Gini.

Computación en el borde

Edge Computing

Se trata de un  nuevo paradigma de computación cuyo enfoque acerca el procesamiento y el almacenamiento de datos hasta los dispositivos que los generan, eliminando la dependencia de servidores en el cloud o en data centers ubicados a miles de kilómetros de distancia.

Lee más

Confidencialidad (Gobierno del Dato)

Confidentiality (Data Governance)

Garantizar que la información es accesible sólo para aquellos autorizados a tener acceso. Propiedad que debe cumplir la información contenida en un sistema de información por la cual, dicha información únicamente esta accesible para ser consultada por las personas que así se encuentran autorizadas.

Consola

Shell

Cuando se accede al Sistema operativo desde la línea de comandos estamos usando la consola. Además de los lenguajes de script como Perl y Python, es habitual el uso de herramientas basadas en Linux como grep, diff, splitt, comm, head and tail para realizar tareas de preparación-depuración de datos desde la consola.

Controlador de datos

Data Controller

La Organización que recoge los datos (a efectos RGDP)

Correlación

Correlation

Consiste en la correspondencia relativa entre dos conjuntos de datos. Si las ventas suben al incrementarse el presupuesto de publicidad, significa que ambos hechos están correlacionados. El coeficiente de correlación mide hasta qué punto se correlacionan dos conjuntos de datos. Un coeficiente de valor “1” implica una correlación perfecta, 0,9 es una correlación fuerte y 0,2 una correlación débil. Este valor también puede ser negativo, como por ejemplo cuando se reduce la incidencia de una enfermedad al aumentar el índice de vacunación contra esta. Un coeficiente “-1” es una correlación negativa perfecta. Sin embargo, nunca hay que olvidar que correlación no implica causalidad.

Covarianza

Covariance

Consiste en la relación entre dos variables cuyos valores se observan al mismo tiempo, en particular, el valor medio de las dos variables dividido por el producto de sus valores promedio. Al igual que la varianza mide la desviación de una variable respecto a su media, la covarianza mide la desviación conjunta de dos variables respecto a sus medias.

Curtosis o apuntalamiento

Kurtosis

La curtosis es una medida que sirve para analizar el grado de concentración que presentan los valores de una variable analizada alrededor de la zona central de la distribución de frecuencias.

Una mayor curtosis implica una mayor concentración de datos muy cerca de la media de la distribución (pico) coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos muy alejados de la misma.

D

Datos de prueba

Holdout data

Se trata de ejemplos que, de forma intencionada, (son “retenidos”) no se usan durante el entrenamiento. Los conjuntos de datos de validación y datos de test, son ejemplos de datos de prueba. Estos datos ayudan a evaluar la bondad de un modelo para generalizar sobre datos distintos de los usados para entrenarlo. La función de pérdida en los datos de prueba da una mejor estimación del valor sobre datos nuevos que la que da esta función sobre los datos de entrenamiento.

Datos estructurados   

Structured data  

Los datos estructurados son los datos típicos de la mayoría de bases de datos relacionales (RDBMS). Estas bases de datos se caracterizan por tener un esquema determinado que define cómo son las tablas en las que se almacenan los datos, qué tipo de campos tienen y cómo se relacionan entre ellas.

Lee más

Datos no-estructurados   

Unstructured data  

Los datos no estructurados suponen un 80% del volumen de todos los datos generados, porcentaje que no deja de crecer. Estos datos pueden tener una estructura interna, pero no siguen ningún esquema o modelo de datos predefinido. Pueden ser datos de texto, o no textuales; haber sido generados por una máquina o por una persona; y almacenarse en una base de datos NoSQL, o directamente en un Datalake.

Lee más

Datos semi-estructurados   

Semi-structured data

Datos semi-estructurados no tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o “tags” que permiten agruparlos y crear jerarquías. También se les conoce como no relacionales o NoSQL.

Lee más

Deeplearning4j

Deeplearning4j

Es una librería dedicada al Deep learning, escrita para Java y Scala. Ofrece un entorno para que los desarrolladores entrenen y elaboren modelos de IA.

Desviación estándar

Standard Deviation

Es la raíz cuadrada de la varianza y se usa habitualmente para indicar cuánto se aleja de la media una medida determinada. Por ejemplo, si una observación se aleja de la media más de tres veces la desviación estándar, podemos decir en la mayoría de las aplicaciones que nos encontramos ante un caso anómalo. Los paquetes de software estadístico calculan de forma automática la desviación estándar.

Director Digital

Digital Director ("Chief Data Officer" CDO)

Es el responsable de dirigir, planificar y controlar la transformación digital de cualquier marca. Por ello, es el máximo responsable en las áreas de Gobernanza de Datos, Gestión de la Información y Seguridad.

Su función es establecer la estrategia que garantice el crecimiento digital de la empresa de forma sostenible en el tiempo, capaz de adaptarse con fluidez a los continuos cambios del panorama digital. También deberá fomentar las relaciones internas y externas de la organización, captar el mejor talento, dirigir equipos y resolver con diplomacia las tensiones potenciales que puedan surgir entre los distintos departamentos de la empresa.

Para este rol es muy importante tener una gran experiencia en el mundo digital, visión estratégica, dotes de comunicación para el trabajo en equipo y creatividad. El CDO debe ser innovador, en ocasiones incluso disruptor, y tener poder de decisión y recursos. Por eso, normalmente está a las órdenes del CEO (Director General).

El CDO puede tener algunos “solapamientos” con la figura del CIO (“Chief Information Officer”), pero es un rol que, a los aspectos de innovación tecnológica, le suma un claro componente de marketing muy orientado a explotar los “Activos Digitales”.

Disponibilidad (Gobierno del Dato)

Availability (Data Governance)

Propiedad que debe cumplir la información contenida en un sistema de información por la cual, dicha información se encuentre disponible para ser consultada o modificada cuando un usuario con los permisos adecuados así lo requiera.

Distribución de probabilidad

Probability distribution

La distribución de probabilidad de una variable aleatoria discreta es el conjunto de todos los posibles valores que puede tener esa variable, junto con sus probabilidades de ocurrencia.

Para variables discretas, las principales distribuciones de probabilidad son la binonial, la de Poisson y la hipergeométrica (esta última para eventos dependientes). Para variable continua, la distribución que se genera es la normal o gaussiana.

Distribución normal

Normal distribution

También se conoce como distribucion gaussiana. Es una distribución de probabilidad cuya representación gráfica es una curva simétrica en forma de campana con el valor medio en el centro. La altura y anchura de la curva vienen dadas por la desviación estándar.Una característica importante de esta curva con forma de campana es que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Aunque estos fenómenos están influidos por muchas variables aleatorias, el comportamiento de la suma de estos fenómenos individuales, sí que sigue el patrón de una distribución normal. Esto se debe al teorema del límite central. Por ejemplo, cuando hablamos de variables aleatorias, como pueden ser la altura, el peso o los ingresos de una persona, la distribución de probabilidad de esas variables seguirá una distribución normal y, por tanto, los valores más frecuentes estarán en el centro, mientras que los menos habituales se situarán en los extremos.

Distribución t de Student

T-distribution

Son una variación de las distribuciones normales. Fueron descubiertas por William Gosset en 1908 y publicadas con el pseudónimo “Student”. Necesitaba una distribución que pudiera usar cuando el tamaño de la muestra fuera pequeño y la varianza desconocida y tenía que ser estimada a partir de los datos. Las distribuciones t se usan para tener en cuenta la incertidumbre añadida que resulta por esta estimación.

Drones

Drones

Un Drone es un vehículo aéreo no tripulado (VANT) y que vuela por control remoto. En la actualidad tiene diferentes funciones que aportan gran valor a la sociedad, por ejemplo: ayuda a la disminución de accidentes en carreteras, la detección de un fuego en campo abierto, ayuda al riego más eficaz en campos de cultivo…

E

Escalar

Scalar

Una variable es de tipo escalar (por oposición a vectorial), cuando tiene un valor de magnitud pero no dirección en el espacio, como por ejemplo, el volumen o la temperatura.

Estrato, muestreo estratificado

Strata, stratified sampling

Consiste en dividir las muestras de población en grupos homegéneos o estratos y tomar una muestra aleatoria de cada uno de ellos. Strata es también una conferencia de O´Reilly sobre Big Data, Data Science y tecnologías relacionadas.

Exactitud y Sensibilidad

Precision and Recall

La exactitud (en inglés “Precision”) es una métrica para modelos de clasificación que responde a la siguiente pregunta: ¿De todos los resultados que el modelo da como positivos, cuántos son positivos de verdad?

Representa lo cerca que está del valor verdadero el resultado del modelo o medición. También se conoce como Verdadero Positivo (o “True positive rate”).

La Sensibilidad indica cuántas de las predicciones positivas son correctas.

La exactitud y la sensibilidad nos están indicando la relevancia de los resultados. Por ejemplo, un algoritmo muy exacto, (P alto) nos dará muchos más resultados relevantes que irrelevantes, mientras que un algoritmo muy específico, (TP alto), será el que detecte la mayoría de resultados de interés (los primeros).

Experiencia de Clientes

Customer Experience

La experiencia de usuario es el conjunto de factores y acciones que se llevan a cabo cuando el usuario interactúa con un producto o entorno. La percepción que la persona tenga en cada caso puede ser tanto positiva como negativa e influirá en el proceso de compra que pueda darse, o no. Esta percepción puede venir dada de muchos factores diferentes como el diseño, emociones, sentimientos, experiencia de marca, confiabilidad del producto, etc.

F

Función de activación

Activation function

Una función de activación es una función que transmite la información generada por la combinación lineal de los pesos y las entradas, es decir son la manera de transmitir la información por las conexiones de salida. Como lo que queremos es que la red sea capaz de resolver problemas cada vez más complejos, las funciones de activación generalmente harán que los modelos sean no lineales. Las más conocidas son la función escalón, la sigmoidal, las funciones ReLu, de tangente hiperbólica o de base radial (Gausianas, multicuadráticas, multicuadráticas inversas)

Lee más

G

GATE

GATE

“General Architecture for Text Engineering”, es un entorno de arquitectura general para ingeniería de texto. Este entorno es de código abierto, basado en Java y está pensado para el procesamiento de tareas de lenguaje natural. Permite la integración con otras herramientas diseñadas para interactuar con él, Es un proyecto de la universidad de Sheffield, en Reino Unido.

Github

Github

GitHub es una compañía no lucrativa que ofrece un servicio de hosting de repositorios almacenados en la nube. Fue comprada por Microsoft en 2018. GitHub se basa en la colaboración entre usuarios favoreciendo que varios desarrolladores experimenten con código abierto y compartan sus distintos proyectos e ideas.

Lee más

Gobierno del Dato

Data Governance

Conjunto de políticas y buenas prácticas que habilitan procesos que tienen como objetivo promocionar los datos como activo dentro de una organización para mejorar la toma de decisiones.

H

Hadoop

Hadoop

Hadoop es un proyecto opensource de la Apache Foundation, introducido en 2006, y desarrollado en Java cuyo objetivo es ofrecer un entorno de trabajo acorde con las necesidades del Big Data. Hadoop, por tanto, está diseñado para trabajar con volúmenes de datos masivos (Volumen), estructurados o no (Variedad), y procesarlos de forma segura y eficiente (Veracidad/Velocidad) , tanto en costes como en tiempo.

Para ello, distribuye, tanto el almacenamiento de la información, como su procesamiento, entre muchos equipos trabajando de forma coordinada en “ clusters”, con uno o varios nodos maestros encargados de gestionar, por una parte, el sistema de ficheros distribuido donde los datos se almacenan en diferentes bloques redundados; y por otra, la coordinación y ejecución de los distintos jobs o tareas entre los miembros del cluster. Por ello es un sistema altamente escalable que además ofrece redundancia por software.

Leer más

Heurístico

Heuristic

Un método heurístico consiste en buscar una solución práctica a un problema, aunque no sea óptima, pero suficiente para seguir avanzando o aprender de ello.

“En algunas ciencias, manera de buscar la solución de un problema mediante métodos no rigurosos, como por tanteo, reglas empíricas, etc”. (RAE)

Hiperplano

Hyperplane

Es un límite que separa el espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos dimensiones, y un plano es un hiperplano en tres. En aprendizaje automático, un hiperplano es el límite que separa un espacio de muchas dimensiones. Los algoritmos Kernel Support Vector Machine usan hiperplanos para separar las clases positivas de las negativas en espacios multidimensionales.

Histograma

Histogram

Es una representación gráfica de un conjunto de datos numéricos, normalmente, en forma de gráfico de barras verticales.

I

Imputación

Imputation

Imputación es una técnica que se usa cuando hay valores que faltan en el conjunto de datos. Se realiza por medio de técnicas estadísticas, como sustituir por la mediana o la moda, o por técnicas de aprendizaje automático, como la imputación kNN.

Indicador de confianza

Lift

En minería de datos , el indicador de confianza (“lift”) compara la frecuencia de un patrón observado con la frecuencia en que podríamos ver ese mismo patrón por casualidad. Si el valor de “Lift” es próximo a 1, es muy posible que el patrón que hemos observado sea mera casualidad. Cuanto mayor sea este valor, más posibilidades hay de que el patrón sea real.

Industria 4.0

Industry 4.0

También conocida como 4º Revolución Industrial busca la transformación de una empresa hacia una organización inteligente para conseguir la optimización de sus recursos y el ahorro de costes. Como resultado de esta transformación digital, el negocio se vuelve más eficiente y consigue ser más competente.

Inferencia estadística

Inferential Statistics

Una inferencia estadística (estadística deductiva) es cuando tratamos de sacar hipótesis sobre una población completa, analizando únicamente una muestra de ella. Por ejemplo, antes de sacar un medicamento al mercado, se hacen pruebas para ver su viabilidad. Pero es imposible hacer las pruebas sobre el conjunto de la población, así que se hacen sobre la muestra que la represente mejor.

Ingeniero de datos

Data Engineer

Son especialistas en tratamiento de datos. Los ingenieros de datos son aquellos que, a partir de un conjunto de datos confusos, crean la infraestructura que permite analizarlos de forma real y tangible. Para ello, utilizan programas ETL (Extract, Transform and Load—Extracción, Transformación y Carga de datos), combina conjuntos de datos y depura y enriquece los datos que algunas empresas llevan años almacenando.

Innovación

Innovation

La innovación, en la mayoría de los casos, es una transformación mediante la cual se producen cambios para introducir mejoras o nuevas funcionalidades a soluciones existentes. En otras ocasiones se trata de procesos para crear nuevas soluciones desde cero. En cualquier caso, estos desarrollos se crean gracias al ingenio humano para mejorar nuestra calidad de vida como especie y está estrechamente conectada a la ciencia y a la tecnología.

Insights de datos, Descubrimientos, Hallazgos, Claves

Data Insight

No es difícil explicar el concepto, lo complicado es dar con un término en español que lo resuma. El concepto “data insight” significa el conocimiento o comprensión profunda de los datos de forma que pueda orientar acciones de negocio correctas y productivas. Las empresas “Data – driven” son aquellas que toman decisiones basadas en datos, en particular, en los Insights de datos (decisiones basadas en datos). Las soluciones de LUCA ayudan a las empresas a convertirse en empresas Data Driven.

Integridad (Gobierno del Dato)

Integrity (Data Governance)

Propiedad que debe cumplir la información contenida en un sistema de información por la cual, dicha información no puede ser modificada sin dejar traza de que se ha producido dicha modificación, ya sea en los soportes físicos en los que se almacena o en el transporte de la misma a través de redes de comunicación.

Inteligencia Artificial de las Cosas (AI of Things)

Artificial Intelligence of Things (AI of Things)

Cuando la inteligencia artificial y las tecnologías IoT, Big Data suman sus fuerzas, para que “las cosas sean capaces de aprender, compartir información entre ellas y tomar decisiones de manera casi desatendida” con el fin de ayudar a las organizaciones a tomar decisiones que mejoren la vida de las personas.

Leer más

Inteligencia artificial

Artificial intelligence

También IA. En los orígenes de las IA, en los años 60, los investigadores implementaban principios generales de “inteligencia”, normalmente automatizando razonamientos basados en lógica simbólica. Según se fueron reduciendo los costes en recursos hardware y software, cambió el enfoque desde los razonamientos basados en reglas, a la toma de decisiones “inteligentes” basadas en el análisis estadístico de grandes cantidades de datos.

Leer más

Inteligencia cognitiva

Cognitive intelligence

La Inteligencia Cognitiva es una parte, si bien una parte importante de la Inteligencia Artificial, que abarca principalmente las tecnologías y herramientas que permiten a nuestras apps, websites y bots ver, oir, hablar, comprender e interpretar las necesidades del usuario por medio del lenguaje natural. Es decir, son las aplicaciones de la IA que permiten a las máquinas aprender el lenguaje de los usuarios para que éstos no tengan que aprender el lenguaje de las máquinas.

Leer más

Inteligencia de negocio

Business Intelligence

Es el conjunto de estrategias, aplicaciones, datos y tecnologías usados por una organización para almacenar datos, analizarlos y extraer conclusiones (Insights) de las que derivar oportunidades de negocio estratégicas.

Internet de las cosas (IoT)

Internet of Things (IoT)

Internet of Things o Internet de las Cosas se basa en la conectividad de millones de objetos entre sí que nos permiten aprovechar al máximo todos los aspectos de nuestra vida. Se trata de objetos físicos con sensores integrados con el fin de conectar e intercambiar datos con otros dispositivos y automatizar tareas para que puedas dedicar tu tiempo a lo que realmente te gusta.

Leer más

Interpretabilidad

Interpretability

Indica el grado en el que las predicciones de un modelo pueden ser interpretables. Los modelos basados en Aprendizaje Profundo (Deep Learning) muchas veces no lo son, esto es, puede ser muy difícil descifrar lo que hace un modelo con distintas capas. Por el contrario, los modelos de regresión lineal sí resultan fácilmente interpretables.

Intervalo de confianza

Confidence interval

Rango definido en torno a un valor estimado para indicar el margen de error, combinado con la probabilidad de que un valor caiga en ese rango. La Estadística ofrece fórmulas matemáticas específicas para calcular los intervalos de confianza.

IoMT

IoMT

Se llama IoMT o Internet de las Cosas Médicas a la sensorización de dispositivos médicos para poder recopilar los datos extraídos de dichos dispositivos y analizarlos para poder ofrecer un mejor servicio a los pacientes y profesionales de la salud.

Esto se traduce en grandes ventajas para trabajadores y pacientes como:

- El ahorro de recursos económicos digitalizando revisiones médicas a través de gadgets para poder reducir el coste de las facturas en hospitales
- Mejora de la calidad de vida de los pacientes al gestionar y recopilar datos para poder detectar y prevenir enfermedades de una manera más personalizada
- Automatización de procesos para poder optimizar los recursos y personal sanitario de la mejor manera posible
- Mejora de la experiencia de usuario en el centro sanitario mediante la optimización del espacio mediante cuenta personas para reducir los tiempos de espera

J

Java

Java

Es uno lenguajes de programación más usados en Machine Learning por su gran consistencia, claridad y fiabilidad. Es un lenguaje open-source, compatible con cualquier plataforma, con el que se puede prácticamente cualquier aplicación. s Cuenta con una gran cantidad de librerías, algunas enfocadas al mundo del Machine Learning como Spark+MLlib, Mahout y Deeplearning4j.

K

Keras

Keras

Es una API de aprendizaje automático (machine Learning) basada en Python muy popular. Keras corre sobre diversos entornos de aprendizaje profundo (deep learning) incluido TensorFlow, donde se encuentra como tf.keras.

k-means clustering

k-means clustering

Es un tipo de Algoritmo supervisado que se usa para tareas de clustering. Es un proceso que de forma sencilla clasifica un conjunto de datos en cierto número de clusters o agrupaciones (digamos “k” clusters). Los datos son homogéneos dentro de cada cluster y heterogéneos respecto a los datos de clusters vecinos.

k-vecino más próximo

k-nearest neighbors

El Algoritmo K nearest neighbors es un sencillo algoritmo de clasificación que clasifica la probabilidad de que un elemento x pertenezca a una determinada clase, basándose en información sobre sus “k” vecinos. Al nuevo elemento se le asigna la clase más común entre sus vecinos más próximos, según una función distancia. Estas funciones distancia pueden ser de varios tipos: Euclídea, Manhattan, Minkowski o Hamming. Las tres primeras se usan para funciones continuas, y la cuarta, para variables categóricas.

L

LISP

LISP

Acrónimo de List Procesor, es un lenguaje creado por John McCarthy, hoy considerado por muchos como el padre de la Inteligencia Artificial. Su idea era optimizar el funcionamiento y el uso de recursos en los ordenadores de la época. Este nuevo lenguaje, basado en parte en el ya existente Fortran, utilizaba algunas técnicas innovadoras como las estructuras de datos de árbol o el uso de la computación simbólica de la cual nacería posteriormente la programación simbólica. Lisp no tardó en convertirse en el lenguaje favorito en el mundo de la Inteligencia Artificial.

Leer más

Lenguajes de programación de script

Scripting languages

Los lenguajes de programación de script pueden ejecutarse directamente sin necesidad de compilarlos antes en código binario, como ocurre con lenguajes como Java y C. La sintaxis de los lenguajes de script es mucho más sencilla que la de los lenguajes compilados, lo facilita en gran medida las tareas de programación y ejecución. Algunos ejemplos de este tipo de lenguajes son Python, Perl, Rubi etc.

LibSVM

LibSVM

Es una librería de C++ que resulta muy útil para trabajar con máquinas de vectores de soporte (SVM). Sirve para resolver problemas de clasificación y regresión.

Librería estándar (Python)

Python Standard Library

Una librería no es más que un conjunto de módulos (ver módulos). La librería estándar de Python es muy amplia y ofrece una gran variedad de módulos que realizan funciones de todo tipo, desde módulos escritos en C que ofrecen acceso a funcionalidades del sistema como el acceso a ficheros (file I/O). En la web de Python se puede encontrar una referencia a todos los módulos en “ The Python Standard Library”. Los instaladores de Python para plataformas Windows, normalmente incluyen la librería estándar completa, incluso algunos componentes adicionales. Sin embargo, en las instalaciones Python mediante paquetes harán falta instaladores específicos.

Leer más

Lingüística computacional

Computational linguistics

Conocido también como procesamiento de lenguaje natural PLN. Es una rama de las ciencias de la computación que analiza el lenguaje hablado (por ejemplo, en chino o inglés) y lo convierte en datos estructurados que se pueden usar como comandos lógicos en un programa. En un principio, el foco estaba en traducir de un lenguaje a otro, o aceptar frases completas como consultas a bases de datos. En la actualidad, los esfuerzos se centran en analizar documentos y otros datos (por ejemplo tweets), para extraer información potencialmente valiosa.

Logaritmo

Logarithm

En análisis matemático, usualmente, el logaritmo de un número real positivo —en una base de logaritmo determinada— es el exponente al cual hay que elevar la base para obtener dicho número.. Los logaritmos permiten transformar las multiplicaciones en sumas y las divisiones en restas. Por tanto, simplifican mucho los cálculos numéricos. Trabajar con el logaritmo de una o más variables de un modelo resulta más sencillo que hacerlo con los valores originales, ya que permite construir modelos basados en funciones lineales en lugar de no lineales.

M

M2M

M2M

Machine to Machine (M2M) es la conexión o intercambio de información, en formato de datos, que se crea entre dos máquinas conectadas. Es, en cierto modo, la conectividad en la que se basa Internet of Things (IoT). Actualmente el término M2M ha quedado obsoleto, ya que, se ha evolucionado hasta lo que denominamos IoT que, además de máquinas, también conecta a las personas.

MATLAB

MATLAB

Se trata de un lenguaje y entorno de visualización y desarrollo de algoritmos comercial muy popular.

Mahout

Mahout

Es una librería de Java muy similar a NumPy en Python. Está enfocada a las expresiones matemáticas, algebraicas y estadísticas.

Manager de Gobernanza de datos

Data Gobernance Manager

Es el encargado de definir y organizar el proceso de recogida, almacenamiento, y acceso a los datos, garantizando en todo momento su seguridad y confidencialidad.

Su función es definir y verificar el cumplimiento políticas y conformidad con estándares. Gestionar el ciclo de vida de los datos y cerciorarse de que éstos estén custodiados de forma segura y organizada, y de que sólo pueden acceder a ellos las personas autorizadas.

Para este rol es necesario combinar un conocimiento funcional de cómo funcionan las bases de datos y otras tecnologías asociadas, con uno conocimiento profundo de las regulaciones de cada industria en particular (financiera, farmacéutica, telecomunicación etc.)

En definitiva, su función es “Definir y asegurar el cumplimiento de las reglas que definen el flujo de los datos”.

Una vez tenemos un sistema en el que los datos están bien organizados, accesibles y custodiados de forma segura, lo que nos interesa es sacarles partido, extraer de ellos esos valiosos “Insights” o claves sobre patrones de comportamiento que, aplicados a nuestros procesos del día a día los hagan más eficientes e innovadores. Este es el momento en que entran en juego dos nuevos roles.

Máquina de vectores de soporte

Support vector machine

Una máquina de vectores de soporte es un algoritmo de aprendizaje automático supervisado que se emplea tanto para tareas de clasificación como de regresión. Se basan en la idea de encontrar el hiperplano que mejor divida el conjunto de datos en dos clases diferenciadas. De forma intuitiva, cuando más lejos del hiperplano estén nuestros valores, más seguros estamos de que estén correctamente clasificados. Sin embargo, en ocasiones no es fácil entontrar el hiperplano que mejor clasifica los datos y es necesario saltar a una dimensión mayor (del plano a 3 dimensiones o incluso n dimensiones).

Las SVM se usan para tareas de clasificación de textos, detección de spam, análisis de sentimientos etc. También se usan para reconocimiento de imágenes.

Matplotlib

Matplotlib

Es una librería de Python que permite realizar todo tipo de gráficos: desde histogramas, hasta gráficos de líneas o mapas de calor. También permite el uso de comandos de Latex para agregar expresiones matemáticas a una gráfica.

Matriz de confusión

Confusion matrix

Es una tabla que se suele usar para describir el rendimiento de un modelo de clasificación. Consiste en una matriz N*N, donde N es el número de clases. La matriz se completa con los valores predichos por el modelo, versus los valores reales. El segundo cuadrante se llama error Tipo II o “falsos negativos”, mientras que el tercer cuadrante es error Tipo I o “falsos positivos”.

Matriz de correlación

Correlation matrix

La matriz de correlación muestra los valores de correlación de Pearson, que miden el grado de relación lineal entre dos variables. Los valores de correlación suelen estar entre -1 y +1. Sin embargo, en la práctica, los elementos por lo general tienen correlaciones positivas. Si los dos elementos tienden a aumentar o disminuir al mismo tiempo, el valor de correlación es positivo.

En general, las variables con valores de correlación mayores que 0,7 se considera que están altamente correlacionadas, aunque el valor puede depender de cada caso en particular.

Mesa de datos

Data Governance table

Las mesas de datos es un canal de responsabilidad social corporativo, solidario y ético donde de manera multidisciplinar se trabaja sobre los datos y las diferentes diciplinas de gobierno del dato. Pueden ser virtuales con workflows y automatismos o presenciales. Participación multidisciplinar donde se trabaja sobre los datos con los medios técnicos disponibles bajo cualquier situación.

Metadato

Metadata

Datos sobre datos, permiten contextualizar la información. Describen características de los datos para ayudar a identificarlos, descubrirlos, valorarlos y administrarlos. Existen tres tipos de metadatos, técnicos, organizativos y de negocio (TON).

Métricas de evaluación

Evaluation metrics

El objetivo de las métricas de evaluación es medir la calidad del modelo estadístico/de machine Learning.

Minería de datos

Data mining

Consiste en el uso de ordenadores para analizar grandes conjuntos de datos (estructurados o no estructurados), de diversas fuentes en búsqueda de patrones que permitan tomar decisiones de negocio. Es un término que data de los años 90. La minería de datos se usa para análisis de mercados, definir patrones de compra, planificación financiera, detección de fraude etc.

Mlpack

Mlpack

Esta librería de C++ tiene la finalidad de ofrecer una rápida puesta en marcha de los algoritmos de machine Learning. Facilita la integración de los algoritmos en soluciones de mayor escala mediante línea de código.

Modelado Predictivo

Predictive Modeling

Consiste en el desarrollo de modelos estadísticos y de aprendizaje automático que permitan predecir comportamientos futuros, basándose en datos históricos.

Módulo (Python)

Python Module

Los módulos son la forma que tiene Python de almacenar definiciones (instrucciones o variables) en un archivo, de forma que se puedan usar después en un script o en una instancia interactiva del intérprete. Así no es necesario volver a definirlas cada vez. La ventaja principal de que Python permita separar un programa en módulos es, evidentemente, que podremos reutilizarlos en otros programas o módulos. Para ello, como será necesario importar los módulos que se quieran utilizar en cada situación. Python viene con una colección de módulos estándar que se puede usar como base para un nuevo programa o como ejemplos para empezar a aprender.

N

NB-IoT

NB-IoT

NB-IoT son las primeras tecnologías estándar 3GPP diseñadas ad hoc para IoT en las bandas con licencia. Ambas tecnologías forman parte de las redes LPWA (low power wide area) y se han diseñado para optimizar el consumo masivo de Low Data y usos de IoT de bajo coste. Gracias a esta tecnología podemos reducir el coste de los dispositivos y extender la vida útil de las baterías durante años. Además, aporta una mejor cobertura tanto en interiores (sitios de cobertura complicados: por ejemplo, sótanos) como en exteriores (largo alcance).

NoSQL

NoSQL

Los sistemas de bases de datos tradicionales, conocidos como sistemas relacionales (RDBMS) depende en gran medida de filas, columnas, esquemas y tablas, para recuperar y organizar los datos almacenados en las bases de datos. Para ello, utilizan un lenguaje de consulta estructurado SQL. Estos sistemas presentan ciertos problemas para trabajar con Big Data como son: la no escalabilidad, la falta de flexibilidad y los problemas de rendimiento.

Las bases de datos no relacionales NoSQL son mucho más flexibles. Permiten trabajar con datos no estructurados como, por ejemplo, datos de chat, mensajería, datos de registro, datos de usuario y sesión, datos de gran tamaño como videos e imágenes, así como también Internet de cosas y datos de dispositivos. También, están concebidas para obtener una altísima capacidad de volumen de almacenamiento, gracias al almacenamiento distribuido de los datos, y velocidad de proceso de la información. Por ello, son muy escalables. También son independientes del lenguaje de programación.

Las bases NoSQL son de código abierto, gracias a lo cual su coste es asequible, pero como contrapartida, genera problemas de falta de estandarización e interoperabilidad. Algunas bases datos NoSQL disponibles en el mercado son Couchbase, Dynamo Db de Amazon, MongoDB y MarkLogic etc.

Nuevas tecnologías

New technologies

Las nuevas tecnologías son técnicas no usadas con anterioridad, si no que han surgido en los últimos años dentro de los campos de la informática y la comunicación. Son pequeños avances de la humanidad que ayudan a evolucionar a las personas y les hacen la vida más fácil. Es su día herramientas como Intenet, el DVD, los ordenadores de mesa, los ordenadores portátiles fueron ejemplos de este concepto. Hoy día compendemos como nuevas tecnologías conceptos como IoT, Big Data, Inteligencia Artificial, Realidad Virtual…

NumPy

NumPy

Acrónimo de Numerical Python, es la principal librería de Python para computación científica. Una de sus características más potentes es que puede trabajar con matrices (array) de n dimensiones. También ofrece funciones básicas de algebra lineal, transformada de Fourier, capacidades avanzadas con números aleatorios, y herramientas de integración con otros lenguajes de bajo nivel como Fortran, C y C++.

Ñ

O

P

Pandas

Pandas

Es una de las librerías de tratamiento de datos de Python más populares entre los científicos de datos. Consiste en una API de análisis de datos orientada a columnas. Muchos entornos de Aprendizaje Automático, incluido TensorFlow, trabajan con estructuras de datos pandas. Consulta la documentación de pandas para mayor información (en inglés).

Paradoja de Moravec

Moravec´s Paradox

En los años 80, Hans Moravec, Rodney Brooks y Marvin Minsky. investigadores en el campo de la inteligencia artificial y la robótica plantearon lo que se conoce como paradoja de Moravec. Esta paradoja plasma el contrasentido inherente al hecho de que actividades que implican un alto nivel de razonamiento, como jugar al ajedrez, o hacer un test de inteligencia, requieran muy poca carga computacional, mientras que otras actividades de bajo nivel cognitivo, como identificar un rostro conocido, requieran una enorme cantidad de estos recursos. En palabras del propio Moravec:

“ Es relativamente fácil conseguir que una máquina muestre el rendimiento de un adulto en un test de inteligencia. o jugando a las damas; sin embargo, es mucho más difícil o incluso imposible que alcance el nivel de habilidad de un niño de un año, cuando se trata de percepción y movilidad.”

Claro está que el abaratamiento y crecimiento exponencial de los recursos de computación disponibles puede hacer que hasta esas habilidades sensomotoras lleguen ser realizadas por una IA en un futuro. Sin embargo, aquí entra en juego otra paradoja, anterior a la de Moravec, pero muy estrechamente relacionada con ella: ver la paradoja de Polanyi.

Paradoja de Polanyi

Polanyi Paradox

Michael Polanyi fue un erudito y filósofo anglo-húngaro que ya en 1966 planteó en su libro "The Tacit Dimension", que el conocimiento humano se basa, en gran parte, en reglas y habilidades que nos han sido transmitidas por la cultura, tradición, evolución etc, y que, por tanto, no somos siempre del todo conscientes de éste. Definió lo que se llama el "conocimiento tácito", y lo resumió en esta frase:

We can know more than we can tell = Sabemos más de lo que podemos contar


Lo que quería decir con esto Polanyi, es que muchas de las tareas que realizamos se basan en un conocimiento tácito, intuitivo, y que, por tanto, son muy difíciles de codificar o automatizar. ¿Por qué? Porque nosotros mismos no sabemos explicar cómo lo hacemos. Por ejemplo, ¿has intentado alguna vez explicar a un niño cómo saltar a la comba? ¿En qué momento tiene que entrar para no pisar la cuerda ni enredarse con ella? Parece sencillo, ¿verdad? Pues no lo es. Imagina ahora cómo se lo tendrías que explicar a un robot.

Leer más

Perceptrón

Perceptron

El algoritmo perceptrón fue creado a finales de los años 50. Su primera implementación fue como hardware, de hecho, fue la primera red neuronal que se creó. El perceptrón es un algoritmo de aprendizaje supervisado para clasificadores binarios. Es un clasificador lineal, es decir, un algoritmo de clasificación basado en una función linear que aplica una serie de funciones peso a los valores de entrada, y pasa los valores de esta suma ponderada a una función cuyo resultado de salida es “o”. El perceptron es la red neuronal más sencilla, ya que simula el funcionamiento de una única neurona con n valores de entrada binarios. Calcula una suma ponderada de los valores de entrada y se dispara si esa suma es cero o mayor.

Perfilado

Profiling

El perfilado es el proceso de usar datos personales para evaluar ciertos aspectos personales para analizar y predecir el comportamiento / rendimiento / fiabilidad, etc.

Perl

Perl

Es un antiguo lenguaje de scripting enraizado en sistemas anteriores a UNIX. Perl se ha usado mucho para tareas de procesamiento de texto y de limpieza y depuración de datos.

Potenciación del gradiente

Gradient Boosting

Gradient boosting o Potenciación del gradiente, es una técnica de aprendizaje automático utilizado para el análisis de la regresión y para problemas de clasificación estadística, el cual produce un modelo predictivo en forma de un conjunto de modelos de predicción débil, normalmente, árboles de decisión. Construye el modelo de forma iterativa y lo generaliza permitiendo la optimización de una función pérdida diferenciable arbitraria. (Wikipedia)

Precisión

Accuracy

La fracción de predicciones correctas hechas por un modelo de clasificación. En un modelo multiclase, la precisión se define de la siguiente forma:

Precisión=Predicciones correctas/Número total de ejemplos

En el caso de clasificación binaria, la definición es:

Precisión= (Verdaderos Positivos + Verdaderos Negativos) /Número total de ejemplos

Procesado de lenguaje natural (PLN)

Natural language processing (NLP)

El Procesado de Lenguaje Natural es la rama dentro del ámbito de las Ciencias de la Computación, la Lingüística y la Inteligencia Artificial que se encarga del estudio y desarrollo de técnicas que permitan a los ordenadores entender y procesar el lenguaje humano.

Procesador de datos

Data Processor – Procesador de datos

A menudo un tercero encargado de recopilar datos en nombre del controlador (a efectos RGDP)

Python

Python

Es un lenguaje de programación creado en 1994 y que es muy usado en ciencia de datos. Para los principiantes, resulta muy sencillo de aprender, pero al mismo tiempo es un lenguaje muy potente para usuarios avanzados, ya que dispone de librerías especializadas para aprendizaje automático y generación de gráficos.

Leer más

Q

R

R

R

Lenguaje de programación de código abierto y entorno de cálculo estadístico y generación de gráficos disponible para entornos Linux, Windows y Mac.

RGDP

GDPR

El Reglamento General de Protección de Datos (GDPR en inglés), que entró en vigor el 25 de mayo de 2018. Este nuevo reglamento tiene como objetivo principal gobernar la recopilación, el uso y el intercambio de datos personales. La cantidad de datos que creamos cada día está creciendo a un ritmo exponencial, y como dice la regulación, "el procesamiento de los datos personales debe estar diseñado para servir a la humanidad".

Leer más

Realidad Virtual

Virtual Reality

Es un sistema informático que genera simulaciones de espacios reales o ficticios donde podemos interactuar y explorar como si estuviéramos allí realmente.

Red neuronal

Neural network

Se trata de un modelo que, inspirado en el funcionamiento del cerebro, se compone de distintas capas (al menos una de ellas oculta) que consisten en unidades sencillas conectadas entre sí (neuronas).

Las redes neuronales se usan en aprendizaje profundo para tratamiento de imágenes (asociadas a características) y muchas cosas más. Lo que hace especial a este tipo de redes es el uso de la capa oculta de funciones “peso”, las neuronas, con la cual se pueden construir una red que reproduzca muchas otras funciones. Sin esa capa oculta, las redes neuronales no serían más que simples funciones ponderadas.

Redes neuronales convolucionales

Convolutional neural networks (CNN)

Son modelos de aprendizaje profundo que pueden aprender automáticamente representaciones jerárquicas de características. Esto significa que las características calculadas por la primera capa son generales y pueden reutilizarse en diferentes problemas, mientras que las características calculadas por la última capa son específicas y dependen del conjunto de datos y la tarea elegidos.

Reducción de dimensionalidad

Dimension reduction

Consiste en usar una técnica llamada análisis de componentes principales para extraer una o más dimensiones que capturan la mayor variación posible de los datos. Para ello se usa álgebra lineal, que, en pocas palabras, es la rama de las matemáticas que permite trasladar algo que ocurre en un espacio de m dimensiones, a otro espacio con un número de dimensiones menor.

Regresión

Regression

Es un método de aprendizaje supervisado donde la variable de salida es un valor real y continuo, como la “estatura” o el” peso”. La regresión consiste en ajustar cualquier conjunto de datos a un modelo determinado. Dentro de los algoritmos de regresión podemos encontrar la regresión lineal, no lineal, por mínimos cuadrados, Lasso, etc

Regresión lineal

Linear Regression

Es una técnica que busca una relación lineal (esto es, una donde la relación entre dos cantidades variables, como pueden ser precios y ventas, se pueden expresar con una ecuación cuya representación gráfica es una recta) comenzando con un conjunto de puntos que, en un principio, no están bien aliendados. Este proceso ser realiza calculando la aproximación por mínimos cuadrados. Es aquella que, en un gráfico de coordenadas cartesianas x-y, ofrece un mejor ajuste a los datos de acuerdo con un criterio de mínimos cuadrados (minimiza la suma de cuadrados de las diferencias en las ordenadas entre los puntos generados por la función elegida y los correspondientes valores en los datos)-

Regresión logística

Logistic Regression

Es un modelo similar a la regresión lineal, pero los resultados que se obtienen son categóricos, en lugar de ser valores continuos.

Resiliencia (Gobierno del Dato)

Resilience (Data Governance)

La resiliencia es la capacidad de los sistemas para mantener o restaurar su funcionalidad básica después de materializarse un riesgo o un evento (incluso desconocido).

Resumen automático

Text summarization o Automatic summarization

Es la técnica mediante la cual podemos sintetizar fragmentos largos de texto en fragmentos de textos más cortos que contengan únicamente aquella información que es relevante. Gracias a esto podemos diseñar y desarrollar modelos que nos ayuden a condensar y presentar la información ahorrándonos tiempo de lectura y maximizando la cantidad de información por palabra.

Robot

Robot

Un robot es un sistema electromecánico con independencia propia para crear unos movimientos o realicen operaciones que puedan ser, como mínimo, cuestión de estudio. Se crean a través de una técnica llamada robótica, que se utiliza para diseñarlos y construirlos.

Ruby

Ruby

Es un lenguaje de script que surgió en 1996. Es muy usando entre los científicos de datos, pero no es tan popular como Python, ya que éste que ofrece más librerías especializadas para las distintas tareas de Data Science.

S

SAS

SAS

Es un paquete de software estadístico que incluye un lenguaje de programación que también se conoce como SAS

SQL

SQL

SQL (Structured Query Language) es un lenguaje estándar e interactivo de acceso a bases de datos relacionales que permite especificar diversos tipos de operaciones en ellas. El SQL se basa en el uso del álgebra y cálculos relacionales para realizar consultas a las bases de datos de manera sencilla. Las consultas se realizan mediante un lenguaje de comandos que permite seleccionar, insertar, actualizar, averiguar la ubicación de los datos, y más.

SciPy

SciPy

Acrónimo de Scientific Python. SciPy es una librería de Python que está construida sobre la librería para computación científica NumPy. Es una de las más útiles por la gran variedad que tiene de módulos de alto nivel sobre ciencia e ingeniería, como transformada discreta de Fourier, álgebra lineal, y matrices de optimización

Scikit Learn

Scikit Learn

Es una librería de Python construida sobre NumPy, SciPy y matplotlib. Esta librería contiene un gran número de eficientes herramientas para machine learning y modelado estadístico, como, por ejemplo, algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad.

Scrapy

Scrapy

Es una librería de Python que se usa para rastrear la web. Es un entorno muy útil para obtener determinados patrones de datos. Desde la url de la home de una web, puede rastrear las distintas páginas del sitio para recopilar información.

Seaborn

Seaborn

Es una librería de Python basada en matplotlib, se usa para hacer más atractivos los gráficos e información estadística en Python. Su objetivo es darle una mayor relevancia a las visualizaciones, dentro de las tareas de exploración e interpretación de los datos.

Segmentación

Clustering

Es un método de aprendizaje no supervisado que se usa para descubrir agrupamientos inherentes a los datos. Por ejemplo, agrupamiento de clientes según sus hábitos de compra para de esta forma segmentarlos. De esta forma, las empresas pueden definir las estrategias de marketing más apropiadas para incrementar sus beneficios. Ejemplos de algoritmos de clustering son: K-Means, clustering jerárquico etc.

Sensibilidad y Especifidad

Sensitivity and Specificity

Son métricas estadísticas que se usan para medir el rendimiento de un clasificador binario.

La Sensibilidad (También llamada tasa de verdadero positivo, o probabilidad de detección en algunos campos) mide la proporción de casos positivos correctamente identificados por el algoritmo clasificador. Por ejemplo, el porcentaje de personas que padecen una enfermedad y que son correctamente detectadas. Su fórmula es:

Sensibilidad=Verdaderos Positivos/ (Verdaderos Positivos + Falsos Negativos)

La Especificidad (también llamada tasa de verdaderos negativos) mide la proporción de casos negativos correctamente identificados como tales por el algoritmo clasificador. Por ejemplo, se usa para indicar el número de personas sanas que han sido correctamente identificadas como tales por el algoritmo.

Especifidad=Verdaderos Negativos/ (Verdaderos Negativos + Falsos Positivos)

Sensores IoT

IoT Sensors

Un sensor IoT es un dispositivo capaz de detectar, medir o indicar los cambios que se producen en un espacio/objeto físico, los transforma en una señal eléctrica y los cuelga de manera legible en una plataforma de conectividad. Estos sensores pueden medir multitud de variables (localización, temperatura, humedad, presión, velocidad…). Por si solos no serían útiles, por ello, todos los datos recogidos se cuelgan en una plataforma donde, a través del Big Data, podemos analizarlos y crear patrones de comportamiento para poder definir los valores y conseguir un valor añadido del dispositivo.

Serie espacio-temporal

Spatiotemporal data

Son series temporalis de datos que también incluyen identificadores geográficos, como pares de coordenadas de latitud-longitud.

Serie temporal

Time series data

Una serie temporal es una secuencia de medidas espaciadas en el tiempo intervalos no necesariamente iguales. Así las series temporales constan de una medida (por ejemplo, presión atmosférica o precio de una acción) acompañada de un sello temporal.

Sesgo

Bias

Es el término independiente en el origen. En los modelos de machine learning (aprendizaje automático) suele denominarse b o w0. En la siguiente fórmula sería el término b.

y′=b+w1x1+w2x2+…wnxn

En machine learning se llama sesgo a la tendencia del que aprende a repetir el mismo error de forma consistente. La Varianza es la tendencia a aprender hechos aleatorios sin tener en cuenta la señal. En ocasiones, por evitar la varianza (overfitting) se cae en el error opuesto, el sesgo (underfitting).

Seudonimización

Pseudonymization

El proceso de seudonimización es una alternativa a la anonimización de datos. Mientras que la anonimización implica eliminar por completo toda la información identificable, la seudonimización pretende eliminar el vínculo entre un conjunto de datos y la identidad del individuo. Los ejemplos de seudonimización son encriptación y tokenización.

Shark

Shark

Esta librería de C++ ofrece métodos de optimización lineal y no lineal. Está basada en métodos kernel, redes neurales y otras técnicas avanzadas de machine learning. Es compatible con la mayoría de sistemas operativos.

Sistema experto

Expert system

Es un sistema que emplea conocimiento humano capturado en un ordenador para resolver problemas que normalmente resolverían humanos expertos. Los sistemas bien diseñados imitan el proceso de razonamiento que los expertos utilizan para resolver problemas específicos. Estos sistemas pueden funcionar mejor que cualquier humano experto tomando decisiones individualmente en determinados dominios y pueden ser utilizados por humanos no expertos para mejorar sus habilidades en la resolución de problemas.

Leer más

Sobreajuste

Overfitting

Un modelo está “sobreajustado” cuando se han tenido en cuenta tantas peculiaridades y valores anónimos que el modelo se ha vuelto excesivamente complicado y no es aplicable a ningún conjunto de datos, salvo para el que se ha usado para entrenarlo.

Spark+MLlib

Spark+Mllib

Es una librería de Java que encaja a la perfección con las APIs de Spark y trabaja conjuntamente con NumPy. Spark acelera el funcionamiento de MLlib, cuyo objetivo es realizar un aprendizaje escalable y más sencillo.

Statsmodels

Statsmodels

Es un módulo de Python para modelado estadístico. Permite a los usuarios explorar datos, hacer estimaciones de modelos estadísticos y realizar test estadísticos. Ofrece una extensa lista de estadísticas descriptivas, test, funciones gráficas etc para diferentes tipos de datos y estimadores.

Sujeto de datos

Data Subject

El individuo cuyos datos se están utilizando (a efectos RGPD)

SymPy

SymPy

Es una librería de Python que se usa para cálculo simbólico, desde aritmética, a cálculo, álgebra, matemáticas discretas y física cuántica. También permite formatear los resultados en código LaTeX.

T

Tabla pivotante o tabla dinámica

Pivot table

Las tablas dinámicas resumen de forma ágil y rápida largas listas de datos, sin necesidad de escribir fórmulas o copiar celdas. Pero su característica más importante es que se pueden reorganizar de forma dinámica. Con tan sólo mover el ratón, se puede reorganizar la tabla pivot de forma que resuma los datos agrupándolos, por ejempo, por género, por edad o por localización geográfica. El proceso de reorganizar la tabla se conoce como “pivotar los datos”. Consiste en distribuir la información de forma que se puede examinar desde distintos ángulos. El término tabla pivot es una frase genérica utilizada por múltiples proveedores. Sin embargo, Microsoft Corporation ha registrado la marca específica de "PivotTable".

Tecnología 5G

Fifth Generation Technology (5G)

El 5G es una de las nuevas conectividades que se están implementando en diferentes países cuya principal función es la de soportar velocidades de subida de información muy superiores a cualquier otra tecnología creada hasta el momento. Esto permite que, para los servicios que disfruten de esta tecnología, el envío de información sea todavía más rápido que el actual.

Tensor

Tensor

Los tensores son objetos matemáticos que almacenan valores numéricos y que pueden tener distintas dimensiones. Así, por ejemplo, un tensor de 1D es un vector, de 2D una matriz, de 3D un cubo etc

Tensorflow

Tensorflow

Es una librería de software opensource para el cálculo numérico que utiliza grafos de flujo de datos. Los nodos en el grafo representan operaciones matemáticas, mientras que los bordes representan los conjuntos de datos multidimensionales (tensores) comunicados entre ellos.

Tienda conectada

Smart Retail

La tienda conectada también es conocida por otros nombre como tienda IoT, tienda del futuro o tienda inteligente. En definitiva, una tienda conectada es un comercio tradicional que ha pasado por una transformación digital y ha adaptado sus espacios a nuevos escenarios con dispositivos IoT para ofrecer a sus clientes una mejor experiencia de usuario. Las marcas, se están esforzando en adaptar las ventajas del comercio online a los puntos de venta físicos para atraer nuevos clientes, incrementar las ventas y aumentar su fidelidad hacia la marca.

Leer más

Transformación Digital

Digital Transformation

La transformación digital es la reinvención de una empresa mediante la implementación de capacidades digitales a sus procesos, productos y activos para ser más eficientes, ofrecer una mejor experiencia al usuario y ahorrar en costes.

Transparencia (Gobierno del Dato)

Transparency (Data Governance)

Concepto sobre el que se fundamenta la forma que los usuarios tienen para ser conscientes de la información almacenada por el servicio, dar y poder revocar su consentimiento explícito y poder tener acceso a revocarlo durante la operación del mismo y tener garantías de que se ha eliminado al terminar el mismo.

Tratamiento de datos

Data wrangling

Consiste en convertir los datos, normalmente por medio de lenguajes de script, en un formato en el que resulte más fácil trabajar con ellos. Es una tarea que consume mucho tiempo.

U

UIMA

UIMA

La “Arquitectura de Gestión de Información Desestructurada” fue desarrollada por IBM como entorno de análisis de datos no estructurados, especialmente, lenguaje natural. OASIS UIMA es una especificación que estandariza este entorno y Apache UIMA es una implementación de código abierto de ésta. Este entorno permite trabajar con distintas herramientas diseñadas para conectarse con él.

Unidad de procesamiento gráfico (GPU)

Graphics processing unit (GPU)

La unidad de procesamiento gráfico (GPU) es el componente hardware que se encarga de que el contenido se muestre correctamente en la pantalla o monitor del ordenador. Gestiona desde la interfaz de usuario hasta aplicaciones y páginas web y, por supuesto, juegos.

El uso de la computación paralela masiva con GPUs ha sido clave para el desarrollo del Deep Learning.

V

Validación cruzada

Cross-validation

Se usa en la aplicación de algoritmos a conjuntos de datos. Consiste en un conjunto de técnicas que dividen los datos en datos de entrenamiento y datos de test. Los datos de entrenamiento se introducen en el algoritmo, junto con las respuestas correctas, y así “aprende” de los datos. Una vez entrenado, el algoritmo es capaz de predecir las respuestas correctas para cada uno de los datos de entrada del conjunto de datos de test. Las respuestas que da el algoritmo se comparan con los valores reales y así se puede estimar si el algoritmo lo hizo bien.

Valores anómalos

Outlier

Son valores extremos que pueden ser debidos a errores de medición o registro de los datos, o bien reflejo de eventos reales, pero poco frecuentes.

Variable categórica

Categorical Variable

Las variables categóricas (o variables nominales) son aquellas que tienen valores cualitativos discretos. Por ejemplo, los nombres de ciudades como Madrid, Valencia, Bilbao, son categóricos.

Variable continua

Continuous variable

Se trata de variables cuyo valor puede ser cualquiera que se pueda expresar con un número decimal. La edad, o el tamaño, pueden ser variables continuas. Tiene 2,5 años. Su representación gráfica es una función continua. Las variables discretas, por el contrario, se expresan por números enteros, o valores concretos como por ejemplo “hombre”, “mujer”, “sí” o “no”.

Variable dependiente

Dependent Variable

Se llama variable dependiente porque su valor tiene que ver (“depende”) con el de la variable dependiente. Si estamos midiendo el efecto que tiene el volumen del presupuesto de publicidad sobre las ventas totales, el presupuesto de publicidad sería la variable independiente y las ventas totales, sería la dependiente.

Variable discreta

Discrete Variable

Se trata de una variable cuyos valores potenciales pertenecen a un conjunto específico de valores. Por ejemplo, si alguien califica una película entre una y cinco estrellas y no están permitidos valores fracción de estrella (por ejemplo, cuatro estrellas y media), la variable calificación es una variable discreta. En una representación gráfica, las variables discretas se expresan en forma de histogramas.

Vector

Vector

La definición matemática de un vector es “una cantidad que tiene una magnitud y una dirección, representada por una flecha cuya longitud representa la magnitud y cuya orientación en el espacio representa la dirección”. Sin embargo, los científicos de datos utilizan el término en este sentido: “conjunto ordenado de números reales que denotan una distancia sobre un eje de coordenadas. Estos números pueden representar características de una persona, película, producto o lo que queramos modelar. Esta representación matemática de las variables permite trabajar con librerías de software que aplican operaciones de matemáticas avanzadas a los datos.

Un espacio vectorial es un conjunto de vectores, por ejemplo, una matriz.

W

Weka

Weka

Weka es un conjunto de algoritmos de aprendizaje automático para realizar tareas de analítica de datos. Los algoritmos se pueden aplicar de forma directa a un conjunto de datos o bien ser llamados desde tu propio código Java. Weka ofrece herramientas de pre-procesamiento de datos, clasificación, regresión, clustering, reglas de asociación y visualización. También es apropiada para el desarrollo de nuevos modelos de aprendizaje automático. Weka es un software de código abierto desarrollado por la Universidad de Waikato en Nueva Zelanda.

X

Y

Z

Términos más consultados

Datos no-estructurados   

Función de activación

Inteligencia artificial

Inteligencia cognitiva

Quienes somos Sostenibilidad Innovación Partners Talento
Torre Outlet: el centro comercial inteligente INE: estadísticas más detalladas y frecuentes gracias a los datos telco Auth4art: obras de arte digital en forma de NFTs Mifra: ventajas de soluciones AgroTech en explotaciones agrícolas
¿Si los datos pudieran, qué destino elegirían para viajar? ¿Qué más podemos hacer para cuidar mejor el sistema que nos cuida? El ecosistema de relación con partners de IoT Digitalización para el presente y futuro de las Ciudades Inteligentes

Descubre toda la actualidad de Telefónica Tech para estar a la última en innovación y tecnología

Toda la actualidad
  • Por qué nosotros
    Quienes somos Sostenibilidad Innovación Partners Talento
  • Casos de éxito
    Torre Outlet: el centro comercial inteligente INE: estadísticas más detalladas y frecuentes gracias a los datos telco Auth4art: obras de arte digital en forma de NFTs Mifra: ventajas de soluciones AgroTech en explotaciones agrícolas
  • Recursos
    ¿Si los datos pudieran, qué destino elegirían para viajar? ¿Qué más podemos hacer para cuidar mejor el sistema que nos cuida? El ecosistema de relación con partners de IoT Digitalización para el presente y futuro de las Ciudades Inteligentes
  • Actualidad

    Descubre toda la actualidad de Telefónica Tech para estar a la última en innovación y tecnología

    Toda la actualidad
    Aviso legal Política de privacidad Cookies Configuración de cookies
    Blog