Análisis de componentes principales (ACP)

Principal component analysis (PCA)

¿Qué es el análisis de componentes principales?

Las técnicas de Machine Learning necesitan grandes volúmenes de datos para crear modelos eficientes y de calidad. Sin embargo, muchas veces, los conjuntos de datos de entrenamiento contienen gran cantidad de datos irrelevantes o que aportan poca información. Los algoritmos de selección de características analizan los datos de entrada, los clasifican en distintos subconjuntos y definen una métrica con la que valorar la relevancia de la información aportada por cada uno de ellos. Luego, descartarán del dataset de trabajo aquellas características o campos que menos información aportan, permitiendo un ahorro en almacenamiento de datos, y tiempo de ejecución que se traduce en una mayor eficiencia del modelo.

El análisis de componentes principales (Principal Component Analysis o PCA) es uno de los algoritmos de selección de características más habituales.

Consiste en una técnica de selección de características concreta que utiliza una transformación ortogonal para convertir un conjunto de observaciones de variables, posiblemente correlacionadas, en un conjunto más reducido de variables que ya no guardan correlación y que se conocen como componentes principales.

La pregunta principal que nos ayuda a resolver este método es " ¿Cuántos parámetros del dataset son necesarios para explicar una variación significativa de éste? Es decir, es evidente que, al descartar parámetros o variables, siempre se perderá cierta información. El tema está en valorar cuánta información nos podemos permitir "perder" descartando ciertos parámetros en aras de obtener un modelo más rápido y eficiente.