Con los avances tecnológicos también se ha generado un crecimiento masivo en la cantidad y variedad de datos, esto nos brinda la oportunidad de tener una comprensión más profunda pero también introduce grandes desafíos estadísticos. Esto ha llevado a que se generen nuevas líneas de investigación que combinan los métodos estadísticos con los desarrollos en informática, y así implementar nuevas herramientas que permitan modelar y comprender conjuntos de datos complejos.
Los métodos de ordenación y reducción de la dimensionalidad son utilizados con frecuencia porque permiten simplificar los análisis con la mínima pérdida de información. En este contexto, los métodos biplot son una variedad de técnicas multivariantes que permiten reducir y visualizar de forma simultánea la información de un conjunto de datos, y han contribuido al avance de la ciencia por más de cinco décadas. Los aportes realizados en los métodos biplot han permitido que las técnicas puedan ser aplicadas en diferentes áreas del conocimiento, facilitando la toma de decisiones.
Inicialmente el biplot fue propuesto como una extensión del análisis de componentes principales basado en la descomposición en valores singulares y luego fue extendido para visualizar los resultados de otros métodos. Uno de estos se denomina biplot logístico, que es un tipo de biplot lineal para datos binarios que permite modelar la relación entre las variables observadas y las dimensiones del biplot a través de una curva de respuesta logística.
Este trabajo presenta contribuciones para los casos donde la matriz de información es binaria, proponiendo métodos que faciliten el análisis para grandes volúmenes de información, haciendo un aporte novedoso al combinar el biplot logístico con los métodos de optimización aplicados en el contexto de machine learning y utilizando los desarrollos informáticos disponibles en la actualidad.
En este proyecto se investiga y se propone una metodología basada en validación cruzada que es adaptada para el biplot logístico, con el fin de contar con un método que permita identificar el número de dimensiones que son apropiadas para ajustar el modelo. De este procedimiento se obtiene un error de entrenamiento y un error de validación que pueden ser ilustrados en una gráfica y así visualizar el valor apropiado para el número de dimensiones que debe ser elegido.
De otra parte, con el fin de contribuir al proceso de análisis multivariante para matrices de datos binarias de tipo big data, se incorporan nuevas formulaciones que permiten obtener funciones de pérdida adecuadas para ajustar el biplot logístico cuando se tiene un alto volumen de datos. Para ello se realizan diferentes desarrollos teóricos que son postulados y demostrados en algunos teoremas. A partir de las funciones que permiten sustituir el problema de optimización por otro más simple, se realiza el desarrollo teórico para adaptar diferentes algoritmos que permiten estimar los parámetros del modelo. Asimismo, se explora un enfoque a partir de algoritmos basados en el gradiente conjugado. Para comparar el rendimiento de los algoritmos se usa un procedimiento de simulación que permite medir la capacidad que tienen los diferentes métodos para identificar el número de dimensiones del modelo y la habilidad que tienen para recuperar la matriz canónica de parámetros en escenarios con matrices balanceadas y en otros donde la matriz de datos está desequilibrada.
Partiendo de que la matriz de datos binaria puede estar incompleta, se incorpora una metodología que permite dar un tratamiento a los datos faltantes. Esta se desarrolla desde una nueva perspectiva que está basada en el método de proyección de datos propuesto por Pearson para un análisis de componentes principales. En este trabajo se realiza el desarrollo teórico que permite llegar a un problema de minimización y un algoritmo apropiado para obtener una solución, con la ventaja de que las entradas faltantes en la matriz binaria también se van optimizando mientras se realiza el ajuste del modelo. Este enfoque además permite obtener la matriz de marcadores fila como una función de los marcadores columna, permitiendo la proyección de filas suplementarias sin tener que realizar nuevamente el proceso de optimización.
Con el fin de ilustrar su uso práctico y la interpretación de los resultados, los métodos propuestos son aplicados usando conjuntos de datos reales en diferentes contextos. Finalmente, para dar un soporte práctico a los investigadores de las diferentes áreas del conocimiento, los métodos propuestos y desarrollados teóricamente, son puestos a disposición en un paquete escrito en lenguaje R, denominado BiplotML, el cual cuenta con toda la documentación de ayuda y puede ser instalado desde el repositorio de CRAN.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados