Ir al contenido

Documat


Resumen de Deep multimodal learning for egocentric storytelling and food analysis

Marc Bolaños Solà

  • El mundo del Machine Learning y la Visión por Computador ha experimentado una revolución los últimos años. La aparición de algoritmos de Deep Learning y Convolutional Neural Networks, junto con las mayores capacidades de procesamiento proporcionadas por GPU modernas y las enormes cantidades de datos anotados disponibles públicamente, han permitió un impulso en el campo como nunca antes se había visto.

    Estas notables mejoras logradas en el mundo del Machine Learning han llevado a la aparición de nuevos campos como el Aprendizaje Multimodal, que engloba y aprende de muchos subcampos. Además, nuevas aplicaciones han aprovechado estos avances para alcanzar altos niveles de rendimiento. La enorme mejora en los resultados de los algoritmos disponibles actualmente ha permitido no solo revolucionar el mundo académico, sino también llevar al mercado soluciones basadas en IA que parecían ciencia ficción hace apenas 10 años.

    Esta tesis, que está escrita como un compendio de artículos, se enfoca en profundizar en el novedoso tema del Aprendizaje Multimodal Profundo al proponer nuevos algoritmos y soluciones para problemas ya existentes y recientemente definidos. Desde la perspectiva de las aplicaciones, la mayoría de los trabajos presentados se pueden dividir en dos áreas de aplicabilidad. Por un lado, la Visión Egocéntrica y el Storytelling, que consiste en la adquisición de imágenes de la vida diaria de una persona para analizar su comportamiento y extraer patrones asociadas a estos como por ejemplo interacciones sociales, actividades y eventos, interacciones con objetos, etc. Y por otro lado, el Reconocimiento y Análisis de Alimentos, que consiste en visualmente analizar y reconocer la comida que aparece en imágenes en múltiples contextos y con diferentes niveles de complejidad, desde el reconocimiento de grupos de alimentos hasta el análisis nutricional.

    En ambas aplicaciones, el propósito final de los artículos propuestos es construir herramientas que brinden información que pueda conducir a una mejor calidad de vida de los usuarios.


Fundación Dialnet

Mi Documat