Ir al contenido

Documat


Señales que hablan: Percepción visual para describir escenas a partir de gestos deícticos en robótica social

  • García-Martínez, Jesús [1] ; Sevilla-Salcedo, Javier [1] ; Castillo Montoya, Jos´é Carlos [1] Árbol académico ; Castro-González, Álvaro [1] Árbol académico ; Salichs, Miguel Ángel [1] Árbol académico
    1. [1] Universidad Carlos III de Madrid

      Universidad Carlos III de Madrid

      Madrid, España

  • Localización: Simposios del Comité Español de Automática, ISSN-e 3081-5002, Vol. 1, Nº. 1, 2025 (Ejemplar dedicado a: Simposio CEA de Robótica, Bioingeniería, Visión Artificial y Automática Marina 2025)
  • Idioma: español
  • DOI: 10.64117/simposioscea.v1i1.34
  • Enlaces
  • Resumen
    • La interacción humano-robot busca establecer una comunicación natural combinando elementos verbales y no verbales, siendo especialmente relevante coordinar la atención entre los agentes implicados, un proceso conocido como atención compartida. Aunque la atención compartida basada en el seguimiento de la mirada ha sido ampliamente explorada, el uso de gestos deícticos como mecanismo para guiar la atención ha sido poco abordado en el contexto de la interacción. Este artículo presenta una aplicación interactiva integrada en el robot social Mini, combinando nuestro método previo basado en visión por computador RGB-D para detectar donde señalan los usuarios con modelos generativos multimodales de visión y lenguaje. Nuestra propuesta utiliza la región señalada por el usuario como entrada directa al modelo, generando descripciones verbales coherentes y contextualizadas sobre dicha región. El sistema estima dicha región proyectando un cono tridimensional a partir del brazo del usuario sobre la nube de puntos capturada por el robot, identificando el punto de intersección como foco de atención y definiendo en torno a él una región de interés. Los resultados muestran que el sistema permite al robot generar descripciones precisas y relevantes sobre la zona indicada, mejorando la fluidez y coherencia de la interacción.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno