Ir al contenido

Documat


Resumen de A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot

Marc Carreras Árbol académico

  • Aquesta tesi proposa lús dun seguit de tècniques pel control a alt nivell dun robot autònom i també per laprenentatge automàtic de comportaments. Lobjectiu principal de la tesis fou el de dotar dintelligència als robots autònoms que han dacomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos daquesta tesis va ser la selecció daquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp daplicació de tots els experiments es la robòtica submarina.

    En una primera part, la tesis es centra en el disseny duna arquitectura de control que ha de permetre lassoliment duna missió prèviament definida. En particular, la tesis proposa lús de les arquitectures de control basades en comportaments per a lassoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura daquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: anar a una posició, evitar obstacles,...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats daplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De lanàlisi dels resultats sen deriva que un dels factors que més influeixen en el rendiment daquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir duna fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid darquitectura capaç de beneficiar-se dels principals avantatges dambdues metodologies.

    En una segona part, la tesis proposa la utilització de laprenentatge per reforç per aprendre lestructura interna dels comportaments. Aquest tipus daprenentatge és adequat per entorns desconeguts i el procés daprenentatge es realitza al mateix temps que el robot està explorant lentorn. La tesis presenta també un estat de lart daquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes daprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre lús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa lús duna xarxa neural combinada amb lalgoritme daprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de lespai significa desaprendre en la resta de lespai. El problema de la interferència afecta de manera directa en robòtica, ja que lexploració de lespai es realitza sempre localment. Lalgoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades sutilitzen per actualitzar la xarxa neural, i per tant, laprenentatge és homogeni.

    Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i lalgoritme daprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment dun objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre laprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de lalgoritme daprenentatge mitjançant el benchmark del cotxe i la muntanya. Els resultats obtinguts en aquest problema milloren els resultats daltres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.


Fundación Dialnet

Mi Documat