Petiano: Yvan Ribeiro de Araujo (lattes)
Orientador: Valdinei Freire da Silva (lattes)
Aprendizado por reforço (Reinforcement Learning) considera o problema de um agente interagindo com um ambiente completamente desconhecido no qual o agente deve aprender a agir otimamente. Embora considere ambientes de forma genéricas, o aprendizado pode ser extremamente lento devido a utilização de estratégias de tentativa e erro. Essa extrema lentidão evidencia-se no futebol de robô, no qual a quantidade de dimensões do espaço de estado é muito grande, além de o espaço de estado ser contínuo.
Uma forma de acelerar o aprendizado por reforço é utilizar abstração espacial, de forma a generalizar o conhecimento; e abstração temporal, de modo a diminuir os momentos de decisão. Outro caminho para acelerar o aprendizado é considerar um tutor que pode escolher uma sequência de situações para expor ao agente, de modo a garantir uma transição mais suave no aprendizado. Enquanto avanços tem sido feito nessas diversas linhas, poucos trabalhos têm proposto um arcabouço que unem os dois tipos de abstração e a consideração de um tutor.
Este trabalho tem como objetivo unir abstração espacial e abstração temporal em um único arcabouço considerando a existência de um tutor.
Considerando um agente com dois níveis de observação, local e global; o arcabouço a ser proposto considera a observação local para construir abstrações temporais que podem ser utilizada em várias regiões do espaço de estado, enquanto considera a observação global para definir as regiões similares em termos de políticas locais. Será suposto um tutor com a habilidade de organizar o espaço global em diversos níveis de dificuldade. Serão utilizados ambientes discretos de modo a facilitar a implementação.
Espera-se a definição de um novo algoritmo de aprendizado por reforço, assim como experimentos para avaliar a qualidade de tais algoritmos.