Petiano: Yvan Ribeiro de Araujo (lattes)
Orientador: Valdinei Freire da Silva (lattes)

Uma forma de acelerar o aprendizado por reforço é utilizar abstração espacial, de forma a generalizar o conhecimento; e abstração temporal, de modo a diminuir os momentos de decisão. Outro caminho para acelerar o aprendizado é considerar um tutor que pode escolher uma sequência de situações para expor ao agente, de modo a garantir uma transição mais suave no aprendizado. Enquanto avanços tem sido feito nessas diversas linhas, poucos trabalhos têm proposto um arcabouço que unem os dois tipos de abstração e a consideração de um tutor.
Este trabalho tem como objetivo unir abstração espacial e abstração temporal em um único arcabouço considerando a existência de um tutor.
Considerando um agente com dois níveis de observação, local e global; o arcabouço a ser proposto considera a observação local para construir abstrações temporais que podem ser utilizada em várias regiões do espaço de estado, enquanto considera a observação global para definir as regiões similares em termos de políticas locais. Será suposto um tutor com a habilidade de organizar o espaço global em diversos níveis de dificuldade. Serão utilizados ambientes discretos de modo a facilitar a implementação.
Espera-se a definição de um novo algoritmo de aprendizado por reforço, assim como experimentos para avaliar a qualidade de tais algoritmos.