Visão computacional: histórico, modelo e cenário contemporâneo

Por Gustavo Almeida de Jesus e Lizandro Raposo Paiva

Há diversos estímulos para a criação de novas formas de interagir com o computador, seja uma limitação motora por parte do usuário ou desafios a serem superados com o avanço da computação. Uma das possibilidades encontradas foi a incorporação da informação através do processamento de imagens do mundo real feita por um computador,e isso é chamado de visão computacional. Ela desenvolve teoria e tecnologia para a construção de sistemas artificiais que processem e obtêm informações de imagens do mundo real ou quaisquer dados de componentes multidimensionais.

A partir disso, é possível levantar diversos contextos em que o uso da visão computacional se faz presente, como, por exemplo, no setor institucional, em que podemos fazer inspeção e controle de qualidade, vigilância e segurança, reconhecimento de face, reconhecimento de gestos, veículos autônomos dentre outras aplicações. A consultora Susan Etlinger, expert em estratégia digital com foco em IA (inteligência artificial), chama a inteligência imagética de “a habilidade de extrair significados das imagens, detectar padrões e usar insights em conjunção a outros dados para fazer previsões sobre o futuro” (ETLINGER, 2016, pg.13). Tendo em vista esse contexto, é possível identificar algumas ferramentas atuais que fazem o uso dessa tecnologia, como o Google Cloud Vision AI, que traz a possibilidade de treinarmos modelos de ML (machine learning) para fazer o reconhecimento de imagens.

Para tratarmos um pouco mais sobre como o computador processa as imagens, é muito importante entender também o conceito de aprendizagem de máquina (do inglês machine learning) e deep learning, que, de uma forma simples, se referem ao processos do computador de abstrair e interpretar dados e, a partir disso, dar alguma resposta. Na realidade do processamento de imagem, seu uso se dá por processos desde reconhecimento de aspectos como pixels ou cores, até componentes mais complexos, como objetos. Essa rede neural tem a importante função de analisar as informações obtidas das imagens, assim como o cérebro processa o que enxergamos com os olhos.

Contudo, nem sempre tivemos a abundância de tecnologia para fazermos essas análises. Por volta de 1950, foram iniciados os experimentos com redes neurais e, por consequência, visão computacional. Nesse momento da história, o uso dessa tecnologia se restringia à classificação de formas geométricas simples, todavia, 20 anos depois, já era possível ler e interpretar textos comercialmente. 

A partir desse contexto, faz-se pertinente destacar alguns usos da visão computacional ao longo dos anos. Podemos dizer que ela está mais presente no nosso cotidiano do que parece, como, por exemplo, na medicina para análise de imagens ou em veículos autônomos, contribuindo para a decisão de rotas e desvio de objetos na via. Esse processo se dá por diversas etapas, tais como: aquisição da imagem, extração das características úteis, detecção, processamento, dentre outras. Mas, assim como qualquer tecnologia, ela está em constante processo de evolução, portanto ainda há muito espaço para desenvolvimento dessa área e são muitas as contribuições possíveis, desde testes até a implementação de novas redes neurais. Há pesquisas na área que usam a visão computacional para modelagem de objetos tridimensionais a partir de fotos, ou até dispositivos de detecção de movimento do olho do indivíduo, justamente por ser uma seção da computação em crescimento, significa que temos muitos a descobrir e desbravar.

Um bom exemplo para se perceber até onde a visão computacional já foi é o reconhecimento facial, técnica utilizada para segurança em alguns aparelhos celulares e em algumas empresas, que funciona analisando o rosto via imagem e transformam-na em dados, utilizada como uma senha para  o desbloqueio.

Fonte: https://www.projetodraft.com/wp-content/uploads/2018/05/Facial-recognition.png

Outro bom exemplo é a tecnologia de eye tracking, que é um algoritmo que tem como entrada o movimento dos olhos, mas esse tema já foi tratado em outro artigo do informativo Coruja Informa.

REFERÊNCIAS

BARCELOS,Thiagos. Interfaces prestativas baseadas em visão e informação de contexto. Disponível em: <https://www.ime.usp.br/~barcelos/dissertacao.pdf>. Acesso em: 7 out. 2022

GOOGLE. Vision AI. Disponível em: <https://cloud.google.com/vision?hl=pt-br>. Acesso em: 7 out. 2022

SILVA, Tarcízio & APOLONIO, Brunno & MEIRELLES, Pedro. (2018). VISÃO COMPUTACIONAL NAS MÍDIAS SOCIAIS: estudando imagens de #Férias no Instagram. Disponível em: <https://www.researchgate.net/publication/334170835_VISAO_COMPUTACIONAL_NAS_MIDIAS_SOCIAIS_estudando_imagens_de_Ferias_no_Instagram> Acesso em: 7 out. 2022

VIANNA. Marcela. Calibração de Sistemas de Visão Computacional para Aplicação em Automação e Robótica. Disponível em: <http://www.biblioteca.pucminas.br/teses/EngMecanica_ViannaME_1.pdf> Acesso em: 7 out. 2022