Breve introdução a sistemas de inteligências artificiais aplicados a processamento e criação de imagem

Por André Palacio e Gustavo Almeida

Introdução ao Conceito de Inteligência Artificial

Em uma análise inicial sobre a replicação da inteligência humana, é crucial compreender quais facetas da inteligência desejamos emular. As respostas surgidas de um questionamento em sala de aula na Unisinos revelaram nuances interessantes sobre o que realmente constitui inteligência. Associar ideias, tomar decisões, aprender e diversas outras habilidades foram mencionadas. A ideia subjacente aos sistemas inteligentes é a de que podemos automatizar esses comportamentos, efetivamente incorporando a inteligência humana em tecnologia a nosso serviço.

Assim, o objetivo central das tecnologias de inteligência artificial é desenvolver uma solução capaz de raciocinar, comunicar, criar, interagir e aprender. Este programa ideal deve possuir habilidades como processamento de linguagem natural para uma comunicação eficaz em idioma humano, representação de conhecimento para armazenar informações adquiridas, raciocínio automatizado para responder a perguntas e tirar conclusões, além de aprendizado de máquina para adaptação a novos contextos e identificação de padrões. Por conseguinte, podemos dizer que queremos um computador que tenha as seguintes características:

  • processamento de linguagem natural para permitir que ele se comunique com sucesso em um idioma natural;
  • representação de conhecimento para armazenar o que sabe ou ouve;
  • raciocínio automatizado para usar as informações armazenadas com a finalidade de responder a perguntas e tirar novas conclusões;
  • aprendizado de máquina para se adaptar a novas circunstâncias e detectar padrões.

O teste de Turing, inicialmente focado na interação verbal, evoluiu para o chamado teste de Turing total, incluindo elementos visuais e físicos. O teste se baseia em diferenciar um robô e um ser humano por atividades como imagens e textos desenvolvidos, sem conhecer o autor, cabe a um terceiro avaliador identificar os dois sujeitos. Esta versão exigiria que um computador tivesse não apenas habilidades de linguagem, mas também visão computacional para perceber objetos e robótica para manipulá-los. Esse teste, concebido por Turing há mais de seis décadas, permanece como um marco relevante na avaliação da inteligência artificial.

Curiosamente, essas disciplinas fundamentais – linguagem, conhecimento, raciocínio, aprendizado, visão e manipulação – formam o núcleo da inteligência artificial. Apesar disso, os pesquisadores têm direcionado seus esforços mais para compreender os princípios básicos da inteligência do que para criar um exemplar funcional passível de aprovação no teste de Turing. Este desvio de foco reflete uma compreensão de que a verdadeira essência da inteligência artificial reside não apenas na reprodução mecânica, mas na compreensão profunda dos mecanismos subjacentes à mente humana.

O funcionamento de uma IA geradora de imagens

Obtenção de dados

As IAs geradoras de imagem baseadas em texto dependem fortemente de, ironicamente, extensos conjuntos de dados de imagens associadas a texto para o desenvolvimento de seus modelos. No entanto, a origem desses conjuntos de dados frequentemente carece de transparência, levantando preocupações éticas. Por exemplo, o Stable Diffusion, uma IA geradora de código aberto, foi treinado usando conjuntos de dados fornecidos por uma organização sem fins lucrativos apoiada pela própria empresa Stable Diffusion, que, por sua vez, obteve dados do Common Crawl – um repositório com vastos dados coletados na web.

Uma análise revelou que uma parte significativa do conjunto de dados de imagens do Stable Diffusion derivava de plataformas como Pinterest, WordPress, Flickr e DeviantArt – sites que utilizam conteúdo gerado por usuários em vez de serviços comerciais centralizados, como arquivos de imagens tradicionais. Essa evolução da tecnologia de texto para imagem suscita considerações para profissionais da informação, enfatizando implicações potenciais de direitos autorais e reações dos usuários – alguns satisfeitos por suas contribuições terem auxiliado avanços, enquanto outros podem se sentir inquietos com a IA gerando imagens intrincadas e artisticamente enriquecidas usando seu conteúdo.

A complexidade se aprofunda devido a plataformas como o Pinterest que hospedam imagens de várias origens, potencialmente conflitantes com regulamentos de direitos autorais. Esforços para identificar infrações de direitos autorais na geração de texto para imagem, ajudando artistas a detectarem seu trabalho dentro de mecanismos de criação, sugerem possíveis disputas legais sobre a legitimidade desses métodos e a propriedade de direitos autorais de arte gerada por IA. 

O processo de criação

Modelos de difusão, exemplificados pela tecnologia por trás do GPT-3 e do DALL-E, funcionam por meio de um processo complexo composto por estágios sequenciais que manipulam e reconstroem imagens. Este método opera em duas fases distintas, começando com a degradação deliberada de imagens seguida por um intricado processo de restauração.

Inicialmente, esses modelos distorcem imagens ao introduzir incrementalmente ruído aleatório por meio de uma série de passos sequenciais. As imagens originais, cada uma dotada de significados específicos atribuídos por humanos, passam por uma transformação deliberada. Através de etapas iterativas, a imagem gradualmente perde seu contexto e significado originais, desvanecendo-se para um estado completamente irreconhecível quando comparado com seu original.

A fase subsequente envolve a reversão desse processo, visando restaurar a imagem distorcida à sua clareza e significado originais. Esse complexo processo requer ajustes meticulosos em numerosos parâmetros incorporados nas redes neurais. Esses ajustes aprimoram a progressão do modelo, amplificando passos que aumentam a probabilidade de recuperar o significado original, enquanto suprimem aqueles que o prejudicam. Por meio de ciclos iterativos e avaliações baseadas na similaridade entre a imagem menos ruidosa e a entrada original, o modelo evolui, gradualmente restaurando a imagem distorcida para uma representação semelhante à entrada inicial.

Além disso, a integração de descrições textuais junto com a manipulação de imagens aprimora significativamente o processo de treinamento do modelo. Ao submeter palavras descritivas a correntes de imagens degradadas e restauradas simultaneamente, o modelo aprende a associar imagens a dicas textuais específicas. Isso aumenta sua capacidade de produzir imagens alinhadas a descrições predeterminadas. O conjunto de dados de treinamento do modelo, proveniente de diversas imagens obtidas na internet, emparelhadas com significados correspondentes, permite que ele gere imagens correspondentes a uma ampla variedade de frases de entrada.

Embora as imagens resultantes possam parecer orgânicas, a funcionalidade subjacente dos modelos de difusão permanece mecânica. O processo intricado, fundamentado em cálculos de probabilidade e equações complexas, desmembra operações complexas em etapas computacionalmente gerenciáveis. No entanto, a natureza opaca dos parâmetros aprendidos durante o treinamento dificulta a previsão precisa de como ou por que o IA opera de maneira eficaz. Consequentemente, a avaliação da eficácia do modelo depende principalmente da avaliação qualitativa de suas saídas, em vez de uma compreensão abrangente de seu funcionamento interno, ou seja, um avaliador consegue mensurar mais facilmente o resultado do processo de geração do  que o processo em si.

Referências:

FERNANDEZ, P. Technology behind text to image generators, 14 Nov. 2022. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/LHTN-10-2022-0116/full/pdf?title=technology-behind-text-to-image-generators

Big Think Page. How do DALL-E, Midjourney, Stable Diffusion, and other forms of generative AI work?, 23 Set. 2022. Disponível em: https://bigthink.com/the-future/dall-e-midjourney-stable-diffusion-models-generative-ai/

RUBACK, L.; CARVALHO, D.; AVILA, S.T.  iSys – Brazilian Journal of Information Systems. Mitigating Bias in Machine Learning, 30 Dec. 2022. Disponível em: https://sol.sbc.org.br/journals/index.php/isys/article/view/2396