# Representação de Texto para ser utilizado por classificadores

Notebook exemplificando o uso de BOW (Bag-of-Words) com contagem de palavras ou TF-IDF e n-gramas de caracteres.

Serão removidas as stopwords, o texto será convertido para letras minúsculas sem acentos e caracteres especiais.

# Bibliotecas Utilizadas

Utilizaremos as stopwords do nltk e pdandas para gerenciamento dos dados.

O conjunto de dados de entrada terá apenas o nome de duas disciplinas de SI.



In [8]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

import pandas as pd
dados = pd.read_csv('http://www.each.usp.br/digiampietri/ACH2197/dados/PLN_dados_duas_disciplinas.csv', sep='\t', decimal = '.', encoding = 'UTF-8')
nomes = dados['Nome']
dados

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,Nome,Classe
0,Introdução à Análise de Algoritmos,S
1,Análise de Redes Sociais,S


## Modelos de Representação

Agora, vamos criar os modelos que serão testados na última etapa. Primeiro, vamos importar as bibliotecas que utilizaremos:

In [9]:
# Extração das características dos textos (TFIDF e contagem de n-gramas)
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer


Inicialmente os textos serão representados como unigramas de palavras e o peso corresponderá a contagem de cada unigrama em cada texto.

In [10]:
vectorizer = CountVectorizer()
processado = vectorizer.fit_transform(nomes)
print(nomes)
print(processado.toarray())
vectorizer.get_feature_names_out()

0    Introdução à Análise de Algoritmos
1              Análise de Redes Sociais
Name: Nome, dtype: object
[[1 1 1 1 0 0]
 [0 1 1 0 1 1]]


array(['algoritmos', 'análise', 'de', 'introdução', 'redes', 'sociais'],
      dtype=object)

In [11]:
vectorizer2 = TfidfVectorizer()
processado2 = vectorizer2.fit_transform(nomes)
print(nomes)
print(processado2.toarray())
vectorizer2.get_feature_names_out()

0    Introdução à Análise de Algoritmos
1              Análise de Redes Sociais
Name: Nome, dtype: object
[[0.57615236 0.40993715 0.40993715 0.57615236 0.         0.        ]
 [0.         0.40993715 0.40993715 0.         0.57615236 0.57615236]]


array(['algoritmos', 'análise', 'de', 'introdução', 'redes', 'sociais'],
      dtype=object)

Na segunda representação, os acentos e caracteres especiais das stopwords são removidos para depois removermos as stopwords do texto, sem acentos e em letras minúsculas.

Tem representações são exemplificadas:
Contagem de unigramas de palavras, TFIDF de unigramas de palavras e contagem de trigramas de caracteres.

In [12]:
from unicodedata import normalize

minhaStopList = [normalize('NFKD', n).encode('ASCII', 'ignore').decode('ASCII') for n in stopwords.words('portuguese')]
minhaStopList.append('ii')

vectorizer3 = CountVectorizer(strip_accents='ascii', 
                      lowercase=True,
                      stop_words=minhaStopList)
processadoSemStop = vectorizer3.fit_transform(nomes)
print("\nRepresentacao por contagem de palavras:")
print(vectorizer3.get_feature_names_out())
print(processadoSemStop.toarray())


vectorizer3 = TfidfVectorizer(strip_accents='ascii', 
                      lowercase=True,
                      stop_words=minhaStopList)
processadoSemStop = vectorizer3.fit_transform(nomes)
print("\nRepresentacao usando TF-IDF:")
print(vectorizer3.get_feature_names_out())
print(processadoSemStop.toarray())


vectorizer3 = CountVectorizer(strip_accents='ascii', 
                      lowercase=True, ngram_range=(3,3), analyzer='char',
                      stop_words=minhaStopList)
processadoSemStop = vectorizer3.fit_transform(nomes)
print("\nRepresentacao por contagem de trigramas:")
print(vectorizer3.get_feature_names_out())
print(processadoSemStop.toarray())



Representacao por contagem de palavras:
['algoritmos' 'analise' 'introducao' 'redes' 'sociais']
[[1 1 1 0 0]
 [0 1 0 1 1]]

Representacao usando TF-IDF:
['algoritmos' 'analise' 'introducao' 'redes' 'sociais']
[[0.6316672  0.44943642 0.6316672  0.         0.        ]
 [0.         0.44943642 0.         0.6316672  0.6316672 ]]

Representacao por contagem de trigramas:
[' a ' ' al' ' an' ' de' ' re' ' so' 'a a' 'ais' 'alg' 'ali' 'ana' 'ao '
 'cao' 'cia' 'de ' 'des' 'duc' 'e a' 'e d' 'e r' 'ede' 'es ' 'gor' 'iai'
 'int' 'ise' 'itm' 'lgo' 'lis' 'mos' 'nal' 'ntr' 'o a' 'oci' 'odu' 'ori'
 'red' 'rit' 'rod' 's s' 'se ' 'soc' 'tmo' 'tro' 'uca']
[[1 1 1 1 0 0 1 0 1 1 1 1 1 0 1 0 1 1 1 0 0 0 1 0 1 1 1 1 1 1 1 1 1 0 1 1
  0 1 1 0 1 0 1 1 1]
 [0 0 0 1 1 1 0 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 0 1 0 0 1 0 1 0 0 1 0 0
  1 0 0 1 1 1 0 0 0]]
