# Experimento simples de atribuição de autoria utilizando apenas n-gramas de caracteres

## 1. Conjunto de Dados
O conjunto de dados é formado por 121 parágrafos de dois artigos diferentes (autores diferentes escrevendo sobre o mesmo assunto).

In [1]:
import nltk

import pandas as pd
dados2 = pd.read_csv('http://www.each.usp.br/digiampietri/ACH2197/dados/AA_Bots.csv', sep='\t', decimal = '.', encoding = 'UTF-8')
dados2.head()

Unnamed: 0,texto,autor
0,O período de análise de 26 dias agrupou tweets...,0
1,A figura 4 apresenta a árvore de decisão produ...,1
2,A tarefa de identificar bots em uma rede socia...,0
3,Observou-se tanto com o uso de árvores de deci...,1
4,Em 2018 ocorreram as Eleições Presidenciais no...,0


Há apenas duas colunas de dados: texto (contando o texto de um parágrafo) e autor (contendo o identificador do autor/artigo do qual o parágrafo foi retirado).

In [2]:
from collections import Counter
X = dados2['texto']
y = dados2['autor']

Counter(y)

Counter({0: 64, 1: 57})

# Métodos
Serão utilizados:
- contagem de n-gramas (CountVectorizer);
- algoritmo Random Forest

In [3]:
# Engenharia de características
from sklearn.feature_extraction.text import CountVectorizer

# Modelo
from sklearn.ensemble import RandomForestClassifier

# Métricas
from sklearn import metrics

Os n-gramas utilizados são de 4 a 6 caracteres.
O classificador Random Forest utilizará os parâmestros padrão.
O conjunto de dados será dividido em 80% de treinamento e 20% para teste.

In [4]:
vectorizer = CountVectorizer(ngram_range=(4,6), strip_accents='ascii', lowercase=True, analyzer='char')

classifier = RandomForestClassifier()

processado2 = vectorizer.fit_transform(dados2['texto'])

treinamento=0.8

denso = processado2.todense()
dados_train, dados_test = denso[:int(len(denso) * treinamento)], denso[int(len(denso) * treinamento):] 
y2 = dados2['autor']
resp_train, resp_test = y2[:int(len(y2) * treinamento)], y2[int(len(y2) * treinamento):] 

classifier = classifier.fit(dados_train,resp_train)




A seguir a predição é feita para o conjunto de testes e os resultados são exibidos.

In [5]:
%load_ext google.colab.data_table
pd.set_option('max_rows', 99999)

y_pred2 = classifier.predict(dados_test)

report=metrics.classification_report(resp_test,y_pred2)

print('Resultados para a Random Forest (n-gramas de caracteres)');
print(report)
print(y_pred2)
print(resp_test)

Resultados para a Random Forest (n-gramas de caracteres)
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        17
           1       1.00      1.00      1.00         8

    accuracy                           1.00        25
   macro avg       1.00      1.00      1.00        25
weighted avg       1.00      1.00      1.00        25

[0 0 1 0 1 0 0 1 1 1 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0]
96     0
97     0
98     1
99     0
100    1
101    0
102    0
103    1
104    1
105    1
106    1
107    0
108    0
109    0
110    1
111    0
112    1
113    0
114    0
115    0
116    0
117    0
118    0
119    0
120    0
Name: autor, dtype: int64




# Repentindo o processo para n-gramas de palavras

In [7]:
from nltk.corpus import stopwords
nltk.download('stopwords')

vectorizer = CountVectorizer(ngram_range=(1,3), stop_words=stopwords.words('portuguese'), strip_accents='ascii', lowercase=True, analyzer='word')

classifier = RandomForestClassifier()



processado2 = vectorizer.fit_transform(dados2['texto'])

treinamento=0.8

denso = processado2.todense()
dados_train, dados_test = denso[:int(len(denso) * treinamento)], denso[int(len(denso) * treinamento):] 
y2 = dados2['autor']
resp_train, resp_test = y2[:int(len(y2) * treinamento)], y2[int(len(y2) * treinamento):] 

classifier = classifier.fit(dados_train,resp_train)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
  % sorted(inconsistent)


In [8]:
%load_ext google.colab.data_table
pd.set_option('max_rows', 99999)

y_pred2 = classifier.predict(dados_test)

report=metrics.classification_report(resp_test,y_pred2)

print('Resultados para a Random Forest (n-gramas de palavras)');
print(report)
print(y_pred2)
print(resp_test)

The google.colab.data_table extension is already loaded. To reload it, use:
  %reload_ext google.colab.data_table
Resultados para a Random Forest (n-gramas de palavras)
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        17
           1       1.00      1.00      1.00         8

    accuracy                           1.00        25
   macro avg       1.00      1.00      1.00        25
weighted avg       1.00      1.00      1.00        25

[0 0 1 0 1 0 0 1 1 1 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0]
96     0
97     0
98     1
99     0
100    1
101    0
102    0
103    1
104    1
105    1
106    1
107    0
108    0
109    0
110    1
111    0
112    1
113    0
114    0
115    0
116    0
117    0
118    0
119    0
120    0
Name: autor, dtype: int64


