Use este identificador para citar ou linkar para este item: http://riu.ufam.edu.br/handle/prefix/6404
Tipo de documento: Trabalho de Conclusão de Curso
Título: Estudo comparativo de desempenho de modelos de Embedding de Sentenças para agrupamento de artigos
Autor(a): Barbosa, Matheus Serrão Botto
Orientador(a): Carvalho, Moisés Gomes de
metadata.dc.contributor.referee1: Oliveira, David Fernandes de
metadata.dc.contributor.referee2: Souto, Eduardo James Pereira
Resumo: Neste trabalho é analisado o desempenho de modelos de Embedding de Sentenças para o problema de agrupamento de artigos. Foi desenvolvido um sistema de Web Scraping que realizou a coleta de 58716 metadados de artigos. Foi desenvolvido um sistema de análise de desempenho de modelos de Embedding de Sentenças com base no agrupamento utilizando o algoritmo K-Means que é treinado com a base de artigos coletados assim calculando as métricas dos grupos resultantes e verificando o impacto dos embedddings gerados por cada modelo. Os modelos analisados são Doc2Vet, InferSent, Sentence- BERT e Universal Sentence Encoder. Nos cenários definidos, que variam desde o uso das 9 classes de artigos para agrupamento com todas as 58716 amostras da base de dados até 2 classes de artigos com a limitação de 500 amostras por classe, o Universal Sentence Encoder apresentou melhores valores de v-measure e índice Rand ajustado.
Resumo em outro idioma: In this work, the performance of Sentece Embedding models for the article clustering problem is analyzed. A Web Scraping system was developed and collected 58716 article metadata. A performance analysis system of Sentece Embedding models was developed based on clustering using the K-Means algorithm that is trained with the base of collected articles and calculating the metrics of the resulting clust ers and verifying the impact of the embeddings generated by each model. The analyzed models were Doc2Vet, InferSent, Sentence-BERT and Universal Sentence Encoder. In the defined settings, which vary from using 9 classes with all 58716 samples from the database to 2 classes with a limitation of 500 samples per class, the Universal Sentence Encoder showed better values of v-measure and adjusted Rand index.
Palavras-chave: Embedding de Sentenças
Web Scraping
K-Means
Análise de desempenho
Área de conhecimento - CNPQ: CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
Idioma: por
País de publicação: Brasil
Faculdade, Instituto ou Departamento: EEM - Escola de Enfermagem de Manaus
metadata.dc.publisher.course: Engenharia da Computação - Bacharelado - Manaus
Tipo de acesso: Acesso Aberto
URI: http://riu.ufam.edu.br/handle/prefix/6404
Vocabulário controlado: Sistemas e Computacao
Aparece nas coleções:Trabalho de Conclusão de Curso - Graduação - Engenharias

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC_MatheusBarbosa.pdf1,47 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.