Please use this identifier to cite or link to this item:
http://riu.ufam.edu.br/handle/prefix/6404
metadata.dc.type: | Trabalho de Conclusão de Curso |
Title: | Estudo comparativo de desempenho de modelos de Embedding de Sentenças para agrupamento de artigos |
metadata.dc.creator: | Barbosa, Matheus Serrão Botto |
metadata.dc.contributor.advisor1: | Carvalho, Moisés Gomes de |
metadata.dc.contributor.referee1: | Oliveira, David Fernandes de |
metadata.dc.contributor.referee2: | Souto, Eduardo James Pereira |
metadata.dc.description.resumo: | Neste trabalho é analisado o desempenho de modelos de Embedding de Sentenças para o problema de agrupamento de artigos. Foi desenvolvido um sistema de Web Scraping que realizou a coleta de 58716 metadados de artigos. Foi desenvolvido um sistema de análise de desempenho de modelos de Embedding de Sentenças com base no agrupamento utilizando o algoritmo K-Means que é treinado com a base de artigos coletados assim calculando as métricas dos grupos resultantes e verificando o impacto dos embedddings gerados por cada modelo. Os modelos analisados são Doc2Vet, InferSent, Sentence- BERT e Universal Sentence Encoder. Nos cenários definidos, que variam desde o uso das 9 classes de artigos para agrupamento com todas as 58716 amostras da base de dados até 2 classes de artigos com a limitação de 500 amostras por classe, o Universal Sentence Encoder apresentou melhores valores de v-measure e índice Rand ajustado. |
Abstract: | In this work, the performance of Sentece Embedding models for the article clustering problem is analyzed. A Web Scraping system was developed and collected 58716 article metadata. A performance analysis system of Sentece Embedding models was developed based on clustering using the K-Means algorithm that is trained with the base of collected articles and calculating the metrics of the resulting clust ers and verifying the impact of the embeddings generated by each model. The analyzed models were Doc2Vet, InferSent, Sentence-BERT and Universal Sentence Encoder. In the defined settings, which vary from using 9 classes with all 58716 samples from the database to 2 classes with a limitation of 500 samples per class, the Universal Sentence Encoder showed better values of v-measure and adjusted Rand index. |
Keywords: | Embedding de Sentenças Web Scraping K-Means Análise de desempenho |
metadata.dc.subject.cnpq: | CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO |
metadata.dc.language: | por |
metadata.dc.publisher.country: | Brasil |
metadata.dc.publisher.department: | EEM - Escola de Enfermagem de Manaus |
metadata.dc.publisher.course: | Engenharia da Computação - Bacharelado - Manaus |
metadata.dc.rights: | Acesso Aberto |
URI: | http://riu.ufam.edu.br/handle/prefix/6404 |
metadata.dc.subject.controlado: | Sistemas e Computacao |
Appears in Collections: | Trabalho de Conclusão de Curso - Graduação - Engenharias |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TCC_MatheusBarbosa.pdf | 1,47 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.