Iniciação Científica em Geração de Snippets Estruturados e Dependentes das Consultas

Tiago Pinho da Silva

Please use this identifier to cite or link to this item: http://riu.ufam.edu.br/handle/prefix/3158

metadata.dc.type:	Relatório de Pesquisa
Title:	Iniciação Científica em Geração de Snippets Estruturados e Dependentes das Consultas
metadata.dc.creator:	Tiago Pinho da Silva
metadata.dc.contributor.advisor1:	David Braga Fernandes de Oliveira
metadata.dc.description.resumo:	Para auxiliar o usuário a decidir quais documentos satisfazem suas necessidades de informação, as máquinas de busca apresentam um resumo de cada documento presente na lista de resposta. A geração desses resumos está entre os principais temas de pesquisa da área de recuperação de informação, uma vez que eles podem influenciar a percepção de relevância de um documento. Se um resumo de baixa-qualidade é gerado para um documento muito relevante, o usuário pode entender o documento como não relevante e não fazer acesso ao seu conteúdo, e vice-versa [Metzler & Kanungo, 2008]. Esses resumos são mais conhecidos como snippets, e geralmente são formados pela concatenação de sentenças extraídas dos documentos. Em geral, os métodos de geração de snippets possuem diferentes abordagens para ponderar as sentenças extraídas dos documentos. Os snippets podem ser independentes [Luhn, 1958; Gupta & Lehal, 2010] ou dependentes da consulta [Tombros & Sanderson, 1998; White et al., 2003]. No primeiro caso, os snippets são compostos de sentenças gerais presentes no documento, e são sempre os mesmos para todas as consultas submetidas. Apesar dessa abordagem ser uma das primeiras utilizadas em máquinas de busca, Tombros & Sanderson [1998] mostrou que ela não era efetiva. Haas et al. [2011] apresenta o conceito de resumos enriquecidos, que são snippets que incorporam informações multimídia, dados estruturados e metadados. Esta abordagem fornece elementos que dão aos usuários um melhor entendimento sobre as páginas para os quais apontam. Além disso, os snippets gerados a partir dessa técnica tendem a ser mais clicados pelos usuários dos que os snippets convencionais. Uma forma bastante simples de selecionar snippets enriquecidos é através das páginas de índice, que são páginas Web contendo resumos estruturados de outras páginas do mesmo Web site. A identificação da página de índice pode ser realizada heuristicamente. De um modo geral, essas páginas possuem um template bem definido, dados regularmente distribuídos, links para as páginas alvo e são visualmente diferentes das páginas para as quais apontam. Utilizar essas características pode ajudar a identificar as páginas de índice dentro de Web sites. Um problema com essa abordagem é que os resumos extraídos das páginas de índice são independentes das consultas dos usuários e, por conseguinte, são pouco efetivos. Desta forma, o objetivo deste projeto de PIBIC é criar uma técnica capaz de gerar resumos estruturados dependentes das consultas. A ideia é acoplar, em meio às informações dos resumos estruturados extraídos das páginas de índice, segmentos textuais da página de resposta que caracterizem a relação entre a página e a consulta em si.
Keywords:	Snippets estruturados Extração de informação
metadata.dc.subject.cnpq:	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
metadata.dc.language:	pt_BR
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal do Amazonas
metadata.dc.publisher.initials:	UFAM
metadata.dc.publisher.department:	Ciências da Computacao Instituto de Ciências Exatas
metadata.dc.publisher.program:	PROGRAMA PIBIC 2012
metadata.dc.rights:	Acesso Aberto
URI:	http://riu.ufam.edu.br/handle/prefix/3158
Issue Date:	31-Jul-2013
Appears in Collections:	Relatórios finais de Iniciação Científica - Ciências Exatas e da Terra

Files in This Item:

File	Size	Format
Relatorio_PIBIC-2012_Tiago_Pinho.pdf	592,3 kB	Adobe PDF	View/Open

Show full item record Recommend this item