Iniciação Científica em Geração de Snippets Estruturados e Dependentes das Consultas

Tiago Pinho da Silva

Use este identificador para citar ou linkar para este item: http://riu.ufam.edu.br/handle/prefix/3158

Tipo de documento:	Relatório de Pesquisa
Título:	Iniciação Científica em Geração de Snippets Estruturados e Dependentes das Consultas
Autor(a):	Tiago Pinho da Silva
Orientador(a):	David Braga Fernandes de Oliveira
Resumo:	Para auxiliar o usuário a decidir quais documentos satisfazem suas necessidades de informação, as máquinas de busca apresentam um resumo de cada documento presente na lista de resposta. A geração desses resumos está entre os principais temas de pesquisa da área de recuperação de informação, uma vez que eles podem influenciar a percepção de relevância de um documento. Se um resumo de baixa-qualidade é gerado para um documento muito relevante, o usuário pode entender o documento como não relevante e não fazer acesso ao seu conteúdo, e vice-versa [Metzler & Kanungo, 2008]. Esses resumos são mais conhecidos como snippets, e geralmente são formados pela concatenação de sentenças extraídas dos documentos. Em geral, os métodos de geração de snippets possuem diferentes abordagens para ponderar as sentenças extraídas dos documentos. Os snippets podem ser independentes [Luhn, 1958; Gupta & Lehal, 2010] ou dependentes da consulta [Tombros & Sanderson, 1998; White et al., 2003]. No primeiro caso, os snippets são compostos de sentenças gerais presentes no documento, e são sempre os mesmos para todas as consultas submetidas. Apesar dessa abordagem ser uma das primeiras utilizadas em máquinas de busca, Tombros & Sanderson [1998] mostrou que ela não era efetiva. Haas et al. [2011] apresenta o conceito de resumos enriquecidos, que são snippets que incorporam informações multimídia, dados estruturados e metadados. Esta abordagem fornece elementos que dão aos usuários um melhor entendimento sobre as páginas para os quais apontam. Além disso, os snippets gerados a partir dessa técnica tendem a ser mais clicados pelos usuários dos que os snippets convencionais. Uma forma bastante simples de selecionar snippets enriquecidos é através das páginas de índice, que são páginas Web contendo resumos estruturados de outras páginas do mesmo Web site. A identificação da página de índice pode ser realizada heuristicamente. De um modo geral, essas páginas possuem um template bem definido, dados regularmente distribuídos, links para as páginas alvo e são visualmente diferentes das páginas para as quais apontam. Utilizar essas características pode ajudar a identificar as páginas de índice dentro de Web sites. Um problema com essa abordagem é que os resumos extraídos das páginas de índice são independentes das consultas dos usuários e, por conseguinte, são pouco efetivos. Desta forma, o objetivo deste projeto de PIBIC é criar uma técnica capaz de gerar resumos estruturados dependentes das consultas. A ideia é acoplar, em meio às informações dos resumos estruturados extraídos das páginas de índice, segmentos textuais da página de resposta que caracterizem a relação entre a página e a consulta em si.
Palavras-chave:	Snippets estruturados Extração de informação
Área de conhecimento - CNPQ:	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Idioma:	pt_BR
País de publicação:	Brasil
Editor:	Universidade Federal do Amazonas
Sigla da Instituição:	UFAM
Faculdade, Instituto ou Departamento:	Ciências da Computacao Instituto de Ciências Exatas
Nome do programa:	PROGRAMA PIBIC 2012
Tipo de acesso:	Acesso Aberto
URI:	http://riu.ufam.edu.br/handle/prefix/3158
Data do documento:	31-jul-2013
Aparece nas coleções:	Relatórios finais de Iniciação Científica - Ciências Exatas e da Terra

Arquivos associados a este item:

Arquivo	Tamanho	Formato
Relatorio_PIBIC-2012_Tiago_Pinho.pdf	592,3 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item