64ª Reunião Anual da SBPC

A. Ciências Exatas e da Terra - 2. Ciência da Computação - 2. Banco de Dados

ANÁLISE DOS MÉTODOS TRADICIONAIS DE RANKING PARA BUSCA NA WEB

Kleber Veiga Castro ¹
Lady Daiana de Oliveira Maia ²

1. Instituto de Ciências Exatas e Tecnologia, Universidade Federal do Amazonas - UFAM
2. Profa. Msc./ Orientadora - Instituto de Ciências Exatas e Tecnologia, Universidade Federal do Amazonas - UFAM

INTRODUÇÃO:

A web, atualmente, tornou-se um novo meio de divulgação de informações de alcance mundial e, conseqüentemente, um respiratório universal de conhecimento. Assim, a dinâmica, a abundância e a heterogeneidade das informações que compõem a web trazem consigo novos desafios relacionados à obtenção dessas informações. Diante deste cenário, surgiram alternativas para auxiliar o usuário a encontrar informações relevantes na web, ou seja, quando o usuário requisita uma informação em algum sistema de busca, como Google e Yahoo, a informação é selecionada através de um algoritmo, essa busca deve recuperá-las de maneira precisa e rápida. Esses algoritmos são denominados de algoritmos de análise de links. Sendo o algoritmo de PageRank e o HITS, dois dos métodos mais conhecidos. O PageRank foi descrito por Lawrence Page e Sergey Brin, que visa classificar as páginas Web em um nível de importância. O HITS, proposto por Jon Kleinberg, faz uma análise de ligação entre páginas e atribui um valor de autoridade e valores centrais (hub). Nesse contexto, o objetivo do trabalho é analisar os métodos tradicionais de ranking para busca na web, identificando os pontos críticos e comparando-os, isto é, estudar e comparar duas técnicas de computação de termos relevantes de páginas web.

METODOLOGIA:

Para elaboração deste trabalho foi realizada a pesquisa do tipo exploratória, prática e bibliográfica. Exploratória, pois no início deu-se ênfase à identificação do problema a ser solucionado através do estudo de técnicas para se computar a reputação de páginas web e seus termos relevantes. Posteriormente, procuraram-se métodos já aplicados ou estudados do problema, através de referências bibliográficas consultadas no intuito de embasar a escolha das soluções e a análise dos resultados oferecidos, caracterizando assim a pesquisa bibliográfica. Com o entendimento do problema e solução teórica definida, partiu-se para a interpretação dos dados, caracterizando uma pesquisa prática. Contudo, a medida de avaliação seguiu os critérios da métrica Normalized discount cumulative gain – NDCG desenvolvido para manipular múltiplos níveis de relevância e com o objetivo de fazer com que a diferença se torne visível na avaliação dos algoritmos e na qualidade dos resultados.

RESULTADOS:

As medidas mais comuns para avaliar o desempenho de um sistema computacional são tempo e espaço. Quanto menor o tempo de resposta de um sistema e quanto menor o espaço em memória utilizado, melhor o sistema é considerado. No entanto, para sistemas onde o objetivo é recuperar informações outras métricas devem ser utilizadas. Neste caso, usou-se a métrica Normalized discount cumulative gain (NDCG) onde a idéia da medida é baseada em duas regras: Documentos extremamente relevantes são mais importantes (valiosos) que documentos com relevância marginal; e Quanto mais baixa a posição do documento na lista ordenada (ranking), menor o valor deste documento para o usuário. Assim, dado um algoritmo de recuperação de informação, as medidas de avaliação devem quantificar a similaridade entre o conjunto de documentos recuperados e o conjunto de documentos considerados relevantes pelos especialistas. Isto fornece uma estimativa da qualidade do algoritmo de recuperação de informação avaliado. Portanto, os documentos recuperados são ordenados de acordo com a sua relevância em relação à consulta. Contudo, o objetivo da métrica utilizada é fazer com que esta diferença se torne visíveis na avaliação dos métodos, dando aos Sistemas de recuperação de Informação documentos relevantes para o usuário.

CONCLUSÃO:

Enfim, A Web consiste em um imenso repositório de informações que divergem em conteúdo e qualidade. Apesar da eficiência dos algoritmos, estudos recentes têm mostrado que a performance dos algoritmos está longe do ideal, pois a maioria dos sistemas de buscas ainda enfrenta vários problemas no momento de classificar as páginas de acordo com a necessidade do usuário, em outras palavras, retornar para o usuário a informação que ele necessita. Este trabalho proporcionou um melhor entendimento sobre os modelos de ranking padrão e dos resultados das consultas cada vez mais próximo a informação desejada pelo usuário. Assim, Buscou-se traçar um panorama das características dos sistemas de recuperação de informações, apresentando seus modelos de recuperação mais comuns. Contudo, os algoritmos estudados classificam as páginas Web, verificando o conteúdo das páginas e criando um ranking com o resultado da pesquisa, tendo os sites mais relevantes nos primeiros lugares e verificando que cada algoritmo tem-se vantagem e desvantagem na sua utilização.

Palavras-chave: Recuperação de Informação, Análise de Links, Métodos Tradicionais de Ranking.