Digital Library

cab1

 
Title:      CATEGORIZAÇÃO DE PÁGINAS WEB USANDO ELEMENTOS DO HTML
Author(s):      Oeslei Taborda Ribas, Celso Antônio Alves Kaestner
ISBN:      978-972-8939-95-3
Editors:      Cristiano Costa, Luis Bengochea Martínez, Flavia Maria Santoro e Pedro Isaías
Year:      2013
Edition:      Single
Keywords:      Categorização de Texto, Classificação na web, Aprendizagem de Máquina.
Type:      Full Paper
First Page:      29
Last Page:      36
Cover:      cover          
Full Contents:      click to dowload Download
Paper Abstract:      Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web tem adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo, no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações envolvendo o uso de diferentes marcadores HTML (HyperText Markup Language). Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto âncora - presente nos hyperlinks da página - nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%.
   

Social Media Links

Search

Login