Su objetivo es la recogida de datos e identificación de patrones relativos a los contenidos de la web y a las búsquedas que se realizan sobre los mismos. Es decir son los datos reales que se entregan a los usuarios, los datos que almacenan los sitios web. La minería de contenidos consiste de datos desestructurados tales como texto libre, semi-estructurado como documentos HTML, y mas estructurados como datos en tablas o páginas generadas con datos de BD.
Existen dos grupos de estrategias sobre minería de contenidos: aquellas que minan directamente el contenido de los documentos y aquellas que mejoran en la búsqueda de contenidos.
Minería de estructura de la web
La minería de estructura intenta descubrir el modelo subyacente de las estructuras de los enlaces del web. El modelo se basa en la topología de los hiperenlaces con o sin la descripción de los enlaces. Este modelo puede ser usado para categorizar las páginas web y es útil para generar información tal como la similitud y relación entre diferentes páginas web. Es decir pretende revelar la estructura real de un sitio web a traves de la recogida de datos referentes a su estructura y, principalmente a su conectividad. Típicamente tiene en cuenta dos tipos de enlaces: estáticos y dinámicos.
Minería de uso de la web
La minería de uso intenta dar sentido a los datos y comportamientos generados en las sesiones de navegación del web. Es decir son aquellos datos que describen el uso al cual se ve sometido un sitio, registrado en los logs de acceso a de los servidores web. A partir de esta información se podría concluir, por ejemplo, que documento visitado no tiene razón de ser, o si una página no se encuentra en los primeros niveles de jerarquía de un sitio. Analizar los logs de diferentes servidores web, puede ayudar a entender el comportamiento del usuario, la estructura de la web, permitiendo de este modo mejorar el diseño de esta
colección de recursos.
No hay comentarios:
Publicar un comentario