Su objetivo es la recogida de datos e identificación de patrones relativos a los contenidos de la web y a las búsquedas que se realizan sobre los mismos. Es decir son los datos reales que se entregan a los usuarios, los datos que almacenan los sitios web. La minería de contenidos consiste de datos desestructurados tales como texto libre, semi-estructurado como documentos HTML, y mas estructurados como datos en tablas o páginas generadas con datos de BD.
Existen dos grupos de estrategias sobre minería de contenidos: aquellas que minan directamente el contenido de los documentos y aquellas que mejoran en la búsqueda de contenidos.