El análisis de clúster es un método para organizar datos en grupos representativos en función de características similares. Cada miembro del clúster tiene más en común con otros miembros del mismo clúster que con miembros de los otros grupos. El punto más representativo dentro del grupo se llama centroide. Por lo general, esta es la media de los valores de los puntos de datos en el clúster.
Organice los datos. Si los datos constan de una sola variable, un histograma podría ser apropiado. Si hay dos variables involucradas, grafica los datos en un plano de coordenadas. Por ejemplo, si estaba mirando la altura y el peso de los escolares en un salón de clases, trace los puntos de datos para cada niño en un gráfico, con el peso siendo el eje horizontal y la altura siendo el eje vertical. Si se trata de más de dos variables, pueden ser necesarias matrices para mostrar los datos.
Agrupe los datos en grupos. Cada grupo debe consistir en los puntos de datos más cercanos a él. En el ejemplo de altura y peso, agrupe los puntos de datos que parecen estar juntos. La cantidad de clústeres y si cada punto de datos debe estar en un clúster puede depender de los propósitos del estudio.
Para cada clúster, agregue los valores de todos los miembros. Por ejemplo, si un grupo de datos constaba de los puntos (80, 56), (75, 53), (60, 50) y (68, 54), la suma de los valores sería (283, 213).
Divida el total entre la cantidad de miembros del clúster. En el ejemplo anterior, 283 dividido por cuatro es 70.75, y 213 dividido por cuatro es 53.25, por lo que el centroide del conglomerado es (70.75, 53.25).
Trace los centroides del grupo y determine si hay puntos más cercanos a un centroide de otro conglomerado de lo que son al centroide de su propio conglomerado. Si alguno de los puntos está más cerca de un centroide diferente, redistrúyalos al clúster que contiene el centroide más cercano.
Repita los pasos 3, 4 y 5 hasta que todos los puntos de datos estén en el clúster que contiene el centroide al que están más cerca .
Consejo
Si el centroide tiene que ser un punto de datos particular en lugar de un punto medio entre los datos, entonces la mediana se puede usar para determinarlo, en lugar de la media.