Las actividades empresariales, gubernamentales y académicas casi siempre requieren la recopilación y el análisis de datos. Una de las formas de representar datos numéricos es a través de gráficos, histogramas y tablas. Estas técnicas de visualización permiten a las personas obtener una mejor comprensión de los problemas y encontrar soluciones. Las lagunas, clústeres y valores atípicos son características de los conjuntos de datos que influyen en el análisis matemático y son fácilmente visibles en las representaciones visuales.
Agujeros en los datos
Las lagunas se refieren a áreas faltantes en un conjunto de datos. Por ejemplo, si un experimento científico recolecta datos de temperatura en el rango de 50 grados Fahrenheit a 100 grados Fahrenheit, pero nada entre 70 y 80 grados, eso representaría un vacío en el conjunto de datos. Un diagrama de línea de este conjunto de datos tendría "x" para temperaturas entre 50 y 70 y nuevamente entre 80 y 100, pero no habría nada entre 70 y 80. Los investigadores pueden profundizar y explorar por qué ciertos puntos de datos no aparecen en una muestra recolectada.
Grupos aislados
Los grupos son grupos aislados de puntos de datos. Los gráficos de líneas, que son una de las formas de representar conjuntos de datos, son líneas con "x" marcas colocadas sobre números específicos para representar su frecuencia de ocurrencia en el conjunto de datos. Un clúster se representa como una colección de estas "x" marcas en un pequeño intervalo o subconjunto de datos. Por ejemplo, si los puntajes en el examen para una clase de 10 estudiantes son 74, 75, 80, 72, 74, 75, 76, 86, 88 y 73, la mayoría de las "x" en un diagrama de línea estaría en el 72- intervalo de puntuación de-76. Esto representaría un clúster de datos. Tenga en cuenta que la frecuencia para 74 y 75 es dos, pero para todos los demás puntajes, es uno.
En los extremos
Los valores atípicos son valores extremos: puntos de datos que se encuentran significativamente fuera de otros valores en un conjunto de datos. Un valor atípico debe ser significativamente menor o mayor que la mayoría de los números en un conjunto de datos. La definición de "extremo" depende de la circunstancia y el consenso de los analistas involucrados en la investigación. Los valores atípicos pueden ser puntos de datos incorrectos, también conocidos como ruido, o pueden contener información valiosa sobre el fenómeno que se está investigando y la metodología de recopilación de datos en sí. Por ejemplo, si los puntajes de las clases están en su mayoría en el rango de 70 a 80, pero un par de puntajes están en los bajos 50, esos pueden representar valores atípicos.
Poniéndolo todo junto
Gaps , valores atípicos y clústeres en conjuntos de datos pueden afectar los resultados del análisis matemático. Las lagunas y los clústeres pueden representar errores en la metodología de recopilación de datos. Por ejemplo, si una encuesta telefónica solo sondea ciertos códigos de área, como complejos de viviendas para personas de bajos ingresos o áreas residenciales suburbanas de alta gama, y no una amplia muestra representativa de la población, es probable que haya lagunas y conglomerados en los datos. . Los valores atípicos pueden sesgar el valor promedio o promedio de un conjunto de datos. Por ejemplo, el valor promedio o promedio de un conjunto de datos que consta de cuatro números, 50, 55, 65 y 90, es 65. Sin el valor atípico 90, sin embargo, la media es aproximadamente 57.