miércoles, 25 de mayo de 2011

Cómo usar la hoja de cálculo para analizar datos y obtener estadísticas

Aunque existe software especializado en estadística como spss, statgraphics o minitab, no todos los usuarios necesitan la potencia de estos paquetes. las hojas de cálculo actuales cuentan con un elevado número de funciones y otras herramientas de análisis que le ayudarán a afrontar algunos cálculos estadísticos sencillos como, por ejemplo, contrastar hipótesis o predecir resultados. siguiendo la filosofía de esta sección, no pretendemos otra cosa que ofrecer al lector soluciones tipo how-to, quedando fuera de nuestro alcance la definición de los términos estadísticos que aquí utilizamos.

Cómo calcular estadísticas descriptivas básicas
Suponga que disponemos del número de visitas diarias en el mes de diciembre a la página web de PC World y a la de iWorld. Nuestro objetivo es compararlas y sacar algunas conclusiones, pero para ello es insuficiente realizar una media de visitas de ambas páginas. Piense que el promedio es muy sensible a los valores extremos y podríamos llegar a conclusiones erróneas. Lo más aconsejable es realizar una estadística descriptiva básica que nos informe, mediante resúmenes numéricos, de cómo se distribuyen estos datos respecto al centro y de su dispersión.
Dichos resúmenes pueden ser los que se ven en la tabla adjunta, en la que se supone que los datos sobre la página de PC World están en las celdas A3:A33 y las de iWorld en B3:B33.
En el resumen numérico podemos ver, por ejemplo, que la dispersión de datos es un poco mayor en las visitas de iWorld (tiene una desviación típica mayor) y que en el 75% de los días se concentran más visitas en PC World (2.787) que en iWorld (2.490).
Si utiliza Excel, es importante que active Herramientas para análisis en el menú Herramientas » Complementos para disponer de acceso a un paquete de funciones más completo y tener habilitado el menú Análisis de datos.
Además de las funciones vistas, Excel y Quattro Pro generan automáticamente un resumen descriptivo más completo seleccionando en el menú Herramientas » Análisis de datos » Estadística descriptiva y Herramientas Numéricas » Herramientas de análisis » Estadística descriptiva, respectivamente. En la figura adjunta puede ver el análisis de datos realizado por Excel (el de Quattro Pro es muy similar). Tenga en cuenta que Excel utiliza en el análisis de datos la cuasivarianza y la cuasidesviación típica, pero para el cálculo de la varianza y la desviación típica se deben utilizar las funciones VARP y DESVESTP.

Cómo dibujar un diagrama de cajas o boxplot en Excel
Una de las funciones comentadas anteriormente es Cuartil, que permite obtener los cinco números resumen de una distribución: mínimo, cuartil primero, la mediana (o cuartil segundo), cuartil tercero y el máximo. Recuerde que el mínimo se puede calcular como =cuartil(datos;0) y el máximo como =cuartil(datos;4).
Para representar gráficamente estos cinco números se utiliza el diagrama de cajas o boxplot. OpenOffice y Star­Office disponen de un tipo de gráfico similar denominado Diagrama de curso y la hoja de cálculo Quattro Pro cuenta con el de Máximos y mínimos. Desafortunadamente, no ocurre lo mismo con Excel.
En este truco aprenderá a crear un diagrama de cajas en Excel a partir de uno de líneas y para ello utilizaremos los datos del ejemplo presentado en el truco anterior. Tenga en cuenta que, para hacer el gráfico, es imprescindible que los cálculos estén situados en este orden: Cuartil primero, Mínimo, Cuartil segundo, Máximo y Cuartil tercero. Es decir, igual que aparece en la tabla adjunta.
Seleccione los datos a representar incluyendo los nombres de las funciones y los títulos de las columnas y elija en el menú Insertar » Gráfico. En el asistente actúe como con cualquier otro gráfico pero eligiendo el tipo Líneas y el cuarto subtipo (por defecto) e indicando que las series son en Filas (segundo paso del asistente).
Una vez generado el gráfico de líneas hágale estas modificaciones para transformarlo en un diagrama de cajas:
1. Con el objetivo de eliminar las líneas que unen los puntos de la misma serie, realice un doble clic en una línea (por ejemplo la del cuartil primero) y, en la solapa Tramas, seleccione la opción Ninguna del grupo Línea.
2. Repita la operación anterior con las series restantes hasta eliminar las cinco líneas.
3. Haga nuevamente doble clic en un punto cualquiera de las series para acceder al cuadro de diálogo Formato de la serie de datos, seleccione la solapa Opciones y marque las casillas Líneas de máximos y mínimos y Barras ascendentes o descendentes.

Cómo generar histogramas
Disponemos del tiempo de conexión en minutos de una muestra de cincuenta y cinco usuarios que navegaron por la página web de PC World y nos interesa conocer la distribución de las frecuencias. Por ejemplo, para averiguar qué porcentaje de la muestra estuvo conectado a la página treinta minutos como máximo.
Para ello generaremos automáticamente un histograma de frecuencias absolutas y frecuencias absolutas acumuladas junto con un gráfico que represente ambas. Previamente teclearemos en celdas contiguas los intervalos que queremos considerar. Por ejemplo si son de diez minutos y hasta 60 escribiremos: 10, 20, 30, 40, 50, 60, de tal manera que el histograma nos indicará cuántos usuarios se conectaron de 0 a 9 minutos, cuántos de 10 a 19, etc.





No hay comentarios:

Publicar un comentario