ESTADIGRAFOS

SEPTIMA LECTURA

Ávila Acosta R. “Estadística Elemental” Pág. 93-96

REDUCCIÓN DE DATOS GENERALIDADES: ESTADIGRAFOS

Los capítulos anteriores están referidos, con cierto detalle, a la clasificación de variables, recolección de datos, construcción de tablas de frecuencia y a la representación gráfica, como fase preliminar en la descripción y análisis estadístico. El objetivo principal de esta primera etapa, ha sido determinar la naturaleza y formas de la distribución de frecuencias, como base para la “reducción de los datos” a través de ciertas características descriptivas y medidas de resumen.

En el problema de comparar dos o más distribuciones de frecuencias, puede resultar fácil hacer una comparación gráfica de las frecuencias, sin embargo, existen dificultades para hacer comparaciones cuantitativas. Estadísticamente para facilitar este análisis comparativo es necesario disponer de algunos indicadores o medidas de resumen. Aún cuando la comparación de los histogramas (o gráficos) puede proporcionar valiosa información general, siempre es posible obtener información más precisa y útil, como la comparación directa de los datos tabulados (tablas de frecuencia) y mucho mejor si se dispone de elementos o valores representativos (medidas de resumen) del conjunto de observaciones.

Como respuesta, la Estadística plantea reducir los datos y sustituir toda la tabla de frecuencias por unos pocos valores representativos del conjunto, es decir, reemplazar la distribución de frecuencias por unas pocas características descriptivas de los aspectos fundamentales de la distribución considerada.

Estas características descriptivas (cantidad), constituyen los llamados ESTADÍGRAFOS, que son indicadores o medidas de resumen estadístico. Por tanto, en vez de comparar totalmente dos distribuciones de frecuencia o gráficos, sólo bastará comparar los estadígrafos de ambas distribuciones.
En general, para llegar a determinar los Estadígrafos se sigue el siguiente esquema:


De acuerdo al valor y naturaleza de la variable, se puede obtener diversas formas de distribución de frecuencia. Como “medidas de resumen” del comportamiento de estas distribuciones se definen cuatro tipos de estadígrafos:
a. De posición o tendencia central.
b. De dispersión o variabilidad.
c. De deformación o asimetría
d. De apuntamiento o Kurtosis.

ESTADIGRAFOS DE POSICIÓN O MEDIDAS DE TENDENCIA CENTRAL:

Los Estadígrafos, son indicadores ó medidas de resumen estadístico. Describen la posición que ocupa una distribución de frecuencia alrededor “de un valor” de la variable. Los estadígrafos no son valores determinantes, ni menos valores exactos, pero si los mas representativos de una variable.

Ver el esquema anterior para determinar los estadígrafos.
Las medidas de tendencia central mas utilizadas son 3:

1. LA MEDIA: es un indicador, que representa al conjunto de datos. Es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:
1.1. MEDIA PARA DATOS ORIGINALES O NO AGRUPADOS:
a) Media aritmética: es la más utilizada, es la suma de los valores entre el número total de datos.

X = . X1 + X2 + X3 + .....+ Xn-1 + Xn .
T

1.2. MEDIA PARA DATOS EN TABLAS O AGRUPADOS:

b) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:
X = (X1 * f1) + (X2 * f2) + (X3 * f3) + .....+ (Xn-1 * fn-1) + (Xn * fn)
T

NOTA 1: Otros tipos de media que se pueden utilizar según sea el caso son las siguientes:

c) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).

d) Media Ponderada: si cada uno de los datos tiene un peso o importancias relativas diferentes, la media se obtiene:
Xm = . (X1 * w1) + (X2 * w2) + (X3 * w3) + .....+ (Xn-1 * wn-1) + (Xn * wn)
W1 + W2 + W3 + ........+..Wn
Luego: W1, W2, W3,......, Wn, son los pesos de cada valor de la variable, este tipo de media ase emplea en el cálculo del promedio de ponderado de notas, etc.

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.

La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores.
En todo caso, la media aritmética es la medida de posición central más utilizada.

VENTAJAS Y DESVENTAJAS DE LA MEDIA ARITMÉTICA

La medida aritmética, en su carácter de un solo número que representa a un conjunto de datos completo, tiene importantes ventajas. Primero, se trata de un concepto familiar para la mayoría de las personas y es intuitivamente claro. Segundo, cada conjunto de datos tiene una media; es una medida que puede calcularse y es única debido a que cada conjunto de datos posee una y sólo una media, por lo que no se pierde ninguna información. Por último, la media es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.

Tabla 2.

Xi ACCIDENTES fi CRUCES Xi *fi Promedio = 406 / 100 = 4.06

INTERPRETACION:

El promedio de accidentes en diferentes cruces es de 4.
1 5 5
2 14 28
3 18 54
4 25 100
5 20 100
6 10 60
7 5 35
8 3 24
Total T = 100 406

Levin y Rubin “Estadísticas para Administradores” Pág. 86-87

TRES DESVENTAJAS DE LA MEDIA ARITMETICA:

Sin embargo, como cualquier medida estadística, la media aritmética presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

Una desventaja es que somos incapaces de calcular la media para un conjunto de datos que tiene intervalos de extremo abierto, ya sea en el inferior o en el superior de la escala.

SUGERENCIA

La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un grupo homogéneo. Es importante revisar los puntos de datos después de haber sido registrados (ya sea poniéndolos en una lista o representándolos gráficamente), y decidir si la media tendrá significado.

OCTAVA LECTURA

1. MEDIANA O VALOR MEDIANO: es un indicador, dicho valor de la serie de datos que se sitúa justamente en el centro de la muestra, luego de ordenarlos (un 50% de valores son inferiores y otro 50% son superiores).

1.1. DATOS ORIGINALES O NO AGRUPADOS:

1.1.1. NUMERO DE DATOS ES IMPAR: si tenemos un número de datos impar, primero se debe ordenar los datos, luego ubicar la posición central de los datos, este valor en la posición central será la mediana del conjunto de datos. Ejemplo: sean los datos: 6, 4, 5, 6, 3, 6, 4, 7, 6.

Primero ordenamos los 9 datos: 3, 4, 4, 5, 6, 6, 6, 6, 7. La mediana será igual a 6.

1.1.2. NUMERO DE DATOS ES PAR: si tenemos un número de datos Par, primero se debe ordenar los datos, luego ubicar los dos números en la posición central de los datos, y enseguida realizar el promedio de ellos, el resultado será la mediana del conjunto de datos. . Ejemplo: sean los datos: 6, 4, 5, 6, 3, 6, 4, 7.

Primero ordenamos los 8 datos: 3, 4, 4, 5, 6, 6, 6, 7. La mediana será igual a ( 5+6) /2 = 5.5.

1.2. DATOS EN TABLAS O AGRUPADOS: si los datos los presentamos en tablas de frecuencia, se pueden presentar para variables cuantitativas discretas y variables cuantitativas continuas. Veamos:

1.2.1. VARIABLE DISCRETA:

Caso 1. Si la mitad de los datos (T/2), se encuentra entre dos frecuencias acumuladas,
así: F(i-1) <> T/2
Mediana = Xi
Caso 2. Si la mitad de los datos (T/2), se igual a una frecuencia acumulada, así: F(i-1) = T / 2 < Fi : se debe tomar como la mediana de los datos, el valor promedio de los valores de las categorías Xi y X (i –1).
Mediana = ( Xi + X(i-1) ) / 2
1.2.2. VARIABLE CONTINUA: para obtener el valor de la mediana, emplearemos la siguiente fórmula, la forma de emplearla se explicará en clase.


Donde:
T : Total de elementos o datos.
Fi-1: Frecuencia acumulada del intervalo I i-1
fi : frecuencia simple, que corresponde al intervalo que contiene a la Mediana.
Li = Límite inferior que contiene a la Mediana.
A : Amplitud del intervalo.


VENTAJAS Y DESVENTAJAS DE LA MEDIANA

La mediana tiene varias ventajas con respecto a la media. La más importante de ellas, es que los valores extremos no afectan a la mediana tan intensamente como a la media. La mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos –incluso a partir de datos agrupados con clases de extremo abierto como la distribución de frecuencias de la tabla 3.7- a menos que la mediana entre en una clase de extremo abierto.

Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas como color o nitidez, en lugar de tener números. Suponga, por ejemplo, que tenemos tres tirajes de una prensa de imprenta, los resultados de éstos deben clasificarse de acuerdo con la nitidez de la imagen. Podemos ordenar los resultados desde mejor hasta peor: extremadamente nítida, muy nítida, ligeramente borrosa y muy borrosa. La mediana de las cinco clasificaciones es la (5 + 1)/2, es decir la tercera (nítida).

La mediana tiene también algunas DESVENTAJAS. Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos que utilizan la media. También, debido a que la mediana es una posición promedio, debemos ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier conjunto de datos que contenga un gran número de elementos. Por consiguiente, si deseamos utilizar una estadística de muestra para estimar un parámetro de población, la media es más fácil de usar que la mediana.

SUGERENCIA

La mediana es mucho mejor que la media aritmética para eliminar el efecto de uno o dos elementos “externos”: puntos de datos extremos. Cuando escuche que utilizan el término mediana, recuerde que se trata del punto en el que 50% de los valores estará por debajo y el otro 50% arriba.

3. MODA: es el tercer estadígrafo de posición que estudiaremos. Su determinación es muy sencilla.

3.1. DATOS ORIGINALES O NO AGRUPADOS

3.1.1. MODA: en este caso, es aquel valor de la variable que se repite mas veces en la muestra.

Ejemplo: sean los datos: 6, 4, 5, 6, 3, 6, 4, 7, 6.
La moda en este caso es 6, valor que mas se repite.

3.2. DATOS EN TABLAS O AGRUPADOS

3.2.1. VARIABLE DISCRETA: la moda es el valor de la categoría que tiene mayor frecuencia simple

3.2.2. VARIABLE CONTINUA: para obtener el valor de la Moda, se pueden obtener de dos formas. La primera es obtener el punto medio ó marca de clase del intervalo que presente la mayor frecuencia.
Y la segunda emplearemos la siguiente fórmula:


donde:
d1 = fi max – f a.
fi max = frecuencia máxima
f a = frecuencia anterior en posición a la fimax.
f s = frecuencia siguiente en posición a la fimax.
d2 = fi max – f s
Li = Límite inferior del intervalo, que contiene a la Moda.
A = Amplitud del intervalo que contiene a la Moda.

DISTRIBUCIONES MULTIMODALES

¿Qué sucede cuando tenemos dos valores diferentes y cada uno parece ser el número mayor de veces que aparece un valor en un conjunto de datos? En la tabla 3-15 se muestran los errores de facturación en un período de 20 días cometidos en las oficinas administrativas de un hospital. Observe que tanto 1 como 4 parecen ser el número mayor de errores del conjunto de datos. Ambos aparecen tres veces. Esta distribución, entonces, tiene dos modas y se le conoce como distribución bimodal.

En la figura 3-6, hemos representado gráficamente los datos de la tabla 3-15. Observe que hay dos puntos que son los más altos de la gráfica. Se presentan con los valores correspondientes a 1 y 4 errores de facturación. La distribución de la figura 3-7 se conoce también como bimodal, aunque en este caso los dos valores más altos no sean iguales. Es claro que estos puntos están por encima de los valores que les rodean con respecto a la frecuencia con que son observados.

Nro de Errores 0 1 2 3 4 5 6 7 8 9 10 11 12

Frecuencia 2 3 1 0 3 1 2 1 2 2 1 0 2
Figura 3.6


VENTAJAS Y DESVENTAJAS DE LA MODA

Ventajas de la moda:

La moda, al igual que la mediana, se puede utilizar como una posición central para datos tanto cualitativos como cuantitativos. Si una prensa estampa cinco impresiones que podemos clasificar como “muy nítida”, “nítida”, “nítida”, “nítida” y “borrosa”, entonces el valor modal es “nítida”. De manera análoga, podemos hablar de estilos modales cuando, por ejemplo, los clientes de una mueblería prefieren muebles tipo “colonial” sobre cualquier otro estilo.

También, al igual que la mediana, la moda no se ve mayormente afectada por los valores extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos el valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la oda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de datos, e independientemente de cuál sea su dispersión.

Una tercera ventaja de la moda es que la podemos utilizar aun cuando una o más clases sean de extremo abierto. Note, por ejemplo, que la tabla 3-14 contiene la clase de extremo abierto “12 viajes y más”.

Desventaja de la moda:

A pesar de estas ventajas la moda no se utiliza con tanta frecuencia como medida de tendencia central, como se hace con la media y la mediana. Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene valores que se presenten más de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo número de veces. Resulta claro que la moda es una medida inútil en tales casos. Otra desventaja consiste en que cuando los conjuntos de datos contienen dos, tres o más modas, resultan difíciles de interpretar y comparar.

NOVENA LECTURA:

COMPARACIÓN DE LA MEDIA, LA MEDIANA Y LA MODA

La media, la mediana y la moda son idénticas en una distribución simétrica:

Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la mediana o la moda como medidas de tendencia central. Las distribuciones simétricas que sólo contienen una moda, siempre tienen el mismo valor para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central, pues ya está hecha la selección.

En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la mediana. Aquí se cumple la siguiente relación:

Moda es menor que la Mediana, y la Mediana es a su vez menor que la Media Aritmética

En una distribución negativamente sesgada (es decir, sesgada hacia la izquierda), la moda sigue siendo el punto más alto de la distribución, la mediana está hacia la izquierda de aquélla y la media se encuentra todavía más a la izquierda de la moda y la mediana. Aquí se cumple la siguiente relación:

Media Aritmética es menor que la Mediana, y la Mediana es a su vez menor que la Moda


LA MEDIANA PUEDE SER LA MEJOR MEDIDA DE POSICIÓN EN DISTRIBUCIONES SESGADAS:

Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la media.

En cualquier otro caso, no existe guías universales para la aplicación de la media, la mediana o la moda como medidas de tendencia central para diferentes poblaciones. Cada caso deberá considerarse de manera independiente, de acuerdo con las líneas generales que hemos analizado.

SUGERENCIA

La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica común de una industria en particular. Con frecuencia se habla del salario de fábrica promedio (media aritmética) y éste puede ser de utilidad para tomar muchas de las decisiones en la planeación de negocios. Pero el precio mediano de una casa nueva es una estadística más útil para personas que se mudan a un nuevo vecindario (evita el problema causado por la presencia de una o dos crestas que pueden distorsionar la media). Y mientras que la familia promedio conste de 1.7 niños, tiene más sentido para los diseñadores de automóviles pensar en la familia modal –con dos niños- cuando planean el diseño de automóviles nuevos.


DECIMA LECTURA

Avila Acosta R. “Estadística Elemental”. Pág. 121-130

CUANTILES Cj

Son indicadores que dividen en porcentajes iguales, al conjunto de datos previamente ordenados, de menor o mayor o viceversa. Emplearemos una fórmula general bastante fácil de aplicar, para variables CUANTITATIVAS CONTINUAS (en tablas de frecuencias):


J = es el valor a calcular, sea el cuartil, decil o percentil
T = Total de elementos o datos.
K = es la división del conjunto de datos.
Fi-1: Frecuencia acumulada del intervalo I i-1
fi : frecuencia simple, que corresponde al intervalo que contiene a Cj.
Li = Límite inferior que contiene a Cj
A : Amplitud del intervalo.

NOTA

1.- Los cuantiles muestran su importancia cuando se tienen mas de 50 datos para una variable.

2.- El procedimiento para calcularlos para una variable Cuantitativa DISCRETA, es diferente al de una variable cuantitativa continua.
3.- Si se tiene los datos originales también puede calcularse dichos cuantiles. Mediante otro procedimiento.

CUARTILES: ( Cj ): C1 , C2 y C3

Las cuartiles son estadígrafos de posición que dividen al total de las observaciones, debidamente ordenados o tabulados, en cuatro partes de igual tamaño. Esto significa que entre dos cuartiles consecutivas se encuentren no más del 25% del total de las “T” observaciones.

Supongamos que se ubican ordenadamente, en línea recta, los “T” valores de la variable Xi entonces resulta un segmento que se inicia en el menor valor Vmin y termina en el mayor valor Vmax.


El problema es dividir los datos ordenados en cuatro subconjuntos iguales gráficamente dividir el segmento (Vmax, Vmin) en cuatro partes iguales. Para lograr este objetivo se requiere definir tres puntos, los valores de estos puntos definen los Cuartiles. Entonces existen 3 cuartiles.

a) PRIMER CUARTIL O CUARTILA INFERIOR C1

Es un valor que supera a no más del 25% de la T observaciones y que es superado por no más del 75% de la n observaciones. En otras palabras el 25% de las observaciones tienen valores inferiores o iguales a C1, en tanto que el 75% restante tienen valores superiores a C1.

b) SEGUNDA CUARTIL O CUARTILA MEDIANA C2 = ME

Es un valor que está en el centro, y por lo tanto coincide con la mediana C2 = Me.

c) TERCERA CUARTIL O CUARTILA SUPERIOR C3 = ME

Es un valor que supera a no más del 75% de la T observaciones y que es superado por no más de 25% de la T observaciones. Es decir, que el 75% de las observaciones tienen valores inferiores o iguales a C3 y el 25% restante tienen valores superiores a C3.

Ejemplo:

Se tiene un conjunto de datos referentes a los gastos en publicidad de un grupo de empresas
Nos interesa calcular las cuartiles inferior (C1) y el cuartil superior (C3).
La tabla de frecuencias es la siguiente:


TABLA DE RESULTADOS PARA CALCULAR LOS CUARTILES: 1, 2 Y 3

J 1 2 3
K 4
J*T/K 12.5 25.0 37.5
Fi 14.0 34.0 42.0
Fa 4 22 34
fi 10 12 8
Li 14 30 38
A 8 8 8
CUARTILES 20.80 32.00 41.50

Cálculo del Primer cuartil empleando la fórmula general:

C1 = 14 + (12.5 – 4)*8 / 10 = 20.8

INTERPRETACIÓN DE C1

Significa que el 25% del total de Empresas, es decir 12 de ellos invierten en publicidad 28,000 dólares o menos, y las 38 restantes, o sea el 75% de Empresas, gastan más de 28,000dólares en publicidad.

LOS DECILES (Dj): (DATOS AGRUPADOS-TABLAS)

Los Deciles son estadígrafos de posición que dividen al total de las observaciones en 10 partes iguales, tal que entre dos deciles consecutivas se encuentre no más del 10% del total de las observaciones. n total hay nueve deciles: d1, d2, d3, d4, ......., d9. en este caso j = 1, 2, 3, .....,8 , 9. se empleará la fórmula general anteriormente dada::
Forma gráfica como dividen los deciles a un grupo de datos, en 10 partes de igual porcentaje.



TABLA DE RESULTADOS PARA CALCULAR LOS DECILES: 1 Y 7

J 1 J 7
K 10 K 10
J*T/K 5.0 J*T/K 35
Fi 14.0 Fi 42
Fa 4 Fi-1 34
fi 10 fi 8
Li 14 Li 38
A 8 A 8.00
DECIL 1 14.80 DECIL 7 39.00

DECIL 1: D1 = 14 + (5 – 4 )* 8 /10 = 14.8

El 10% de la empresas gasta 14,800 dólares o menos en inversión de publicidad, y el 90% restante de las empresas gasta más de 14,800 dólares.

LAS QUINTILAS

Las quintilas son estadígrafos de posición que dividen al total de las observaciones en 5 partes iguales, es decir que entre dos quintilas consecutivas se encuentre no más del 20% del total de la n observaciones.
Existen 4 quintilas:

Las fórmulas para calcular las quintiles con datos agrupados son similares a las deciles, cuartiles, etc

LOS PERCENTILES O CENTILAS: Pj (EN TABLAS DE FRECUENCIAS)

Los percentiles son estadígrafos de posición que dividen a la totalidad de observaciones en 100 partes iguales; es un estadígrafo que da una idea porcentual de la distribución de los datos. Los percentiles se aplican cuando existen una gran cantidad de valores de las variables con una alta frecuencia total. El cálculo se realiza de igual manera que la mediana, cuartiles, etc.

En general un percentil cualquiera es: J = 1, 2, 3, 4, ............, 98, 99 se pueden calcular 99 percentiles, empleando la fórmula general dada anteriormente
Un ejemplo es la distribución por edades de la población de un país o departamento, en donde se puede hablar de 99 edades.

Ejemplo Calcular los percentiles P25, P40 y P72 para la población del Perú según edades, para 1995.

POBLACIÓN DEL PERÚ SEGÚN GRUPOS DE EDAD. 1995.

GRUPOS DE EDAD MARCA DE CLASE POBLACIÓN ni POBLACIÓN
ACUMULADA

0 – 4
5 – 9
10 – 14
15 – 19
20 – 24
25 – 29
30 – 34
35 – 39
40 – 44
45 – 49
50 – 54
55 – 59
60 – 64
65 – 69
70 – 74
75 – 79
80 y más 2,5
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
47,5
52,5
57,5
62,5
67,5
72,5
77,5 2902335
2835701
2714672
2581888
2277913
1969288
1696666
1405236
1176631
954472
783348
664829
544009
408244
285627
184745
146097 2902335
5738036
8452708
11034596
13312509
15281797
16978463
18383699
19560330
20514802
21298150
21962979
22506988
22915232
23200859
23385604
23531701
TOTAL m = 17 n = 23531701

Fuente: INEI, UNFPA. Proyecciones de Población del Perú. 1995 – 2025 Boletín de Análisis Demográfico N° 34
Luego algunos percentiles:
144889
P25 = 10 + 5 ( -------------- ) P25 = 10,27
2714672

959972
P40 = 15 + 5 ( -------------- ) P40 = 16,86
2581888

1661028
P72= 30 + 5 ( -------------- ) 34,85 años
1696666


DECIMO PRIMERA LECTURA: ESTADIGRAFOS DE DISPERSION
Levin y Rubin “Estadística para Administradores” Pág. 110-111

DISPERSIÓN: POR QUÉ ES IMPORTANTE

NECESIDAD DE MEDIR LA DISPERSIÓN A LA VARIABILIDAD:
Al inicio ejemplificamos dos conjuntos de datos con la misma posición central, pero uno con mayor dispersión que el otro. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información de lo que necesitamos saber acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.

USOS DE LAS MEDIDAS DE DISPERSIÓN:

¿Por qué la dispersión de la distribución es una característica tan importante para entender y medir? Primero, nos proporciona información adicional que nos permite juzgar la confiabilidad de nuestra medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos, como un todo, que cuando éstos se agrupan más estrechamente alrededor de la media. Segundo, ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de poder abordar esos problemas. Tercero, quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto del centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger las distribuciones que tengan las dispersiones más grandes.
Una medicina cuya pureza promedio es buena, pero que oscila desde muy pura hasta altamente impura puede ser peligrosa para la vida humana.

SUGERENCIA

Un asiento para un automóvil diseñado para que se ajuste perfectamente al conductor “promedio” puede resultar incómodo para gran cantidad de conductores. Muchas decisiones acerca de negocios implican tomar en cuenta la dispersión de los datos.

ESTADIGRAFOS DE DISPERSIÓN Ó VARIABILIDAD

Son un complemento obligado de las medidas de tendencia central en el análisis Estadísticos al estudiar un conjunto de datos ordenados, el Promedio aritmético (X), la Mediana (Me) y la Moda (Mo), sólo nos revelan una parte de la información, de lo que necesitamos saber acerca de las características de los datos, para determinar como se distribuyen los datos estudiaremos las Medidas de Dispersión ó variabilidad, los que miden el grado de separación de los datos con respecto a un valor central que generalmente es la MEDIA aritmética. Las calcularemos si las variables son cuantitativas.

Las Principales Medidas de Dispersión son:
a) Recorrido ó Rango (R)
b) Desviación Media (D.M)
c) Desviación Cuartil (D Q) ó Rango Inter Cuartil
d) La Varianza (C.V)
e) Desviación Estándar (DE)
f) COEFICIENTE DE VARIACIÓN (C.V.)

A) RECORRIDO Ó RANGO (R): Es la diferencia entre el valor máximo y el valor Mínimo de las observaciones. R = Vmax - Vmin.
Está medida de dispersión es muy inestable, ya que sólo toma los 2 valores extremos, no toma en cuenta como se distribuyen los datos entre el mínimo y el máximo.
NOTA: En una tabla con intervalos, el Recorrido es la diferencia. Entre él limite superior de último intervalo y él limite inferior del primer intervalo.


DECIMO SEGUNDA LECTURA:

B) DESVIACIÓN MEDIA (D. M.): Es el promedio delos valores absolutos de las desviaciones de los datos respecto a la media Aritmética.

B.1 PARA DATOS ORIGINALES (ó No Agrupados) B.2.PARA DATOS AGRUPADOS (EN TABLAS)


= Valor Absoluto
X i = iésimo dato o elemento del conjunto de datos
X = media aritmética
T = Total de elementos ó datos = Valor Absoluto
X i = iésima categoría de la variable.
X = media aritmética
fi = frecuencia simple
T = Total de elementos ó datos


C) DISPERSIÓN CUARTIL (D .C): Es la diferencia que existe entre los cuartiles 3 y 1, se recomienda su uso cuándo se haya empleado a la mediana, como la medida más adecuada.


NOTA:
Se puede considerar al promedio de C3 y C1, como una medida de tendencia central, que permitirá conocer un valor aproximado de la media o sueldo promedio.

DECIMO TERCERA LECTURA

D) LA VARIANZA: se representa por una S 2 o una V.
Es una medida que cuantifica el grado de DISPERSIÓN o VARIACIÓN de los valores de una variable cuantitativa, con respecto a su media aritmética. (es el promedio de las desviaciones al cuadrado de los datos, con respecto a la media aritmética).
La varianza siempre es positiva.

CASO 1: DATOS ORIGINALES CASO 2: DATOS AGRUPADOS


∑ = suma total
T = TOTAL DE DATOS
X = Promedio aritmético para datos originales
∑ = suma total
T = TOTAL DE DATOS
Xi = en un variable discreta es cada una de las categorías, y en un variable continua es la marca de clase cada intervalo.
X = Promedio aritmético para datos agrupados
fi = frecuencia simple

PROPIEDADES DE la VARIANZA
1) La Varianza siempre es mayor ó igual a cero
2) La Varianza de una constante es igual a cero si los datos son iguales, no existe dispersión entre ellos.
3) Si se suma ó resta un mismo numero, a cada uno de los datos, la Varianza es igual a la varianza original.
Si K es una constante V(x +- k) = V(x)
4) Si a cada dato se multiplica por un numero, la Varianza es: S2 = K2 x S 2

E) DESVIACIÓN ESTANDAR (DE).- Es la raíz cuadrada de la VARIANZA.

Es la medida que más se emplea en la interpretación de los datos, pues es una medida de dispersión en las unidades originales.
Si la D.E: es pequeña, la media representa fielmente los valores individuales y es lo suficientemente confiable, para que sea un buen estimador de la media de la población.
Si la D.E. es grande, el promedio es poco confiable, a menos que la muestra sea grande, en estos casos diremos que las observaciones son muy variables ó heterogéneas (presentan dispersión).

0 comentarios:

Publicar un comentario

 
©2009 LEO LABOR | by TNB