Sie sind auf Seite 1von 10

ESTADSTICA DESCRIPTIVA Problemas PROBLEMAS PROPUESTOS 1.

Demostrar que si se multiplican todos los valores de una variable por k > 0, la media y la desviacin tpica tambin quedan multiplicados por k. 2. Demostrar que si se construye una variable z mezclando n valores de x y m valores de la variable y se tiene que n m z = x + y . n+m n+m 3. Para la produccin de cierta aleaccin metlica es muy importante tener controlada la temperatura del horno donde se realiza la aleaccin. En el horno hay instalados 14 termopares de wolframio (los termopares de wolgframio son unos termmeros que permiten medir la temperatura por encima de los 1000o C). En un instante dado, las mediciones de temperatura realizadas por todos los 14 termopares (xi , i = 1, ..., 14) tienen las siguientes medidas caractersticas: x = 1651o C 2 sx = 298, 7o C 2 sx = 17.28o C o Mediana = 1652, 3o C Q1 = 1638o C Q3 = 1663o C

Rango = 87, 07 C

Si se sabe que la temperatura real es un 5% superior a la que miden los termopares, indicar cules seran las medidas caractersticas de las temperaturas reales en grados Kelvin (o K=o C+273). SOLUCIN: Si llamamos yi a las temperaturas reales en grados Kelvin de cada termopar, se tiene que: y = 2006, 5o K
o 2 s2 y = 329 K ;

sy = 18, 1o K ; Rango = 91.4o K Mediana = 2019.1o K. 4. Un medio de comunicacin realiza un estudio en el que se concluye que los espaoles nos gastamos una media de 400 euros per cpita en navidades. Por otra parte, los economistas nos dicen que la distribucin del gasto per cpita de cualquier bien sigue una distribucin unimodal asimtrica positiva. Qu pensar entonces la mayora de espaoles ante la informacin del gasto medio que dice el medio de comunicacin?Les parecer que exageran o les parecer que se han quedado cortos en su apreciacin del gasto? SOLUCIN: A la mayora de los espaoles les parecer muy alta. 5. Se tienen n artculos manufacturados, de los cuales d son defectuosos y n d son aceptables. Asignamos a cada artculo una variable x que toma valor 1 si el artculo es aceptable y 0 si es defectuoso. Demuestra que x es la proporcin de artculos aceptables. 6. Cul de las siguientes armaciones es ms correcta? (a) Si un conjunto de datos tiene CA>0, su histograma mostrar una asimetra positiva (b) Si un histograma muestra una asimetra positiva, se tendr que CA>0 7. Justica si las siguientes armaciones son verdaderas o falsas sobre un conjunto cualquiera de datos. 1

(a) Es posible que la mayora de los datos estn por debajo de la media. (b) Es imposible que la mayora de los datos estn por encima de la media. (c) Cuando hay asimetras positivas la mayora de los datos estarn por debajo de la mediana. (d) Cuando en un histograma se ve ms de un intervalo modal, es indicio de que hay valores atpicos. (e) En un conjunto de datos donde la media vale 100, el mximo 300 y el mnimo 0, nos dicen que hay un valor atpico. Es obvio que ser el 300. (f) Moviendo un solo dato podemos aumentar la varianza todo lo que queramos. (g) Moviendo un solo dato podemos aumentar la meda todo lo que queramos. 8. Qu opinin te merece el siguiente box-plot?

9. Un analista propone la siguiente medida de dispersin para un conjunto de datos x1 , ..., xn Pn (xi x ) D = i=1 n Demuestra que D = 0 para cualquier conjunto de datos Que opinin te merece esta medida de dispersin de los datos? 10. Un ordenador recibe datos de un sensor que controla un proceso productivo. Cada vez que recibe un dato, calcula la media aritmtica de todos los datos recibidos hasta ese momento. Esta forma de operar puede ser poco eciente cuando el nmero de observaciones sea ya muy elevado, pues tendr que almacenar todos los datos y luego sumarlos. El problema se agrava si ese ordenador recibe informacin de muchos sensores, con lo que a partir de cierto momento puede tener problemas de memoria y de tiempo de ejecucin. Se necesita entonces calcular la media haciendo el mnimo nmero de operaciones posible y con unos requerimientos de memoria mnimos. Llamemos x n a la media de n observaciones y x n1 a la media con slo n 1 observaciones. Demuestra que x n se puede calcular de forma recursiva como x n = x n1 + 1 n1 ) , (xn x n (1)

y por tanto no hace falta almacenar todos los datos, sino slo dos: x n1 y n. El nmero de operaciones es tambin mucho menor que un clculo que no sea recursivo. 11. Una mquina ha producido 1.837.554 piezas iguales. El 80% de dichas piezas no tenan ningn defecto, el 10 % de las piezas tena un defecto, el 7% de las piezas tena 2 defectos, y el restante 3% tena 3 defectos. Cuantos defectos por artculo ha producido esta mquina por trmino medio? SOLUCIN: x = 0.33 defectos/artculo 12. Decir si las siguientes armaciones sobre un conjunto de datos positivos son verdaderas o falsas (a) Si tomamos el logaritmo neperiano la media cambia pero la mediana no (b) Como el logaritmo no altera el orden de los datos, el rango ser el mismo (c) Si tomamos el logaritmo, aumentar el coeciente de asimetra 2

(d) Los datos transformados por una transformacin logartmica sern siempre simtricos (e) Si tenemos n intervalos modales, habr que hacer la transformacin xn para eliminarlas 13. Se tiene un programa que realiza un conjunto de operaciones con una lista de n objetos. Se ejecuta el programa 15 veces usando diferente nmero de objetos cada vez, y contabilizndose el tiempo T (segundos) que se tard en realizar esa tarea. Como el ordenador tiene que atender a otras tareas aparte de nuestro programa, si se ejecuta dos veces el programa con el mismo valor de n no ser igual. La tabla siguiente muestra el nmero n de objetos en la lista en cada ejecucin y el tiempo T que el programa tard en ordenar esos n elementos. La gura muestra el diagrama de dispersin de esos datos n 65 118 116 66 114 30 60 106 25 38 45 44 85 52 44 T 208 327 352 162 196 91 225 305 85 127 138 161 244 178 156 = 203.67; corr(n, T ) = 0.972;var(n) = 1060;var(T ) = 7254 n = 67.2; T
400 350

Tiempo de ejecucin

300 250 200 150 100 50 20

40

60

80

100

120

Tamao de la lista

Se pide: (a) Cunto tiempo esperaremos que dure el programa usando n =90 elementos? (b) Si queremos que el programa tarde menos de 100 segundos en hacer la tarea, qu tamao mximo de la lista deberemos emplear? SOLUCIN: (a) 261.58 sg (b) 36 elementos. 14. Demuestra que el coeciente b de la pendiente de la recta de regresin y = a + bx cumple que b = corr(x, y ) sy sx

15. Sean (x1 , y1 ), ..., (xn , yn ) un conjunto de n pares de puntos de variables postivas (es decir, xi > 0, yi > 0), y que verican que corr(x, y ) < 0. Cul de las siguientes rectas de regresin puede corresponder a estos datos? (a) y = 10 + 5x (b) y = 10 5x (d) y = 10 + 5x SOLUCIN: Slo la c) (a) PROBLEMAS RESUELTOS 3 (c) y = 10 5x

16. La siguiente tabla muestra el gasto semanal en fotocopias (pesetas) de 70 estudiantes universitarios de la misma titulacin.
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) (17) (18) 15 50 100 110 115 115 115 120 125 140 140 150 150 165 175 185 200 200 (19) (20) (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) (31) (32) (33) (34) (35) (36) 210 210 215 215 215 220 220 225 245 250 250 275 280 280 285 300 300 325 (37) (38) (39) (40) (41) (42) (43) (44) (45) (46) (47) (48) (59) (50) (51) (52) (53) (54) 350 360 370 380 400 410 410 430 455 475 480 500 500 500 510 510 520 520 (55) 525 (56) 550 (57) 550 (58) 575 (59) 600 (60) 600 (61) 650 (62) 700 (63) 700 (64) 730 (65) 760 (66) 800 (67) 900 (68) 1000 (69) 1000 (70) 1200

Se pide (utiliza ordenador; chero: fotocopias.sf3): (a) Calcular media desviacin tpica, cuartiles y el rango intercuartlico. (b) Calcula los percentiles 5 10 y 90. (c) Construir un diagrama de cajas. (d) Hacer un histograma de los datos. (e) Realizar una transformacin logartmica a los datos y construir el nuevo diagrama de cajas e histograma. Comentar las diferencias con los construidos anteriormente. SOLUCION: (a) Se dene media aritmtica (o simplemente media) para un conjunto de n datos numricos x1 , x2 , ..., xn como: Pn xi x = i=1 , n para los datos del enunciado resulta x = 383 ptas. La desviacin tpica para dicho conjunto de datos es: s Pn )2 i=1 (xi x s= = 246.81 ptas. n Este valor no es el mismo que el que proporcionan muchos programas estadsticos, pues por razones que se vern en prximos temas utilizan la expresin s Pn )2 i=1 (xi x s= n1 Se entiende por cuartiles a aquellos valores que dividen el conjunto de datos en cuatro partes iguales: El primer cuartil (Q1 ), o cuartil inferior, es un nmero tal que el 25% de los valores de la muestra son menores o iguales que l y el 75% de los datos es mayor que l. El segundo cuartil (Q2 ), cuartil medio o mediana, es un nmero tal que el 50% de los valores son menores o iguales que l. El tercer cuartil (Q3 ), o cuartil superior es el valor tal que el 75% de los datos son inferiores o iguales a l y el 25% de los datos son mayores que l.

La muestra que se posee est ordenada de menor a mayor (entre parntesis se encuentra el nmero de orden). De no haber sido as habra que haberla ordenado previamente. Con la muestra as ordenada el segundo cuartil o mediana ser el valor que se encuentre en el centro. Como el nmero de datos es par se toma la media entre los dos valores centrales. La mediana o segundo cuartil es, pues, la media entre el valor colocado en la posicin 35 y el colocado en la 36. Q2 = 300 + 325 = 312.5 ptas 2

Otra forma de calcular la mediana es cogiendo el valor colocado en el centro, que estara en la posicin 1 2 (1 + n), donde n es el nmero de datos. El resultado sera la posicin 35.5, es decir, el punto medio entre la posicin 35 y 36. A la izquierda de la mediana habr 35 nmeros ordenados. El valor colocado en la posicin central, es decir en la posicin 18 ser el primer cuartil. Si en lugar de estos 35 valores se hubiese tenido un nmero par el primer cuartil sera la media de los dos valores centrales de esta mitad de la muestra. Para obtener el tercer cuartil se procede de la misma forma con los 35 datos que quedan a la derecha de la mediana, obtenindose como resultado el valor colocado en posicin 53: Q1 = 200 ptas (posicin 18) Q3 = 520 ptas (posicin 53) El rango intercuartlico es la diferencia entre el tercer cuartil y el primero: RI = Q3 Q1 = 320 ptas Por tanto el 25% de los estudiantes encuestados gastan semanalmente en fotocopias una cantidad inferior o igual a 200 pts. La mitad de los estudiantes encuestados gastan menos de 312 pts. y slo un 25% gasta ms de 510 pesetas semanales en fotocopias. (b) El percentil p es el valor tal que el p% de los datos es menor que l. En la prctica se suele calcular como el dato en posicin i-sima, donde i= pN + 0.5. 100

De esta forma, el percentil 5 es el dato en posicin 5 70 + 0.5 = 4, 100 que es el valor 110. El percentil 10 es el dato en posicin 10 70 + 0.5 = 7.5, 100 por lo que se obtiene promediando los valores en las posiciones 7 y 8, es decir (115 + 120)/2 = 117.5. Anlogamente, el percentil 90 es el valor en posicin 90 70 + 0.5 = 63.5, 100 que resulta ser el valor (700 + 730)/2 = 715. (c) El primer paso para la construccin del diagrama de cajas es el clculo de los cuartiles tal y como se ha hecho en el apartado 1. A continuacin se han de calcular los lmites inferior (LI) y superior (LS) (barreras interiores) que servirn para decidir si un dato es atpico o no segn se halle fuera de dichos lmites o dentro: LI = Q1 1.5 (Q3 Q1 ) = 200 1.5(520 200) = 280 El grco se realiza de la siguiente manera: LS = Q3 + 1.5 (Q3 Q1 ) = 520 + 1.5(520 200) = 1000

Se dibuja un rectngulo central donde los extremos son Q1 y Q3 . Dibujar una linea interior al rectngulo que marque la posicin de la mediana (Q2 ). Trazar lneas que vayan desde cada extremo del rectngulo hasta el valor ms alejado, pero contenido dentro de los lmites LI y LS calculados. Aadir los puntos atpicos, es decir, los que estn situados fuera de los lmites. En este caso existe un nico valor atpico de valor 1200 pts. De nuevo se insiste en la idea de ser cauto antes de considerar este punto como atpico puesto que la distribucin es asimtrica por la derecha. El resultado se muestra en la siguinte gura:

(d) Para la construccin del histograma se ha de decidir, en primer lugar, el nmero de intervalos o clases. No existe una regla ja para tomar dicha decisin. Algunos autores recomiendan tomar un nmero de intervalos igual al nmero entero ms cercano a n, siendo n el nmero de datos. Segn esta regla el nmero de clases ser 8. El ancho de cada intervalo ser de: (1200 15)/8 = 148.13 150. De esta forma la primera clase contendr los valores desde el 15 (inclusive) hasta el 165 (exclusive), la segunda desde 165 al 315, etc. En cada clase se cuenta el nmero de observaciones que se encuentran dentro de sus mrgenes, es decir, la frecuencia de dicha clase. Los resultados de esta tabulacin se muestran en la siguiente tabla (obtenida con el Statgraphics). Como en esta variable no tiene sentido un valor negativo, la tabla se ha realizado comenzando la primera clase en el valor 0. (en Statgraphics se puede introducir esta informacin pulsando el botn derecho del ratn y seleccionando Pane Options )

El histograma puede ya construirse. Para ello se situan en el eje de abcisas las clases construidas y se elevan rectngulos de altura proporcional a la frecuencia de cada clase, tal y como se muestra en la siguiente gura

A la vista del histograma se pueden extraer las mismas conclusiones que con el diagrama de tallo y hojas: La distribucin es asimtrica positiva y se aprecia una bimodalidad que sugiere la presencia de dos poblaciones. (e) La gura siguiente el nuevo diagrama de cajas donde se conrma que la distribucin de los datos transformados es ms simtrica y que el valor atpico no es el gasto de 1200 pts., sino el de 15 pts.

Las mismas conclusiones puden extraerse del nuevo histograma que se encuentra a continuacin. Adems, se sigue apreciando la bimodalidad que se apuntaba en el histograma de los datos originales.

17. En un taller mecnico una pieza pasa primero por la mquina 1 y luego por la mquina 2. La siguiente tabla muestra los tiempos X e Y (en minutos) empleados por diez piezas en cada mquina. X 5 15 10 10 10 5 10 10 15 10 Y 10 15 15 10 10 15 20 15 20 20 7

Se pide: (a) Obtener la distribucin de frecuencias relativas conjunta de los tiempos de ambas mquinas. (b) Obtener la distribucin de frecuencias relativa marginal de la mquina 1, dando su media y su varianza. (c) Calcular la covarianza entre ambas variables X e Y , interpretando el resultado. SOLUCION: (a) La distribucin de frecuencias conjunta de las variables (X, Y ) muestra la frecuencia relativa de cada P Ppar de valores observados, segn se muestra en la tabla siguiente. Puede comprobarse que i j f r (Xi , Yj ) = 1
X 5 10 15 10 0.1 0.2 0 Y 15 0.1 0.2 0.1 20 0 0.2 0.1

(b) La distribucin marginal de X se construye a partir de la distribucin de frecuencias conjunta acumulando, para cada valor de X , los valores de las frecuencias relativas para todos Plos valores de Y . Los resultados se muestran en la tabla siguiente, donde cada casilla es f r(Xi ) = j f r(Xi , Yj ): Xi 5 10 15 f r(Xi ) 0.2 0.6 0.2

Para calcular la media de X tenemos dos opciones. En primer lugar podemos promediar todos los valores, es decir, = 5 + 5 + 10 + 10 + 10 + 10 + 10 + 10 + 15 + 15 = 10, X 10 obien, podemos aprovechas que hay valores repetidos y sumar cada valor multiplicado por su frecuencia relativa, es decir X 5 + 5 + 10 + 10 + 10 + 10 + 10 + 10 + 15 + 15 10 2 6 2 = 5 + 10 + 15 10 10 10 X = Xi f r(Xi ) = 10 =
i 2 2

Anlogamente, para calcular la varianza podemos hacer s2 x = (5 10) + + (15 10) = 10. 10

Tambin podemos calcular la varianza aprovechando que hay datos repetidos usando la expresin X (xi x)2 f r(xi ) = 10. s2 x =
i

(c) La covarianza tambin puede calcularse utilizando que los datos estn repetidos. El clculo se har con la expresin XX COV (X, Y ) = (Xi X )(Yj Y )f r(Xi , Yj ) = 5.
i j

Una covarianza positiva signica que ambas variables evolucionan conjuntamente, de manera que crecen o decrecen simultneamente. De esta forma cuando una pieza invierte en la mquina X ms tiempo que la media se esperar que necesite tambin en la mquina Y ms tiempo que la media. 8

18. Tras preguntar a 300 estudiantes, se ha obtenido que el 10% fuma y el 40% eran del sexo femenino. Construye la tabla de frecuencias absolutas de estos 300 estudiantes para las variables Fuma/no fuma y Chico/chica, sabiendo que el nmero de chicos que fuma es igual al nmero de chicas que fuma. SOLUCIN: Fuma No fuma Total por sexo 19. Dada la tabla del problema anterior se pide (a) Escribe la distribucin de frecuencias conjunta relativa (comprueba que suman 1) (b) Escribe la distribucin marginal relativa de la variable fuma/no fuma (comprueba que suman 1) (c) Escribe la distribucin de frecuencias absolutas de Fuma/no fuma condicionada a que los individuos son chicas (comprueba que suman 120 chicas. (d) Escribe la distribucin de fecuencias relativas de Fuma/no fuma condicionada a que los individuos son chicas (comprueba que suman 1) (e) Qu grupo es ms fumador, los chicos o las chicas? SOLUCIN: (a) Dividiendo por 300 (tambin se puede multiplicar por 100 y expresarlo en %) Fuma No fuma (b) Fuma 0.10 No fuma 0.90 Total 1.00 (c) Fuma No fuma Total Chicas 15 105 120 Chicas Chicos 0.05 0.05 0.35 0.55 Chicas Chicos Total fumadores 15 15 30 105 165 270 120 180 300

(d) Esta es la tabla anterior dividiendo por el nmero de chicas (120) Fuma No fuma Total Chicas 0.125 0.875 1.00

(e) De la tabla anterior vemos que el 12.5% de las chicas fuma. Si hacemos lo mismo para chicos tenemos Chicos (condic. absoluta) 15 165 180 Chicos (condic. relativa) 0.083 0.916 1.00

Fuma No fuma Total

por tanto, aunque hay igual nmero de chicos que fuma que de chicas, en procentaje es menor. Slo el 8.3% de chicos fuma, mientras que las chicas lo hacen en un 12.5%. 20. Un proceso productivo tiene dos lneas de produccin: lnea A y lnea B, que funcionan de forma totalmente independiente (distintas mquinas, distintos operarios, etc). Un analista toma nota al nal de cada lnea del nmero de defectos que tienen los artculos que van produciendo ambas lneas. En una hoja de papel,

va anotando en dos columnas los defectos que tiene cada uno de los artculos que analiza. Primero toma nota de 50 artculos de la lnea A y despus va a la lnea B y toma nota de 50 artculos de dicha lnea. orden Defectos A Defectos B 1 2 0 2 1 3 . . . . . . . . . 50 1 1 Cuando tiene 50 artculos inspeccionados por cada lnea construye una tabla de frecuencias bivariante, resultando la siguiente tabla: Qu conclusiones se pueden sacar?

SOLUCIN: La tabla no tiene sentido, pues los dos pares de 50 observaciones no estn relacionados. Los 50 datos de la lnea A son independientes de la lnea B.

10

Das könnte Ihnen auch gefallen