Sie sind auf Seite 1von 45

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B.

Batista

Capítulo 1
DISTRIBUCIONES DE FRECUENCIAS
1.1 Las mediciones de altura de 40 plantas de girasol (Helianthus annuus L.) registradas por los
estudiantes en la parcela con densidad alta (10 plantas por m²) se transcriben a continuación.
Planta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Altura (cm) 229 234 218 216 219 211 223 238 233 219 227 224 226 222 209

Planta 16 17 18 18 20 21 22 23 24 25 26 27 28 29 30
Altura (cm) 222 219 221 230 224 230 208 231 218 229 231 222 214 215 226

Planta 31 32 33 34 35 36 37 38 39 40
Altura (cm) 211 226 223 226 217 221 220 230 213 233
a. Organizar esta información en una tabla con las frecuencias absolutas, las frecuencias relativas
y las frecuencias acumuladas (absolutas y relativas) correspondientes a cada valor registrado.
b. A partir de la tabla elaborada en a, identificar los valores de la moda, del mínimo, el máximo y
los tres cuartiles de la distribución de frecuencias de las alturas de estas plantas y compararlos
con los correspondientes a las plantas de la parcela con densidad baja (5 plantas por m²)
presentados en el texto.
c. Calcular la media aritmética de las alturas de estas plantas y compararla con la de las 40 plantas
medidas en la parcela con densidad baja.
d. Calcular la varianza, el desvío estándar y el coeficiente de variación de las alturas de estas
plantas y comparar sus valores con los correspondientes a las 40 plantas medidas en la parcela
con densidad baja.
e. ¿Cómo se interpretan las comparaciones realizadas en b, c y d en relación con la posible
plasticidad de la altura de las plantas frente a la diferencia en la densidad del cultivo entre las
dos parcelas?

1.2 Según registros de Servicio Meteorológico Nacional, los valores de la temperatura mínima
del mes más frio (julio) en el observatorio del Aeropuerto de Concordia en la última década del siglo
XX son los que se transcriben a continuación.
Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Temperatura mínima (ºC) 5,23 6,71 5,10 6,60 8,34 8,37 3,99 10,42 9,87 7,79
a. Con la información provista, elaborar una tabla de frecuencias (absolutas, relativas y
acumuladas) de clases de temperatura mínima. Dividir la escala de la variable en un número de
clases apropiado para visualizar los principales rasgos de la distribución de frecuencias.
b. Confeccionar un histograma de frecuencias.
c. A partir de la tabla elaborada, calcular valores aproximados de la media, la varianza, el desvío
estándar y el coeficiente de variación de los rendimientos.
d. A partir de los datos originales, calcular los valores exactos de las medidas aproximadas en el
punto c y evaluar los errores de aproximación.

1.3 La Productividad Primaria Neta es la producción anual de biomasa de la vegetación. En


sistemas ganaderos pastoriles se evalúa la Productividad Primaria Neta Aérea (PPNA) como una
medida de la máxima producción de forraje aprovechable por los herbívoros. El histograma de la
Figura 1.10 representa gráficamente la distribución de frecuencias de la PPNA anual (g/m 2año)
medida en 50 sitios de la Comunidad II (Pradera de Mesófitas) en el sur de la Pampa Deprimida.

1
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

a. A partir de la información contenida en el histograma, construir un polígono de frecuencias y un


polígono de frecuencias acumuladas por clases (recordar que las frecuencias acumuladas por
clases se grafican sobre el límite superior de cada clase).
b. ¿Qué valores aproximados tienen el primer cuartil, la mediana y el tercer cuartil de esta
distribución de frecuencias?
c. ¿Cuántos de los sitios representados en esta distribución de frecuencias tuvieron PPNA > 550
g/m2año y cuántos tuvieron PPNA ≤ 350 g/m2año?

0,26

0,24
0,22

0,20

Frecuencia Relativa
0,18
0,16

0,14

0,12

0,10
0,08

0,06

0,04
Figura 1.10. Distribución de frecuencias de
los valores de productividad primaria neta 0,02
aérea en 50 sitios de Pradera de Mesófitas 0,00
200 250 300 350 400 450 500 550 600 650 700
(Comunidad II) en el sur de la Pampa
Deprimida PPNA (g/m² año)

d. Calcular valores aproximados de la media aritmética y de la varianza de la PPNA de estas


praderas. Especificar las unidades correspondientes.
e. Un conjunto de 40 mediciones de PPNA en sitios de la Comunidad IV (Pradera de Hidrofitas)
tuvo media aritmética de 626 g/m2año y desvío estándar de 151 g/m2año, ¿qué diferencias
habría entre el histograma aquí presentado para la Comunidad II y el histograma de frecuencias
relativas basado en dichas mediciones?

1.4 La vegetación natural de la Pampa Deprimida es un extenso pastizal con aspecto monótono.
Sin embargo, cuando se lo observa en detalle, se encuentra que este pastizal es un mosaico de
varias comunidades vegetales con diferente composición florística distribuidas en el paisaje en
correspondencia con diferentes características de los suelos. En la Figura 1.11 se representan las
distribuciones de frecuencias de los contenidos de carbono orgánico del horizonte superficial de
suelos asociados con cuatro comunidades vegetales del sur de la Pampa Deprimida.

2
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

7,00 Figura 1.11. Distribuciones de frecuencias de los


contenidos de Carbono orgánico (%) en el horizonte
6,00
superficial de suelos asociados con diferentes
comunidades vegetales del pastizal del sur de la Pampa
Deprimida. Comunidad II, Pradera de Mesófitas,
5,00 Comunidad III, Pradera Húmeda de Mesófitas,
Comunidad IV, Pradera de Hidrófitas, Comunidad V,
4,00 Estepa de Halófitas.
%C

3,00

2,00

1,00

0,00
II III IV V
Comunidad Vegetal

a. ¿Qué tipo de gráficos se presentan en la Figura 1.11?


b. Aproximadamente ¿qué valores tienen los máximos, mínimos y cuartiles de los contenidos de
carbono del horizonte superficial de los suelos asociados con las comunidades IV (Pradera de
Hidrófitas) y V (Estepa de Halófitas)?
c. Aproximadamente, ¿qué valores tienen las amplitudes totales y las amplitudes entre cuartiles
de los contenidos de carbono del horizonte superficial de los suelos asociados con las
comunidades IV (Pradera de Hidrófitas) y V (Estepa de Halófitas)?
d. Comparando las comunidades II (Pradera de Mesófitas) y III (Pradera Húmeda de Mesófitas),
¿cuál está asociada con mayor frecuencia con suelos cuyo contenido de carbono orgánico no
supera 3 %? ¿cuál está asociada con mayor frecuencia con suelos cuyo contenido de carbono
orgánico supera 4 %?
e. ¿Cuál de las cuatro comunidades está asociada con suelos cuyos contenidos de carbono
orgánico del suelo superficial son menores?
f. ¿Cuál de las cuatro comunidades está asociada con un conjunto de suelos más heterogéneo
en relación con el contenido de carbono orgánico en el horizonte superficial?

1.5 Los herbicidas que se aplican a los cultivos eliminan malezas que compiten con las plantas
cultivadas por luz, agua y nutrientes pero que también sirven como fuentes de alimento para
organismos ubicados en el eslabón siguiente de la cadena trófica. Un grupo de estudiantes que
investiga los impactos de las prácticas agrícolas sobre la biota de los campos de cultivo registró los
pesos de Calomys laucha (laucha manchada) capturadas en dos lotes agrícolas de la Pampa Interior
cultivados con soja, uno que había sido tratado con el herbicida Atrazina y otro que no había sido
tratado con ningún herbicida. Los pesos registrados son los que se presentan a continuación:
Peso corporal de Calomys laucha (g)
Lote tratado con Atrazina: 18,9 17,8 15,5 16,8 18,3 17,4 16,2 18,3

Lote no tratado: 18,7 19,5 19,2 18,9 18,2 19,9 19,5


a. En un mismo gráfico construir los polígonos de frecuencias relativas acumuladas de los pesos
de Calomys laucha de cada lote como funciones escalonadas basadas en los registros
individuales.
b. A partir de la observación del gráfico comparar la posición y la dispersión de las dos
distribuciones de frecuencias.

3
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

c. Representar la distribución de frecuencias de los pesos de Calomys laucha de cada lote con un
diagrama de caja y bigotes y comparar las distribuciones sobre la base de los diagramas.
d. Calcular la media aritmética, la varianza y el desvío estándar de los pesos de Calomys laucha
de cada lote.
e. Sobre la base de la descripción de las distribuciones de frecuencia realizada en los puntos a –
d, discutir la posible influencia de la aplicación de Atrazina sobre los pesos de Calomys laucha
de estos lotes de soja.

1.6 La Figura 1.12 representa las distribuciones de frecuencias de los totales de lluvia invernal
(trimestre julio-septiembre) y estival (trimestre enero-marzo) registradas en el aeropuerto de
Concordia, Entre Ríos, en el período 1981-2000.
Figura 1.12. Polígonos de
distribución de frecuencias relativas
acumuladas de registros de
precipitación trimestral en el
aeropuerto de Concordia, Entre Ríos
en el período 1981-2000. Línea negra,
trimestre enero-marzo. Línea gris,
trimestre julio-septiembre.

a. ¿En cuál de las dos estaciones llovió más? Justificar la respuesta con una medida de posición
central extraída del gráfico.
b. ¿En cuál de las dos estaciones la lluvia total fue más variable entre años? Justificar la respuesta
con medidas de dispersión extraídas del gráfico.
c. En el período 1981-2000, los registros del aeropuerto de Concordia de lluvia otoñal (trimestre
abril-junio) tuvieron mínimo de 81 mm, primer cuartil de 266 mm, mediana de 319 mm, tercer
cuartil de 442 mm y máximo de 555 mm, mientras los registros de lluvia primaveral (trimestre
octubre-diciembre) tuvieron mínimo de 113 mm, primer cuartil de 276 mm, mediana de 336 mm,
tercer cuartil de 450 mm y máximo de 848 mm. Construir gráficos de caja y bigotes para
comparar las distribuciones de frecuencias de las lluvias de las cuatro estaciones y describir la
estacionalidad de las lluvias registradas. ¿En cuál estación el total de lluvia fue menor en
promedio y en cuál fue más variable? ¿En qué estaciones se registraron los valores extremos
más altos y más bajos?

1.7 Con el propósito de evaluar la incidencia de la enfermedad conocida como pústula bacteriana
(Xanthomonas axonopodis pv. glycinea) en un cultivo experimental de soja, una fitopatóloga observó
200 hojas de plantas de dicho cultivo y registró el número de lesiones que tenía cada una. La
siguiente tabla presenta las frecuencias absolutas de hojas con cada número de lesiones registrado
por esta profesional.
Lesiones por hoja 0 1 2 3 4 5 6 7 8 9 10
Frecuencia absoluta 64 4 10 12 22 32 26 18 8 3 1

4
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

a. ¿De qué tipo es la variable registrada por la fitopatóloga?


b. Construir un gráfico de líneas para representar la distribución de frecuencias de los números de
lesiones bacterianas por hoja.
c. Calcular y comparar los valores de la moda, la mediana y la media aritmética (notar que el valor
de la media aritmética no necesariamente coincide con uno de los valores posibles de la variable
registrada).
d. Construir un gráfico de caja y bigotes para representar esta distribución de frecuencias.
e. Calcular y comparar la amplitud total, la amplitud entre cuartiles y el desvío estándar de los
números de lesiones por hoja. Especificar las unidades correspondientes.
f. Escribir un texto explicativo de los principales rasgos de la distribución de frecuencias de los
números de lesiones por hoja.

1.8 Demostrar las siguientes propiedades de la media y de la varianza de funciones lineales.


a. La suma de los desvíos (𝑥𝑖 − 𝑥̅ ) es nula (Ecuación 1.3).
b. La suma de los cuadrados de los desvíos (𝑥𝑖 − 𝑥̅ ) es menor que la suma de los cuadrados de
las diferencias (𝑥𝑖 − 𝑐) para todo 𝑐 ≠ 𝑥̅ (Ecuación 1.4).
c. Si 𝑥 es una variable y 𝑎 es una constante y definimos 𝑢 = 𝑥 + 𝑎, entonces: 𝑢
̅ = 𝑥̅ + 𝑎 y
𝑣𝑎𝑟(𝑢) = 𝑣𝑎𝑟(𝑥) (Ecuaciones 1.9 y 1.10).
d. Si 𝑥 es una variable y 𝑏 una constante y definimos 𝑣 = 𝑏 ∙ 𝑥 , entonces: 𝑣̅ = 𝑏 ∙ 𝑥̅ y 𝑣𝑎𝑟(𝑣) =
𝑏 2 ∙ 𝑣𝑎𝑟(𝑥) (Ecuaciones 1.11 y 1.12).
e. Si 𝑥 e 𝑦 son dos variables y definimos 𝑤 = 𝑥 + 𝑦, entonces: 𝑤
̅ = 𝑥̅ + 𝑦̅ y 𝑣𝑎𝑟(𝑤) = 𝑣𝑎𝑟(𝑥) +
𝑣𝑎𝑟(𝑦) + 2 ∙ 𝑐𝑜𝑣𝑎(𝑥, 𝑦) (Ecuaciones 1.13 y 1.14).

1.9 En la siguiente tabla se presentan los registros de los números de tormentas eléctricas y de
los totales de lluvia primaveral (trimestre octubre-diciembre) en el aeropuerto de Concordia, Entre
Ríos, durante el período 1981−2000.
Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
Tormentas eléctricas 15 22 22 14 24 21 19 18 23 27
Lluvia (mm) 295,3 455,8 199,1 311,5 282,6 414,6 236,8 226,6 509,2 475,0

Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Tormentas eléctricas 25 15 25 16 17 18 25 12 11 22
Lluvia (mm) 361,3 294,8 633,4 443,2 331,9 339,8 847,7 270,1 112,6 423,8
a. Calcular la varianza de los números de tormentas eléctricas primaverales en el aeropuerto de
Concordia durante el período 1981−2000. Indicar las unidades.
b. Calcular la varianza de los totales de lluvia primaveral registrados en el aeropuerto de Concordia
durante el período 1981−2000. Indicar las unidades.
c. Calcular la covarianza entre los números de tormentas eléctricas y los totales de lluvia
primaverales en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades.
d. ¿Qué indica el signo de la covarianza calculada acerca de la asociación entre el número de
tormentas eléctricas y el total de lluvias primaverales en el aeropuerto de Concordia? ¿Cómo
sería la asociación si la covarianza tuviera el signo opuesto?

1.10 Las arañas son animales depredadores que controlan en buena medida los insectos
perjudiciales para los cultivos. Este servicio natural depende de que el paisaje agrícola contenga
refugios que aseguren la persistencia de las poblaciones de arañas de un año al siguiente. En el
marco de una investigación sobre la importancia de los bordes de lote agrícola con vegetación
espontánea para mantener este servicio natural, se capturaron arañas en dos tipos de sitio, lote de
cultivo de soja y borde de lote con vegetación espontánea, en dos períodos del año, verano (cultivo

5
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

en crecimiento) e invierno (período de rastrojo). Cada individuo capturado fue clasificado en uno de
cinco gremios diferentes (grupos de arañas con hábitos similares). Las frecuencias absolutas
registradas son las que figuran en la siguiente tabla.

Números de arañas capturadas por gremio en dos sitios de un paisaje agrícola en dos
períodos del año. I. Deambuladoras pequeñas (< 10 mm) diurnas que cazan sobre las
plantas. II. Sedentarias medianas (10 a 15 mm) crepusculares o nocturnas que cazan
con telas orbiculares tejidas sobre las plantas. III. Deambuladoras pequeñas (< 10 mm)
diurnas o nocturnas que cazan sobre el suelo. IV. Deambuladoras grandes (> 15 mm)
nocturnas que cazan sobre el suelo. V. Sedentarias pequeñas (< 12 mm) que cazan
con telas irregulares en el suelo o en las bases de las plantas. Datos adaptados de
Liljesthröm et al, Neotropical Entomology 31:197-210 (2002)
Lote (cultivo) Borde
Gremio
Verano Invierno Verano Invierno
I 389 10 132 113
II 113 16 41 80
III 45 1 23 24
IV 59 14 4 4
V 21 231 19 31
a. Construir gráficos de barras para representar las distribuciones de frecuencias relativas de
gremios de arañas en cada tipo de sitio en cada período del año.
b. Observar los gráficos, ¿en cuál de los dos tipos de sitio la distribución de frecuencias de los
gremios de arañas fluctúa más fuertemente entre verano e invierno?
c. ¿Cuál es la clase (gremio) modal en cada tipo de sitio en cada período del año?
d. Calcular los índices N1 y N2 de diversidad de gremios de arañas correspondientes a cada tipo
de sitio en cada período del año.
e. ¿En cuál de los dos tipos de sitio hay mayor diversidad de gremios de arañas durante el verano
y durante el invierno?
f. ¿Cómo fluctúa la diversidad de gremios de arañas entre verano e invierno en cada tipo de sitio?
g. Según la descripción realizada ¿qué importancia aparente tienen los bordes de lote con
vegetación espontánea para la persistencia de las poblaciones de arañas que controlan insectos
perjudiciales en el cultivo de soja?

6
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 2
PROBABILIDAD
2.1 Las monedas de 25 centavos tienen de un lado la imagen del cabildo de Buenos Aires
(“cara”) y del otro el número que indica su valor (“ceca”). Todas son de igual tamaño y peso pero
algunas son doradas y otras plateadas. Imaginemos el procedimiento que consiste en arrojar dos
monedas de 25 centavos, una dorada y otra plateada, y registrar qué lado de cada una queda hacia
arriba.
a. ¿Por qué el procedimiento descripto es un experimento aleatorio? ¿Cuál es el dispositivo
experimental y cómo se lo acciona?
b. ¿Qué resultados elementales pertenecen al espacio muestral de este experimento aleatorio?
Representar este espacio muestral con un diagrama de Venn.
c. Sobre el diagrama de Venn, señalar un evento compuesto, indicar qué resultados elementales
pertenecen al mismo y cuál es su evento complementario.
d. Señalar el evento “que la moneda dorada quede con “cara” hacia arriba”. ¿Se trata de un evento
simple o compuesto? ¿Por qué?
e. Señalar el evento “no quedan las dos monedas con “cara” hacia arriba”. ¿Se trata de un evento
simple o compuesto? ¿Por qué?
f. Señalar el evento “una de las monedas queda con “cara” hacia arriba y la otra no”. ¿Se trata de
un evento simple o compuesto? ¿Por qué?
g. Señalar dos eventos que no sean mutuamente excluyentes y el evento que constituye su
intersección.

2.2 Consideremos nuevamente el experimento aleatorio que consiste en arrojar hacia arriba dos
monedas de 25 centavos, una dorada y otra plateada, y registrar qué lado de cada una queda hacia
arriba. Aceptemos que este experimento se realiza bajo condiciones que permiten asignar igual valor
de probabilidad a todos los resultados elementales que puede producir.
a. Construir una tabla de doble entrada a partir de los valores de las probabilidades de los
resultados elementales.
b. ¿Cuánto vale la probabilidad de que la moneda dorada quede con “cara” hacia arriba?
c. ¿Cuánto vale la probabilidad conjunta de que las dos monedas queden con “cara” hacia arriba?
d. ¿Cuánto vale la probabilidad condicional de que la moneda dorada quede con “cara” hacia arriba
si la moneda plateada también queda con “cara” hacia arriba?
e. Comparar los valores de las probabilidades calculadas en los puntos b y d. ¿Qué indica la
comparación?
f. ¿Cuánto vale la probabilidad de que una de las monedas quede con “cara” y la otra con “ceca”
hacia arriba?

2.3 En una investigación sobre la diversificación de la producción agrícola en el distrito de


Tiacalín, un estudiante graduado de la Facultad de Agronomía decide obtener una muestra aleatoria
de 50 establecimientos rurales con superficies entre 25 y 500 ha y registrar qué cultivos realizaron
en el último verano. Para ello, numerará los 2198 establecimientos del distrito cuya superficie está
en el rango estipulado y elegirá por sorteo 50 para incluir en la muestra. Luego, pedirá a cada
productor que complete una encuesta en la que deberá consignar cuáles de las siguientes especies
fueron cultivadas en su establecimiento en el último verano: soja, girasol, maíz, sorgo, otro.
a. ¿Cuál es la población de referencia, cuáles son las unidades muestrales y cuál es la muestra?

7
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

b. ¿Por qué es correcto decir que el procedimiento que consiste en elegir al azar un establecimiento
de la población de referencia y registrar cuáles cultivos de la lista fueron realizados allí en el
último verano es un experimento aleatorio?
c. Detallar las 32 listas de cultivos estivales que se pueden consignar en cada establecimiento. Se
trata de los resultados que contiene el espacio muestral del experimento aleatorio.
d. ¿Qué resultados pertenecen a los siguientes eventos compuestos?
“en el establecimiento se cultivó soja”
“en el establecimiento se cultivó maíz y girasol”
“en el establecimiento se realizaron exactamente dos cultivos estivales diferentes”
“en el establecimiento se realizaron al menos dos cultivos estivales diferentes”
“en el establecimiento se realizaron más de dos cultivos estivales diferentes”
“en el establecimiento se realizaron menos de cuatro cultivos estivales diferentes”
e. ¿Cuál es el evento complementario del evento “en el establecimiento se realizó más de un cultivo
estival”? ¿Qué eventos simples lo integran?
f. ¿Con qué propiedad de la población de referencia coincide el valor de la probabilidad de que un
establecimiento a elegir al azar haya cultivado soja en el último verano?
g. ¿Con qué propiedad de la población de referencia coincide el valor de la probabilidad de que un
establecimiento elegir al azar haya cultivado al menos dos cultivos estivales diferentes en el
último verano?

2.4 Una vez obtenida la muestra aleatoria de 50 establecimientos agropecuarios con superficies
entre 25 y 500 ha en el distrito de Tiacalin, el estudiante graduado encontró que en todos ellos se
había realizado al menos un cultivo estival, que en 38 de ellos se había cultivado soja y que en 16 la
soja era el único cultivo estival. Además, en 8 de los 12 establecimientos donde no se había cultivado
soja se habían cultivado dos o más especies estivales diferentes.
a. Construir una tabla de doble entrada (llamada tabla de contingencia) con las frecuencias
absolutas de establecimientos de la muestra que habían y que no habían cultivado soja y que
habían cultivado una y más de una especie estival.
b. A partir de la tabla construida en a, confeccionar otra que muestre las correspondientes
frecuencias relativas en la muestra.
Suponiendo que la información de la muestra reflejara fielmente las frecuencias relativas de
establecimientos que han cultivado o no cultivado soja y que han realizado uno o más cultivos
estivales en la población de referencia:
c. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de
referencia haya cultivado soja en el último verano? ¿Qué posición ocupa el valor de esta
probabilidad en la tabla construida en b?
d. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de
referencia haya cultivado solamente soja en el último verano? ¿Se trata de una probabilidad
conjunta o condicional?
e. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de
referencia haya realizado un sólo cultivo estival si ha cultivado soja? ¿Se trata de una
probabilidad conjunta o condicional?
f. ¿Los eventos “se ha cultivado soja” y “se ha realizado un único cultivo” serían estadísticamente
independientes? ¿Qué interpretaciones admite la respuesta a esa pregunta?

2.5 En una investigación sobre la regeneración de la palmera yatay (Butia yatay) en el Parque
Nacional El Palmar se marcaron 200 plántulas de palmera elegidas al azar en un área de 4 ha de
sabana de palmeras. Entre las plántulas marcadas, 120 estaban ubicadas bajo la copa de una
palmera adulta (a menos de 4 metros de su base) y 80 estaban ubicadas a más de 4 m de la palmera
adulta más cercana. Al cabo de un año, se comprobó que habían muerto 40 de las plántulas ubicadas
bajo la copa de una palmera adulta y 20 de las restantes. Definamos ahora el experimento aleatorio

8
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

que consiste en elegir por sorteo una de las 200 plántulas y registrar si estaba o no bajo la copa de
una palmera adulta y si sobrevivió o no.
a. ¿Qué resultados perteneces al espacio muestral de este experimento aleatorio?
b. Señalar dos eventos mutuamente excluyentes en dicho espacio muestral. ¿Cuál es la
probabilidad de cada uno? ¿Cuál es la probabilidad de que ocurra uno o el otro?
c. Señalar dos eventos que no sean mutuamente excluyentes. ¿Cuál es la probabilidad de cada
uno? ¿Cuál es su probabilidad conjunta?
d. ¿Cuál es la probabilidad de que la plántula a elegir al azar resulte ser una que estaba bajo la
copa de una palmera adulta?
e. ¿Cuál es la probabilidad que la plántula a elegir al azar haya sobrevivido?
f. ¿Cuál es la probabilidad que la plántula a elegir al azar haya sobrevivido, si estaba a más de 4
m de distancia de la palmera adulta más cercana?
Suponiendo que las probabilidades calculadas a partir de estas 200 plántulas constituyen buenas
aproximaciones a las probabilidades que tienen las plántulas de Butia yatay del Parque Nacional El
Palmar de establecerse y de sobrevivir a diferentes distancias de las palmeras adultas
g. ¿La supervivencia de las plántulas de Butia yatay es estadísticamente independiente de su
ubicación respecto de las palmeras adultas? Justificar la respuesta usando probabilidades
condicionales y discutir su interpretación.

2.6 Se prepara un dispositivo experimental con dos bolilleros bien construidos y una cantidad de
bolillas blancas o rojas, todas esféricas, de igual diámetro, peso y rugosidad. En el primer bolillero
se colocan 96 bolillas blancas y 32 rojas y en el segundo 8 blancas y 56 rojas. Ambos bolilleros
girarán cerrados durante 1 minuto para mezclar bien las bolillas y luego girarán una vez más para
sacar una bolilla de cada uno. Llamaremos A al evento que ocurre cuando “del primer bolillero sale
una bolilla roja” y B al que ocurre cuando “del segundo bolillero sale una bolilla roja”. El dispositivo y
el procedimiento descriptos permiten razonablemente aceptar que los eventos A y B son
estadísticamente independientes.
a. ¿Cuál es el evento 𝐴𝑐 ? ¿Cuál es el valor de su probabilidad?
b. ¿Cuál es el evento 𝐴 ∩ 𝐴𝑐 ? ¿Cuál es su probabilidad?
c. ¿Cuál es el evento 𝐴 ∪ 𝐴𝑐 ? ¿Cuál es su probabilidad?
d. ¿A qué intersección corresponde el evento “de ambos bolilleros sale una bolilla roja”? ¿Cuál es
su probabilidad?
e. ¿Cuál es el evento 𝐴𝑐 ∩ 𝐵? ¿Cuál es su probabilidad?
f. ¿A qué intersección corresponde el evento “del primer bolillero sale una bolilla roja y del segundo
sale una bolilla blanca”? ¿Cuál es su probabilidad?
g. ¿A qué unión de eventos corresponde el evento “de un bolillero sale una bolilla blanca y del otro
una bolilla roja? ¿Cuál es su probabilidad?
h. ¿Cuál es el evento (𝐴 ∪ 𝐵)𝑐 ? ¿Cuál es su probabilidad?

2.7 En un bosque subtropical, la probabilidad de que un árbol cualquiera sea derribado por una
tormenta muy fuerte (velocidad del viento >150km /h) es de 0,75 si está colonizado por lianas que
agregan peso y volumen a su copa y de 0,30 si está libre de lianas. Además, la probabilidad de que
un árbol a tomar al azar de este bosque esté colonizado por lianas es de 0,40.
a. ¿Cuánto vale la probabilidad de que un árbol a tomar al azar de este bosque esté colonizado
por lianas y además sea derribado por una tormenta fuerte? ¿Se trata de una probabilidad
conjunta o condicional?
b. ¿Cuánto vale la probabilidad de que un árbol a tomar al azar de este bosque sea derribado por
una tormenta fuerte?
c. ¿Cómo se interpretan los valores calculados en los ítems a y b en términos del criterio
presentado en la ecuación 2.9?

9
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

d. ¿La caída de un árbol de este bosque por acción una tormenta fuerte es estadísticamente
independiente de la presencia de lianas en su copa? Justificar la respuesta con un cálculo
apropiado y discutir su interpretación.

2.8 Consideremos un árbol cuyas semillas caen todas bajo su copa. Estas semillas tienen una
probabilidad de morir por acción de organismos patógenos o depredadores igual a 0,6, una
probabilidad de ser enterradas y germinar in situ igual a 0,1 y una probabilidad de ser transportadas
por animales a sitios alejados del árbol igual a 0,3. Si llegan a los sitios alejados, las semillas tienen
una probabilidad igual a 0,4 de ser enterradas y germinar.
a. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar no sea
transportada a un sitio alejado del mismo?
b. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar germine en un
sitio alejado del mismo? ¿y en un sitio ubicado bajo la copa del árbol?
c. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar llegue a germinar?
¿Cómo se interpreta este valor en términos del criterio presentado en la ecuación 2.9?
d. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar ambas
lleguen a germinar?
e. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar la primera
llegue a germinar y la segunda no?
f. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar una
cualquiera de las dos llegue a germinar y otra no?
g. ¿Cuánto vale la probabilidad de que entre tres semillas de este árbol a tomar al azar una
cualquiera llegue a germinar y dos no? ¿Cómo se interpreta este valor en términos del criterio
presentado en la ecuación 2.9?

2.9 En un censo rural realizado en 2010 en el distrito de Tiacalín se registró la superficie de tierra
y la forma de gestión de cada establecimiento. Con esta información se clasificaron todos los
establecimientos en tres categorías de superficie (<50 ha, 50 a 500 ha y >500 ha) y en tres modelos
de gestión (explotación directa por el propietario, explotación mediante contratos anuales de siembra
y arrendamiento por más de 3 años). Las frecuencias relativas encontradas de cada clase de
establecimiento son las que se presentan en la siguiente tabla de doble entrada.
Frecuencias relativas de establecimientos rurales clasificados por superficie y modelo de gestión en el
distrito de Tiacalín (Censo rural 2010).
Superficie
<50 ha 50 -500 ha ≥500 ha
Propietario 0,04 0,29 0,07 0,40
Gestión Contrato anual 0,13 0,27 0,02 0,42
Arrendamiento 0,01 0,14 0,03 0,18
0,18 0,70 0,12 1,00
Con el propósito de evaluar los posibles cambios recientes en la distribución de los establecimientos
del distrito entre estas clases de superficie y modelo de gestión, un ingeniero agrónomo obtendrá
una muestra aleatoria de establecimientos del distrito y registrará la superficie de tierra y la forma de
gestión de cada establecimiento a elegir al azar.
Si cuando el ingeniero obtenga la muestra las frecuencias relativas de establecimientos en diferentes
clases de superficie y modelo de gestión son iguales a las registradas en 2010:
a. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar sea gestionado
directamente por el propietario?
b. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie
≥500 ha y <50 ha?
c. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie <50
ha si es <500ha?

10
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

d. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie <50
ha y sea gestionado directamente por el propietario?
e. ¿El evento “el establecimiento tiene una superficie <50 ha” es estadísticamente independiente
del evento “el establecimiento es gestionado directamente por el propietario? Justificar con un
cálculo apropiado e interpretar en términos de las frecuencias relativas de diferentes clases de
establecimiento en el distrito.
f. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie ≥50
ha y sea gestionado mediante contratos anuales de siembra?
g. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar sea gestionado mediante
contratos anuales de siembra si tiene una superficie ≥50 ha?
h. ¿El evento “el establecimiento tiene una superficie ≥50 ha” es estadísticamente independiente
del evento “el establecimiento es gestionado mediante contratos anuales de siembra”? Justificar
con un cálculo apropiado e interpretar en términos de las frecuencias relativas de diferentes
clases de establecimiento en el distrito.

2.10 Muchas malezas de los lotes agrícolas provienen de semillas enterradas en el suelo antes
de la siembra del cultivo. En el suelo, las semillas vivas pueden encontrarse en dos estados
fisiológicos, “despiertas”, si germinan cuando la temperatura y la humedad son apropiadas, o
“dormidas” si no germinan a menos que reciban algún estímulo específico como luz o frio. Para
analizar la infestación con la maleza Commelina erecta L. en un lote agrícola del distrito de Tiacalín,
una investigadora tomó una muestra aleatoria de 2000 semillas y las clasificó según su estado
fisiológico y la profundidad a la que estaban enterradas. Llamaremos A al evento “una semilla de
Commelina erecta L. tomada al azar de este lote está despierta” y B al evento “una semilla tomada
al azar de Commelina erecta L. de este lote está a una profundidad < 2cm”.
a. Identificar la población de referencia, las unidades muestrales y las variables de interés.
Entre las 2000 semillas de la muestra, la investigadora encontró 1739 semillas a menos de 2 cm de
profundidad, entre las cuales 1165 estaban despiertas. Además encontró 89 semillas despiertas
enterradas a profundidad ≥ 2 cm. A partir de esta información:
b. ¿Qué valor corresponde asignar a la probabilidad de que una semilla de Commelina erecta L. a
tomar al azar de este lote agrícola esté enterrada a menos de 2 cm de profundidad?
c. ¿Qué valor corresponde asignar a la probabilidad de que una semilla de Commelina erecta L. a
tomar al azar de este lote agrícola esté despierta?
d. ¿Qué valor corresponde asignar a la probabilidad condicional de que una semilla de Commelina
erecta L. a tomar al azar de este lote agrícola esté despierta si está enterrada a una profundidad
≥ 2cm?
e. A partir de los resultados obtenidos en b, c y d, utilizar la Regla de Bayes para asignar el valor
a la probabilidad condicional de que una semilla de Commelina erecta L. a tomar al azar de este
lote agrícola esté enterrada a una profundidad ≥ 2cm si está despierta. Comprobar que el valor
obtenido coincide con el cociente
𝑃[𝐴 ∩ 𝐵𝑐 ]
𝑃[𝐴]
f. ¿Cuál es el evento 𝐴𝑐 ∪ 𝐵𝑐 ?
g. ¿Qué valor corresponde asignar a 𝑃[𝐴𝑐 ∪ 𝐵𝑐 ]?
h. Si el estado fisiológico y la profundidad en el suelo de una semilla de Commelina erecta L. a
tomar al azar de este lote agrícola fuesen estadísticamente independientes, ¿cuál sería el valor
de la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote
estuviera enterrada a menos de 2 cm de profundidad y además esté despierta?
i. Comparar las respuestas a los ítems g y h. ¿Qué indica el resultado de esta comparación?

11
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 3
VARIABLES ALEATORIAS Y DISTRIBUCIONES DE
PROBABILIDAD
3.1 Un Ingeniero Agrónomo se dispone a evaluar la densidad y la uniformidad de siembra
logradas en un lote de girasol de 25 ha. El objetivo de la siembra era producir un cultivo con densidad
uniforme de 5 plantas por m 2 dispuestas en surcos trazados cada 0,7 m. Para realizar su evaluación,
el ingeniero seleccionará al azar tramos de surco de 1 m de longitud y contará las plantas que
contengan.
En el lote hay aproximadamente 357.000 m de surco. Como cada tramo de 1 m de surco será elegido
al azar, el número de plantas que contenga es una variable aleatoria que denominaremos X cuya
distribución de probabilidad refleja las frecuencias relativas de los diferentes números de plantas en
todos los tramos de 1 m de surco que se pueden elegir en el lote.
Si el objetivo de la siembra fue perfectamente logrado, el número promedio de plantas por m de
surco debe ser,
5 planta/m2  0,7 m = 3,5 planta/m
Dependiendo de dónde comiencen, la mitad de los tramos de 1 m deben contener 3 y la otra mitad
4 plantas. Es decir que los tramos con 3 o 4 plantas tienen densidad de siembra correcta, los tramos
con más de 4 plantas tienen densidad excesiva y los tramos con menos de 3 plantas tienen densidad
deficiente.
a. ¿Por qué el procedimiento que seguirá el ingeniero es un experimento aleatorio? ¿Cómo se lo
lleva a cabo?
b. ¿Cuáles son los resultados pertenecientes al espacio muestral de este experimento aleatorio?
Representar este espacio muestral con un diagrama de Venn.
c. ¿De qué tipo es la variable aleatoria X?
d. ¿Qué distribución de probabilidad debería tener X si el objetivo de la siembra hubiese sido
perfectamente logrado?
e. ¿Cuánto deberían valer la varianza y el desvío estándar de X?
Ahora supongamos que aunque el ingeniero no lo sabe, la verdadera distribución de probabilidad de
X es la siguiente:

x 0 1 2 3 4 5 6 ≥7
P[X = x] 0,02 0,04 0,16 0,34 0,36 0,06 0,02 0
f. Comprobar que la distribución de probabilidad de X cumple las condiciones 3.1 y 3.2.
g. Graficar y comparar las distribuciones de probabilidad de X deseada y verdadera.
h. Calcular los valores de la probabilidad de que un tramo de 1 m de surco a tomar al azar
corresponda a tramos con densidad correcta, excesiva y deficiente. ¿Cómo se interpretan estos
valores en términos de frecuencias relativas en la población y de las correspondientes
superficies de cultivo?
i. Calcular la esperanza y la varianza de X. ¿Cómo se interpretan estos valores en términos
características de la población de referencia? ¿Cómo se comparan con los de la distribución
deseada?

3.2 La chilca negra (Acanthostyles buniifolius) es una especie de arbusto de la familia


Asteraceae nativo de la Región Chaco-Pampeana que invade los campos de pastoreo. Estos
arbustos producen capítulos (cabezuelas) con 5 a 8 flores cada uno que son visitados por insectos
polinizadores especializados. Si su óvulo es polinizado, cada flor produce un fruto seco con una sola

12
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

semilla (aquenio). En consecuencia, el número de semillas en un capítulo de Acanthostyles


buniifolius a tomar al azar es una variable aleatoria discreta que toma valores entre 0 y 8.
Denominemos U al número de semillas en un capítulo a tomar al azar en un sitio recientemente
incendiado donde presumiblemente los insectos polinizadores son escasos y V al número de semillas
en uno a tomar al azar en un sitio no incendiado por mucho tiempo donde éstos serían abundantes.
Las distribuciones de probabilidad de U y V son las siguientes:
Sitio recientemente incendiado Sitio no incendiado por 35 años
u P(U = u) v P(V = v)
0 0,083 0 0
1 0,005 1 0,005
2 0,005 2 0,005
3 0,120 3 0,019
4 0,342 4 0,189
5 0,402 5 0,570
6 0,033 6 0,152
7 0,010 7 0,050
8 0 8 0,010
a. Graficar las dos distribuciones de probabilidad. ¿Qué diferencias se visualizan?
b. Calcular P[U > 3] y P[V > 3] ¿Cómo se interpretan los valores obtenidos en relación con la
comparación entre las dos poblaciones de capítulos?
c. Calcular los valores de la esperanza y de la varianza de los números de semillas en un capítulo
a tomar al azar en cada sitio. ¿Qué características de las poblaciones de capítulos reflejan los
valores calculados?
d. ¿En cuál sitio el número de semillas por capítulo es en promedio mayor y en cuál es más
variable? Explicar sobre la base de la correspondencia entre probabilidades y frecuencias
relativas.
e. Calcular E[U−V] y Var[U−V], la esperanza y la varianza de la diferencia entre los números de
semillas en un capítulo a tomar al azar en el sitio recientemente quemado y en uno a tomar al
azar en el sitio no quemado por mucho tiempo.

3.3 Se denomina poder germinativo a la proporción de las semillas de un lote que germinan
cuando se las coloca en condiciones apropiadas de humedad y temperatura. La etiqueta de una
bolsa de semillas dice que su poder germinativo es de 98%. Para evaluar esta especificación
tomaremos de la bolsa 10 semillas al azar y las mantendremos por separado en condiciones
apropiadas para la germinación. Al cabo de 7 días contaremos y registraremos el número de semillas
que hayan germinado. Denominamos X al número a registrar.
a. ¿Por qué X es una variable aleatoria? ¿Qué valores puede tomar?
b. ¿Qué modelo de distribución de probabilidad corresponde a la variable aleatoria X?
Si la información de la etiqueta es correcta:
c. ¿Qué valores deben tener los parámetros de la distribución de probabilidad de X?
d. ¿Qué valores deben tener la esperanza y la varianza de X? ¿Cómo se interpretan estos valores
en relación con una secuencia larga de repeticiones del experimento propuesto?
e. ¿Qué valor debe tener la probabilidad de que germinen todas las semillas?
f. ¿Qué valor debe tener la probabilidad de que quede una semilla sin germinar?
g. ¿Qué valor debe tener la probabilidad de que queden dos semillas sin germinar?
h. ¿Qué valor debe tener la probabilidad de que germinen más de 7 semillas?

13
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

i. Sobre la base del cálculo realizado en h, ¿qué opinión merecerá la información escrita en la
etiqueta de la bolsa si luego de realizado el experimento encontramos que germinaron 7 semillas
o menos?

3.4 Existen muchos insectos que son considerados útiles para la agricultura porque se alimentan
de otros insectos que dañan a los cultivos. Entre estos depredadores de plagas están la vaquita
colorada (Cycloneda sanguínea), la juanita (Calosoma argentinensis), el tatadiós (Mantis religiosa),
la chinche escudo (Podisus nigrispinus), la crisopa (Chrysopa lanata), etc. El número de presas que
un individuo de una de estas especies captura en un día es una variable aleatoria X cuya distribución
de probabilidad depende de la probabilidad que estos insectos tienen de concretar una captura cada
vez que encuentran una presa potencial y del número de éstas que encuentran. Supongamos que
cada vez que un individuo de una estas especies de depredadores de plagas encuentra una presa
potencial tiene una probabilidad constante de capturarla igual a 0,25.
a. ¿Cuántas presas potenciales debe encontrar en un día para que la probabilidad de capturar al
menos una sea mayor o igual que 0,8?
b. Graficar la distribución de probabilidad del número de presas que este insecto depredador
captura en un día en que encuentra el número de presas potenciales calculado en el punto a.
c. ¿Cuál sería el número más probable de capturas en un día como ese? ¿Cómo se interpreta el
valor de probabilidad correspondiente?
d. Calcular la esperanza del número de presas capturadas en un día en que el insecto depredador
encuentra el número de potenciales presas calculado en a.
e. Calcular la varianza del número de presas capturadas en un día en que el insecto depredador
encuentra el número de potenciales presas calculado en a.
f. ¿Cómo se interpretan los valores de la esperanza y de la varianza calculados en d y e?

3.5 Sea U una variable aleatoria continua con la siguiente función de densidad de probabilidad,

6 ∙ 𝑢 ∙ (1 − 𝑢) , para 0 ≤ u ≤  1
𝑓(𝑢) = {
0 , para cualquier otro valor de u

a. Construir el gráfico de f(u).


b. Comprobar que la distribución de probabilidad de U cumple con las condiciones 3.14 y 3.15.
c. Sobre el gráfico identificar el valor de la mediana u0,5. Confirmarlo mediante el cálculo de la
probabilidad correspondiente.
d. ¿Qué valor tiene P [U =  u0,5]?
e. Calcular la esperanza, la varianza y el desvío estándar de U.
f. Calcular la probabilidad de que U tome un valor entre 0,25 y 0,75.
g. Calcular la siguiente probabilidad condicional: P [U < 0,25 | U < 0,40].

3.6 Bromus catharticus Vahl es una especie de pasto nativo del Cono Sur valorado tanto por la
producción de forraje como por su carácter autóctono. En comparación con otros pastos nativos, las
matas de B. catharticus tienen vida relativamente corta, por lo que la persistencia de esta especie
en los pastizales depende de que la producción, dispersión y germinación de semillas sea frecuente.
Como la longevidad de las matas de B. catharticus varía con las condiciones climáticas, esta
dependencia de la reproducción se vuelve crítica bajo condiciones desfavorables para la
supervivencia. Supongamos que en una región donde los veranos son frescos y húmedos, la
duración total de la vida de una mata de B. catharticus a tomar al azar es una variable aleatoria
continua X que toma valores entre 0 y 2 años y cuya función de densidad de probabilidad es:
1 − 0,5 ∙ 𝑥 , para 0 ≤ x ≤ 2 años
𝑓(𝑥) = {
0 , para cualquier otro valor de x

14
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Supongamos además que en una región donde los veranos son cálidos y secos, la duración total de
la vida de una mata de B. catharticus a tomar al azar es una variable aleatoria continua Y que
también toma valores entre 0 y 2 años pero cuya función de densidad de probabilidad es:
1,5 − 1,5 ∙ 𝑦 + 0,375 ∙ 𝑦 2 , para 0 ≤ y ≤ 2 años
𝑔(𝑦) = {
0 , para cualquier otro valor de y

a. Graficar las funciones de densidad f(x) y g(y) y comparar los gráficos obtenidos. ¿Qué se
observa?
b. Calcular la probabilidad de que una mata de B. catharticus a tomar al azar en el momento de la
germinación en una región con veranos son frescos y húmedos viva en total menos que medio
año. Representarla en el gráfico correspondiente.
c. Calcular la probabilidad de que una mata de B. catharticus a tomar al azar en el momento de la
germinación en una región donde los veranos son cálidos y secos viva en total menos que medio
año. Representarla en el gráfico correspondiente.
d. Comparar las probabilidades calculadas en los puntos b y c. ¿Cómo se interpretan en términos
de frecuencias relativas en las poblaciones correspondientes?
e. Calcular los valores de la esperanza de X y de la esperanza de Y. ¿Cómo se interpretan en
términos de las poblaciones de matas de B. catharticus de una región con veranos húmedos y
frescos y de una región con veranos calurosos y secos?
f. Calcular los valores de la varianza de X y de la varianza de Y. ¿Cómo se interpretan en términos
de las poblaciones de matas de B. catharticus de una región con veranos húmedos y frescos y
de una región con veranos calurosos y secos?
g. Considerar la variable aleatoria X−Y. ¿En qué consiste el experimento aleatorio que la genera?
Calcular E[X−Y] y Var[X−Y].
h. Calcular la probabilidad de que una mata de B. catharticus a elegir al azar en una región donde
los veranos son frescos y húmedos cuando ya alcanzó medio año de edad viva en total más de
un año.
i. Calcular la probabilidad de que una mata de B. catharticus a elegir al azar en una región donde
los veranos son cálidos y secos cuando ya alcanzó medio año de edad viva en total más que un
año.
j. Comparar las probabilidades calculadas en los puntos h y i. ¿Cómo se interpretan en términos
de frecuencias relativas en las poblaciones correspondientes?
3.7 Examinar la curva de la distribución Normal Estándar en la Figura 3.10. Notar que la curva
es simétrica a ambos lados de la línea correspondiente a z = 0. A partir de esa observación contestar
sin usar la tabla.
a. ¿Cuál es el valor de P [Z < 0]?
b. ¿Cuál es el valor de P [Z > 0]?
c. ¿Qué signo tiene z si P [Z < z] = 0,38?
d. ¿Qué signo tiene z si P [Z < z] =0,51?
e. ¿Qué signo tiene z si P [Z > z] = 0,76?
f. ¿Qué signo tiene z si P [Z > z] =0,05?
g. Si z ≤ 0, ¿cuál es el valor máximo que puede tener P [Z < z]?
h. Si z ≥ 0, ¿cuál es el valor mínimo que puede tener P [Z < z]?

3.8 El rótulo de un gran embarque de manzanas Red Delicious para exportación dice que las
manzanas tienen peso medio de 250 g y desvío estándar de 20 g. Si lo que dice el rótulo es cierto y
además el peso de una manzana a tomar al azar de este embarque es una variable aleatoria con
distribución Normal:

15
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

a. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese menos
de 190 g?
b. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese más de
245 g?
c. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese más de
220 g y menos de 280 g?
d. ¿Qué valores tienen la esperanza y la varianza del peso de una manzana a tomar al azar de
este embarque? ¿Cómo se interpretan estos valores en relación con una serie suficientemente
larga de extracciones aleatorias de una manzana de este embarque?
e. Si se separan las manzanas más livianas del embarque hasta descartar el 10% ¿cuál es el peso
máximo de las manzanas separadas?
f. ¿Cuál es la probabilidad de que entre 10 manzanas a tomar al azar de este embarque por lo
menos 8 pesen entre 220 y 280 g?
g. ¿Cuál es la probabilidad de que entre 10 manzanas a tomar al azar de este embarque por lo
menos una pese menos que 220 g o más que 280 g?

3.9 En un área del oeste de la Región Pampeana, se ha determinado que la sequía es el principal
factor limitante del rendimiento de los cultivos de cereales de invierno como el trigo y el centeno. Se
ha observado que si durante el período inverno-primaveral llueve menos que 250 mm disminuye
fuertemente el rendimiento del cultivo de trigo. En cambio el rendimiento del centeno, un cultivo más
resistente a la sequía, se compromete si en dicho período llueve menos que 200 mm. En esta área,
el total de lluvias inverno-primaverales (mm) en un año a tomar al azar es una variable aleatoria con
distribución aproximadamente Normal con μ = 300 y σ = 100.
a. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite el rendimiento
del cultivo de trigo en esta área?
b. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite el rendimiento
del cultivo de centeno en esta área?
c. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía limite el rendimiento
del cultivo de trigo pero no el del cultivo de centeno en esta área?
d. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite los
rendimientos de ninguno de los dos cultivos en esta área?
e. ¿Cuánto vale la probabilidad de que la sequía limite el rendimiento del cultivo de trigo pero no
el del de centeno en esta área en un año a tomar al azar entre aquellos con lluvias inverno-
primaverales inferiores al promedio?
f. ¿Cuánto vale la probabilidad de que en un año a tomar al azar entre aquellos en que la sequía
limita el rendimiento del trigo también el rendimiento del centeno sea limitado por la sequía?

3.10 En una región semiárida, el total de lluvia (mm) que cae en un año a tomar al azar es una
variable aleatoria L con distribución aproximadamente Normal con μ = 400 y σ = 100. Además, la
productividad primaria neta anual de un lote de pastizal (g/m2año) en un año a tomar al azar se
puede calcular aproximadamente como X = 56 + 0,13  L.
a. ¿Por qué X es una variable aleatoria?
b. ¿Cuál es la distribución de probabilidad aproximada de X?
c. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada
de este lote de pastizal sea menor que 90 g/m2año?
d. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada
de este lote de pastizal sea mayor que 130 g/m2año?
e. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada
de este lote de pastizal sea mayor que 100 g/m2año y menor que 120 g/m2año?
f. ¿Cuál es el valor de x0,90, el cuantil 0,90 de la distribución de probabilidad de X?

16
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

g. ¿Cuál es la probabilidad de que en un año con lluvia mayor que 500 mm a tomar al azar, la
productividad primaria aproximada de este lote de pastizal sea mayor que 135 g/m2año?

3.11 Consideremos el experimento aleatorio que consiste en tomar al azar un fruto de Butia yatay
del Parque Nacional El Palmar y contar las semillas viables que contenga. Denominemos X1 a la
variable aleatoria resultante. Como el número de frutos de B. yatay en el P.N. El Palmar es por lo
menos del orden de 1010, es razonable dar por cierto que la extracción de un fruto no modifica
substancialmente las frecuencias relativas de frutos con diferentes números de semillas en dicha
población.
Consideremos ahora el experimento aleatorio que consiste en tomar al azar otro fruto de B. yatay
del Parque Nacional El Palmar y contar las semillas viables que contenga. Denominemos X2 a la
variable aleatoria resultante. X1 y X2 son variables aleatorias independientes con idéntica distribución
de probabilidad. Esta distribución de probabilidad es la que aparece en el Cuadro 3.1.
a. Si como resultado de la primera extracción obtenemos x1 = 2, ¿cuál es la probabilidad de
encontrar un fruto con dos semillas viables en la segunda extracción? Es decir, ¿cuál es el valor
de P [X2 = 2 | X1 = 2]?
b. ¿Cuál es la probabilidad de encontrar frutos con dos semillas viables en ambas extracciones?
Es decir ¿cuál es el valor de P [X2 = X1 = 2]?
La media aritmética de los números de semillas viables a encontrar en las dos extracciones es
𝑋̅ =0,5  X1 + 0,5  X2.
c. ¿Por qué esta media aritmética es una variable aleatoria? ¿Qué valores puede tomar?
d. ¿Cuál es el valor de la esperanza de esta media aritmética? Compararlo con el valor de la
esperanza de X1 y de X2.
e. ¿Cuál es el valor de la varianza de esta media aritmética? Compararlo con el valor de la varianza
de X1 y de X2.
f. ¿Cuál es el valor del desvío estándar de esta media aritmética? Compararlo con el valor del
desvío estándar de X1 y de X2.

3.12 Consideremos la variable aleatoria X1 que resulta de instalar una plántula de Allophylus
edulis cerca de una palmera a elegir al azar en el Parque Nacional El Palmar y medir cuánto crece
en altura durante un año (cm). Consideremos además la variable aleatoria X2 que resulta de instalar
otra plántula de Allophylus edulis cerca de otra palmera al elegir al azar y medir cuánto crece en
altura durante un año (cm). Dadas las características de este experimento, es razonable dar por
cierto que las variables aleatorias X1 y X2 son independientes y tienen idéntica distribución de
probabilidad. Supongamos que dicha distribución común a X1 y X2 es la distribución Normal con μ = 8
y σ = 2,5. Es decir que damos por supuesto que,
X1, X2 ~ N (μ = 8, σ = 2,5) independientes
a. ¿Cuánto vale la probabilidad de que la primera plántula crezca más que 6 y menos que 10 cm?
b. ¿Cuánto vale la probabilidad de que la segunda plántula crezca más que 6 y menos que 10 cm
si la primera crece más que 6 y menos que 10 cm? ¿y si la primera crece menos que 6 cm?
c. ¿Cuánto vale la probabilidad de que ambas plántulas crezcan más que 6 y menos que 10 cm?
La media aritmética de los crecimientos en altura de dos plántulas a instalar cerca de sendas
palmeras a tomar al azar es 𝑋̅ =0,5  X1 + 0,5  X2.
d. ¿Por qué dicha media aritmética es una variable aleatoria? ¿En qué consiste el experimento
aleatorio que la produce?
e. ¿Cuál es la distribución de probabilidad de la media aritmética mencionada?
f. ¿Cuánto vale la probabilidad de que dicha media aritmética tome un valor mayor que 6 y menor
que 10 cm? Comparar con la respuesta del punto a.
g. ¿Cómo se interpreta el valor calculado en el punto f en relación con una serie de repeticiones
del experimento aleatorio que produce la media aritmética?

17
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 4
MUESTRAS ALEATORIAS Y MEDIAS MUESTRALES
4.1 Un bolillero bien construido contiene 100 bolillas esféricas de igual diámetro, peso y
rugosidad. Entre ellas, 20 llevan escrito el número 1, 40 el número 2, 30 el número 3 y 10 el número
4. De este bolillero se tomará una muestra aleatoria de tamaño n = 2 según el siguiente
procedimiento: luego de girar el bolillero 10 veces se extraerá una bolilla y se registrará el número
que tiene escrito, se volverá a colocar la bolilla en el bolillero, se volverá a girar 10 veces, se extraerá
una bolilla y se registrará qué número lleva escrito. Denominemos 𝑋1 y 𝑋2 a los números a registrar
en cada extracción sucesiva y 𝑋̅ a la media a aritmética de ambos.
a. Explicar por qué 𝑋1 y 𝑋2 son variables aleatorias independientes con idéntica distribución de
probabilidad. Representar la distribución de probabilidad común a 𝑋1 y 𝑋2 en una tabla y en un
gráfico de líneas verticales.
b. Calcular los valores de la esperanza y de la varianza de 𝑋1 y 𝑋2 . ¿Qué relación tienen estos
valores con los de la media y la varianza de los números de todas las bolillas del bolillero (la
media poblacional y la varianza poblacional).
c. Detallar las 16 diferentes composiciones posibles de las muestras aleatorias de tamaño n = 2
que se pueden obtener mediante el procedimiento detallado.
d. Para cada una calcular la su probabilidad y el valor de la media muestral 𝑋̅.
e. Con los resultados obtenidos en d, calcular la distribución de probabilidad de 𝑋̅ Representarla
en una tabla y en un gráfico de líneas verticales y compararla con la distribución de probabilidad
de 𝑋1 y 𝑋2 .
f. Calcular los valores de la esperanza y de la varianza de 𝑋̅ a partir de su distribución de
probabilidad.
g. Con los resultados obtenidos en f, verificar las relaciones que existen entre la esperanza de 𝑋̅ y
la de 𝑋1 y 𝑋2 y entre la varianza 𝑋̅ y la de 𝑋1 y 𝑋2 .

4.2 La tabla muestra los diámetros [mm] de las 100 manzanas de un envío procedente del Alto
Valle del Río Negro.
80,1 81,0 76,1 77,9 73,3 70,5 81,4 76,9 72,1 78,0
72,9 81,2 82,5 71,4 71,8 73,5 76,7 78,8 79,2 77,4
74,6 79,3 76,2 79,5 78,2 73,9 84,6 75,3 82,2 72,4
77,6 79,7 78,7 84,2 85,5 79,4 79,1 77,1 82,7 74,0
78,4 77,0 76,4 80,2 68,7 76,5 81,1 74,5 73,7 75,0
79,8 81,7 81,8 83,1 75,6 75,8 76,6 78,5 74,2 75,2
75,7 85,0 83,6 86,2 76,8 75,9 83,4 80,6 77,8 80,0
77,5 78,9 87,3 75,4 77,7 76,0 69,8 80,7 81,5 78,1
82,3 78,3 77,2 79,9 73,1 77,3 74,9 83,9 74,3 79,0
74,8 78,6 72,6 80,8 80,5 80,3 82,0 71,0 82,9 81,7

a. Verificar que la distribución de probabilidad del diámetro de una de estas manzanas a tomar al
azar se ajusta muy bien a la distribución Normal con μ=78 mm y σ=4 mm. (Ayuda: contar los
números de manzanas cuyos diámetros son menores que μ2 σ=70mm, μσ=74mm,
μ =78mm, etc. y determinar si las frecuencias relativas correspondientes son cercanas a las
probabilidades establecidas por la distribución Normal).
b. Extraer de la tabla 20 muestras aleatorias independientes, cada una compuesta por n =5
manzanas y calcular los 20 valores correspondientes de la media muestral.

18
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

c. Calcular el promedio y el desvío estándar de los 20 valores de la media muestral y compararlos


con los valores de μ y σ. Discutir el resultado de esta comparación.
d. ¿Cuál es distribución de probabilidad de la media muestral que se calcula en el punto c?
Determinar si los valores calculados se ajustan razonablemente a esa distribución (Ayuda: usar
la aproximación aplicada en el punto a).

4.3 Los barros cloacales se utilizan para mejorar la productividad de forraje en algunas pasturas.
Sin embargo, estos barros contienen metales pesados tóxicos como el plomo que es absorbido por
las plantas y se acumularse en la carne de los animales que las comen. Con fines bromatológicos,
la carne se clasifica en las siguientes tres categorías según su contenido de plomo en partes por
millón [ppm = mg / kg] :

Inofensiva Levemente Tóxica Tóxica


Concentración de Pb (ppm) < 0,1 [0,1; 0,5) ≥ 0,5

Suponiendo que la concentración de plomo en la carne de un ternero proveniente de pastura tratada


con barros cloacales a tomar al azar es una variable aleatoria con distribución Normal con
parámetros μ = 0,2 y σ² = 0.02,
a. ¿Cuál es la probabilidad de que la carne de un ternero proveniente de pastura tratada con barros
cloacales a tomar al azar resulte clasificada como Levemente Tóxica o Tóxica?
b. ¿Cuál es la probabilidad de que la carne de 5 o más entre 10 terneros provenientes de pastura
tratada con barros cloacales a tomar al azar al azar resulte clasificada como Levemente Tóxica
o Tóxica?
c. ¿Cuál es la probabilidad de que la media aritmética de las concentraciones de plomo en la carne
de 10 terneros provenientes de pastura tratada con barros cloacales a tomar al azar corresponda
a las categorías Levemente Tóxica o Tóxica?

4.4 Si se puede dar por cierto que el peso de un novillo de raza Aberdeen Angus de 36 meses
de edad que a tomar al azar a la entrada del mercado de Liniers [kg] es una variable aleatoria con
distribución Normal con parámetros μ = 420 y σ2 = 64:
a. ¿Cuánto valen la media y el desvío estándar de los pesos de todos los novillos de raza Aberdeen
Angus de 36 meses de edad que entran en el mercado de Liniers?
b. ¿Cuál es la probabilidad de que un novillo de 36 meses de edad a tomar al azar a la entrada del
mercado de Liniers pese a lo sumo 425 kg?
c. ¿Cuál es la probabilidad de que un novillo de 36 meses de edad a tomar al azar a la entrada del
mercado de Liniers pese exactamente 425 kg?
d. ¿Qué distribución de probabilidad tiene la media aritmética de los pesos de n novillos de 36
meses de edad a tomar al azar a la entrada del mercado de Liniers?
e. Calcular la probabilidad de que la media de los pesos de 4 novillos de 36 meses de edad a tomar
al azar a la entrada del mercado de Liniers tome un valor entre 415 y 425 kg.
f. Calcular la probabilidad de que la media de los pesos de 9 novillos de 36 meses de edad a tomar
al azar a la entrada del mercado de Liniers tome un valor entre 415 y 425 kg. ¿Qué propiedad
general de la media muestral se evidencia cuando se compara esta probabilidad con la calculada
en e.?

4.5 En una región semiárida donde llueven 400 mm/año es razonable suponer que la media
poblacional de la productividad primaria neta aérea (PPNA) de los pastizales es μ = 206 g/m²año y
que su desvío estándar poblacional es σ = 36 g/m²año. Consideremos una muestra cualquiera de 36
sitios de pastizal a tomar al azar dentro de dicha región, denotemos 𝑋𝑖 a sus valores de PPNA
(i=1,…,36) y 𝑋̅ a la media de dichos valores.
a. Identificar la población de referencia y las unidades muestrales involucradas.

19
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

b. ¿En qué sentido decimos que 𝑋̅ es un estadístico? ¿Por qué es una variable aleatoria? ¿A qué
corresponden los diferentes valores que puede tomar?
c. ¿Cuál es la distribución de probabilidad aproximada de 𝑋̅? ¿Por qué razón tomamos el recaudo
de decir que la distribución es aproximada?
d. ¿Cuál es el valor aproximado de la probabilidad de que 𝑋̅ tome un valor mayor que 210
g/m²año?

4.6 El rendimiento promedio de los cultivos de un híbrido de maíz en la región de la Pampa


Ondulada es de 10 t/ha y el desvío estándar es de 1,5 t/ha. Supongamos que se tomarán de la región
25 cultivos de dicho híbrido elegidos al azar y se calculará la media aritmética de sus rendimientos
(media muestral):
a. Identificar la población de referencia, la muestra y las variables aleatorias a las que se hace
referencia.
b. Explicar por qué la media muestral es una variable aleatoria.
c. ¿Qué distribución de probabilidad aproximada tiene la media muestral en cuestión?
d. ¿Cuál es la probabilidad aproximada de que la media muestral tome un valor que se aparte de
10 t/ha en más que 500 kg /ha?
e. ¿Cuál es la probabilidad aproximada de que, entre 3 muestras aleatorias como la referida, la
media muestral de al menos una tome un valor que se aparte de 10 t/ha en más que 500 kg/ha?

4.7 En la Pampa Ondulada, el agua subterránea contiene concentraciones variables de sales


que pueden limitar su aptitud para el riego complementario de los cultivos. Para evaluar este
problema, un grupo de investigadoras de la FAUBA planea obtener una muestra aleatoria de 25
pozos en el partido de Pergamino, provincia de Buenos Aires, extraer agua de cada pozo y evaluar
su salinidad mediante la conductividad eléctrica [dS /m = 10 −1 Siemens/metro]. Con los datos a
generar calcularán la media muestral.
a. ¿En qué consiste el procedimiento que las investigadoras deberán aplicar para obtener la
muestra aleatoria?
b. ¿Qué variables aleatorias registrarán? ¿Por qué razón estas variables aleatorias son
independientes y tienen idéntica distribución de probabilidad?
c. Explicar por qué la media muestral de las conductividades eléctricas del agua de los 25 pozos
a incluir en la muestra es una variable aleatoria. ¿A qué corresponden los diferentes valores que
puede tomar?
Si en verdad los contenidos de la conductividad eléctrica del agua de todos los pozos del Partido de
Pergamino tienen media µ = 1,3 dS /m y desvío estándar σ = 0,75 dS /m,
d. ¿Qué valor tiene la esperanza de la media muestral a obtener?
e. ¿Qué valor tiene la varianza de la media muestral a obtener?
f. ¿De qué depende la probabilidad de que la media muestral a obtener tome un valor cercano al
de la media poblacional que se planea estimar?
g. ¿Cuál es el valor aproximado de la probabilidad de que la media muestral que obtendrán las
investigadoras tome un valor que se aparte del promedio del partido en menos que 0,25 dS /m?
h. ¿De qué tamaño debe ser de muestra para que la probabilidad de que la media muestral tome
un valor que se aparte de la media poblacional en menos que 0,25 dS /m sea a lo sumo de 0,90?

4.8 La productividad de los pastizales tiene importancia tanto para la producción de alimento
para los animales domésticos como para cuestiones ambientales tales como la conservación del
suelo y de la fauna autóctona o el control del contenido de dióxido de carbono en el aire. En una
región con clima fuertemente estacional se mide la productividad anual de un pastizal sometido a un
manejo experimental como la cantidad de biomasa de pasto que se acumula durante la estación de
crecimiento. Se sabe que el año pasado la cantidad de biomasa acumulada en este pastizal tuvo un
promedio poblacional de 350 g /m2año y un desvío estándar de 100 g /m2año. Con las mediciones

20
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

de este año se intenta determinar si estos valores han cambiado. En relación con este problema se
formulan los siguientes interrogantes:
a. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la
biomasa de 16 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año?
b. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la
biomasa de 25 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año?
c. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la
biomasa de 36 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año?
d. Con los resultados de los puntos a – d, graficar la probabilidad que había el año pasado de que
la media muestral tomara un valor entre 300 y 400 g /m2año y el tamaño de la muestra.
Comparar el gráfico con el de la figura 4.2.
e. Observando el gráfico del punto e, discutir qué concluir si este año tomamos al azar 30 parches
de 1 m2, cortamos y pesamos con extremo cuidado el pasto que hay en cada parche y
encontramos que la media muestral de la biomasa es de 299 g /m2año? ¿Por qué?

4.9 Una compañía envasadora de harina afirma que los paquetes que produce tienen un peso
promedio de 1000 g y que la varianza de los pesos es de 25 g2. Si la afirmación que hace la
compañía fuera cierta:
a. ¿Cuál sería la distribución de probabilidad aproximada de la media aritmética de los pesos de
36 paquetes a tomar al azar?
b. ¿Cuál sería la probabilidad aproximada de que la media aritmética de los pesos de 36 paquetes
a tomar al azar estuviese comprendida entre 998 y 1002 g?
c. Teniendo en cuenta las respuestas anteriores, discutir la afirmación de la compañía sabiendo
que en una muestra aleatoria de compuesta por 36 paquetes se encontró que la media aritmética
de los pesos era de 998 g.

4.10 Estudios de la productividad de los pastizales americanos han demostrado que la media
poblacional de la cantidad de pasto producido por unidad de superficie y por año, denominado
productividad primaria neta aérea (PPNA), es mayor cuanto mayor es la lluvia que reciben. Estos
estudios muestran también que es razonable suponer que en el continente americano la varianza de
la PPNA entre sitios de pastizal que reciben la misma cantidad de lluvia es aproximadamente 1600
(g /m2año)². En una región con clima homogéneo se proyecta estimar la media poblacional de la
PPNA a partir de datos de una muestra de sitios de pastizal a tomar al azar:
a. Identificar la población, las unidades muestrales, las variables aleatorias y la media poblacional
involucradas en este caso.
b. Si la muestra incluirá 25 sitios de pastizal ¿cuál es el valor de la esperanza del cuadrado de la
diferencia entre la media muestral y la media poblacional de la PPNA?
c. Si la muestra incluirá 25 sitios de pastizal ¿aproximadamente qué probabilidad existe de que la
media muestral a obtener tome un valor en el intervalo con radio 10 g /m2año centrado en el
valor de la media poblacional?
d. ¿Qué tamaño de muestra es necesario para que la probabilidad de que la media muestral tome
un valor que no se aparte más que 10 g /m2año del valor de la media poblacional sea de al
menos 0,99?
e. Si la muestra incluirá 25 sitios de pastizal ¿qué radio tiene el intervalo centrado en el valor de la
media poblacional dentro del cual la probabilidad de que la media muestral tome un valor es de
aproximadamente 0,99?

21
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 5
ESTIMACIÓN DE LA MEDIA Y DE LA VARIANZA
POBLACIONALES
5.1 En cada uno de los gráficos que se presentan a continuación, se esquematizan las funciones
de densidad de probabilidad de dos estadísticos alternativos A y B propuestos como estimadores del
parámetro .

I II III
a. En cada gráfico, comparar el sesgo de los estimadores.
b. En cada gráfico, comparar la varianza de los estimadores.
c. En cada gráfico, identificar el estimador que tiene la distribución de probabilidad más
concentrada alrededor del valor del parámetro .
d. ¿Cuál es el mejor estimador puntual en cada gráfico? Justificar.

5.2 En las regiones agrícolas, el exceso de fertilización nitrogenada puede contaminar el agua
freática con nitratos hasta niveles tóxicos. Con el fin de evaluar los contenidos de nitratos en el agua
de los pozos en un partido de la Pampa Ondulada, un técnico planea obtener una muestra aleatoria
de 30 pozos dentro del partido, extraer agua de cada uno y medir su contenido de nitratos 𝑋1 , . . . , 𝑋30
[ppm]. Con los datos a generar, el técnico calculará los estadísticos 𝑋̅ y 𝑆 2 .
a. Identificar las unidades muestrales, la muestra, la población de referencia y la variable de interés
involucradas en esta evaluación.
b. ¿Cómo debe proceder el técnico para que 𝑋1 , . . . , 𝑋30 sean variables aleatorias independientes
con idéntica distribución de probabilidad?
c. ¿Con qué características de la población coinciden en valor numérico la esperanza y la varianza
de las variables aleatorias 𝑋1 , . . . , 𝑋30 ?
d. ¿Cómo se define el estadístico 𝑋̅? ¿Qué significa que 𝑋̅ es un estimador insesgado, eficiente y
consistente de la media poblacional de los contenidos de nitratos en el agua de los pozos del
partido?
Si en verdad la varianza de los contenidos de nitratos en el agua de los pozos del partido es σ2 = 64
ppm2,
e. ¿Cuánto vale el desvío estándar de 𝑋̅? ¿Qué mide ese valor?
f. ¿Cuánto vale aproximadamente la probabilidad de que el error de estimación de la media
poblacional de los contenidos de nitratos en el agua de los pozos del partido mediante 𝑋̅ resulte
mayor que 2 ppm en valor absoluto?
g. ¿Cómo se define el estadístico 𝑆 2 ? ¿Qué parámetro estima? ¿Cuánto vale su esperanza?

5.3 Sea X una variable de interés cuya distribución de frecuencias en la población de referencia
se ajusta a la distribución Normal con parámetros μ = 17 y σ = 2. Alguien que no conoce los valores
de estos parámetros planea estimarlos a partir de una muestra aleatoria de 9 unidades a tomar en

22
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

la población de referencia, en cada una de las cuales registrará el correspondiente valor de X. Este
procedimiento generará las variables aleatorias 𝑋1 , . . . , 𝑋9 a partir de las cuales se definen los
estadísticos 𝑋̅ y 𝑆 2 .
a. ¿Cómo se definen las variables aleatorias 𝑋1 , . . . , 𝑋9 ? ¿Por qué tienen idéntica distribución de
probabilidad? ¿Cuál es esa distribución?
b. ¿Por qué los estadísticos 𝑋̅ y 𝑆 2 son variables aleatorias? ¿A qué corresponden los diferentes
valores que cada uno puede tomar?
c. ¿Qué distribución de probabilidad tiene el estadístico 𝑋̅?
d. ¿Qué distribución de probabilidad tiene el estadístico (𝑋̅ − 17) ÷ (2⁄√9)? ¿En qué se diferencia
de la distribución de probabilidad de 𝑋̅? ¿Por qué razón?
e. ¿Qué distribución de probabilidad tiene el estadístico (𝑋̅ − 17) ÷ (𝑆⁄√9)? ¿En qué se diferencia
de la del estadístico propuesto en d? ¿Por qué razón?
f. ¿Cuánto vale 𝑃[−3,355 < [(𝑋̅ − 17) ÷ (𝑆⁄√9)] < 3,355]?
g. ¿Cuál es la forma genérica de un intervalo de confianza para μ?

5.4 Un fitotecnista se dispone a ensayar un nuevo híbrido de girasol para decidir si conviene
introducirlo el norte de Santa Fe. Para ello seleccionará una muestra aleatoria de 20 lotes agrícolas
dentro de la región, en cada uno cultivará el híbrido en cuestión y registrará el rendimiento que se
obtenga [t/ ha]. Con los datos a generar, calculará los estadísticos 𝑋̅ y 𝑆 2 y los límites de un intervalo
de 95% de confianza para la media de los rendimientos del nuevo híbrido en los lotes agrícolas del
norte de Santa Fe.
a. Identificar las unidades muestrales, la muestra, la población y las variables aleatorias
involucradas en esta investigación. Nombrar dos posibles causas de la varianza de las variables
aleatorias.
b. ¿De qué factores depende la probabilidad de que 𝑋̅ tome un valor cercano al de la media
poblacional?
c. ¿En cuánto fijará el fitotecnista la probabilidad de que el intervalo a construir resulte en una
estimación errada? ¿Cómo hace?
Una vez cosechados los 20 lotes, el fitotecnista encuentra que la media aritmética de sus
rendimientos ha sido 𝑥̅ = 2,9 t/ ha y que el estimador insesgado de la varianza de los rendimientos
ha resultado s² = 0,36 (t/ ha)².
d. Dando por cierto que el rendimiento de este híbrido en un lote a tomar al azar en el norte de
Santa Fe es una variable aleatoria con distribución Normal, construir el intervalo de 95% de
confianza para la media poblacional de los rendimientos que este híbrido tendría en los lotes el
sur de Santa Fe. Expresar la estimación realizada en una oración referida al fenómeno de
interés.
e. Calcular un tamaño de muestra probablemente suficiente para construir un intervalo de 95% de
confianza para la media poblacional con precisión de ± 200 kg/ ha.

5.5 La producción ganadera constituye un problema para la conservación de la fauna natural de


los ojos de agua (lagunas pequeñas) en el oeste de Chubut. Las deyecciones de las ovejas
enriquecen el agua en nutrientes y esto causa a su vez una proliferación de algas que afecta
seriamente a los peces y anfibios de las lagunas. Este proceso se denomina eutrofización; una
medida de su gravedad es la concentración de clorofila en el agua. Para evaluar este problema, se
midió la concentración de clorofila en el agua de 20 lagunas tomadas al azar en los establecimientos
de cría ovina del oeste de Chubut. Los datos obtenidos son los siguientes:
Concentración de clorofila [microgramo/litro]
342 - 388 - 348 - 296 - 371 - 304 - 368 - 301 - 392 - 331 - 364 - 276 - 312 - 294 - 373
- 380 - 347 - 319 - 371 - 330

23
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

a. Identificar la variable de interés y la población de referencia involucradas en esta evaluación.


b. Utilizar los datos generados para calcular la correspondiente realización de la media muestral
de las concentraciones de clorofila. ¿Qué característica de la población se estima con el valor
obtenido?
c. Explicar por qué el valor calculado en el punto b no sirve como estimador insesgado del
promedio de las concentraciones de clorofila de las lagunas del este de Chubut.
d. Utilizar los datos generados para estimar la varianza de concentración de clorofila de las lagunas
de los establecimientos de cría ovina del oeste de Chubut.
e. Utilizar los datos generados para construir un intervalo de 95% de confianza para concentración
media de clorofila en las lagunas de los establecimientos de cría ovina del oeste de Chubut (dar
por cierto que el contenido de clorofila de una laguna a tomar al azar de esta población es una
variable aleatoria con distribución Normal). Expresar la estimación realizada en una oración
referida al fenómeno de interés.
En relación con la precisión del intervalo de 95% construido,
f. ¿Cómo será la precisión de un intervalo de 99% de confianza calculado con los mismos datos?
g. ¿Cómo será la precisión de un intervalo de 95% de confianza construido con datos provenientes
de una muestra con tamaño n > 20?
h. ¿Cómo será la precisión de un intervalo de 95% de confianza construido con datos provenientes
de una muestra que, por error, incluya algunas lagunas ubicadas en establecimientos sin
ovejas?

5.6 La siguiente planilla muestra las alturas [centímetros] de una población de 100 personas. La
variable sigue una distribución aproximadamente Normal.
persona altura persona altura persona altura persona altura persona altura
1 186 21 168 41 140 61 176 81 165
2 177 22 146 42 179 62 179 82 179
3 197 23 171 43 173 63 171 83 171
4 183 24 171 44 164 64 179 84 176
5 178 25 181 45 173 65 170 85 178
6 175 26 177 46 153 66 169 86 164
7 163 27 183 47 167 67 167 87 188
8 165 28 177 48 160 68 172 88 170
9 176 29 184 49 174 69 170 89 145
10 181 30 167 50 161 70 175 90 176
11 166 31 170 51 173 71 170 91 173
12 149 32 167 52 158 72 153 92 153
13 175 33 178 53 173 73 152 93 164
14 190 34 171 54 169 74 178 94 153
15 161 35 167 55 168 75 165 95 163
16 181 36 158 56 163 76 173 96 169
17 168 37 184 57 174 77 161 97 160
18 164 38 169 58 171 78 162 98 172
19 164 39 168 59 189 79 178 99 172
20 163 40 180 60 146 80 171 100 166
a. Calcular la altura media de todas las personas de esta población.
b. Tomar una muestra aleatoria de n = 3 personas de esta población y construir un intervalo de
90% de confianza. ¿El intervalo construido contiene el valor de la media poblacional?
c. Repetir 10 veces el ejercicio realizado en el punto b y computar la frecuencia relativa con que
intervalos que contienen el valor de la media poblacional.
d. Repetir los puntos b y c con muestras de tamaño n = 6.

24
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

5.7 En cada uno de los gráficos que se presentan a continuación, se esquematizan diferentes
intervalos de confianza para la media poblacional calculados a partir de muestras de tamaño n = 9
obtenidas de una población que en realidad tiene media poblacional μ = 7,0 y un desvío estándar
poblacional σ = 1,0. Uno de los gráficos presenta intervalos de 95% y el otro intervalos de 99% de
confianza.

5 6 7 8 9 10 5 6 7 8 9 10

I II
a. Explicar por qué razón los intervalos contenidos en un mismo gráfico son diferentes entre sí.
b. ¿Cuál de los gráficos presenta intervalos de 95 y cuál de 99 % de confianza? Justificar la
respuesta.
c. Identificar los intervalos que constituyen estimaciones erradas.

5.8 Para evaluar el peso total de forraje presente en una pastura de 10 ha se distribuyeron en
ella 25 marcos de 1 m² ubicados al azar. Todo el forraje presente dentro de cada marco fue cortado,
secado y pesado. Con los datos generados, se calculó la media aritmética (𝑥̅ = 412 g) y el estimador
del desvío estándar (𝑠 = 96 g) de los pesos.
a. Identificar a la población, las unidades muestrales, la muestra, y las variables aleatorias
consideradas en este caso.
b. ¿Cómo se interpreta el estadístico 𝑠? ¿Qué causas podría tener la dispersión que mide?
c. Dando por cierto que el peso del forraje en un marco de 1 m2 a tomar al azar de esta pastura es
una variable aleatoria con distribución Normal, utilizar los valores 𝑥̅ y 𝑠 para construir el
correspondiente intervalo de 95% de confianza para el peso total de forraje de la pastura [t].
Expresar la estimación realizada en una oración referida a la evaluación propuesta.
d. Explicar por qué es incorrecto afirmar que la probabilidad de que el intervalo construido en c
contenga el valor del peso total de forraje de la pastura es 0,95.
e. Calcular un tamaño de muestra probablemente suficiente para estimar el peso total de forraje
de la pastura con confianza 95% y precisión ± 1000 kg.

5.9 La desnitrificación es un proceso microbiano de transformación de nitratos disueltos en el


agua del suelo en óxido nítrico volátil que pasa a la atmósfera y contribuye a la formación de lluvia
ácida. Para evaluar el ritmo de desnitrificación estival en el suelo de la estepa patagónica, una
investigadora de la FAUBA extrae en verano 12 cilindros de suelo de puntos distribuidos al azar
dentro de una parcela de 2500 m 2 ubicada en el campo experimental del INTA en Río Mayo,
Provincia de Chubut. Luego incuba cada cilindro en un envase hermético y mide el flujo de óxido
nítrico del suelo al aire [microgramo N/g suelo.día].
a. Identificar la población de referencia y las variables aleatorias que genera este experimento.
b. Explicar qué son la esperanza y la varianza de las variables aleatorias. ¿Con qué características
de la población de referencia coinciden en valor numérico?
Con los datos generados, la investigadora calcula 𝑥̅ = 2.10-3 microgramo N/ g suelodía, 𝑠 = 2.10-3
microgramo N/ g suelodía y 𝑠⁄√12 =0,577.10-3 microgramo N/ g suelodía.

25
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

c. ¿Qué se estima con 𝑥̅ , con 𝑠 y con 𝑠⁄√12?


d. A partir de los estadísticos calculados, construir un intervalo del 99% de confianza para el ritmo
de desnitrificación promedio en el suelo de la parcela estudiada (dar por cierto que las variables
registradas en las unidades muestrales tienen idéntica distribución Normal). Expresar en la
estimación realizada en términos del fenómeno de interés.

5.10 Diez años atrás, en una estancia de Chubut se puso en marcha un plan de mejoramiento de
la calidad de lana basado en la incorporación de carners de pedigrí. En aquel momento, un censo
de la población de ovejas del establecimiento mostró que la media de la longitud de la lana de vellón
era de 93,7 mm. El encargado del establecimiento decide estimar el cambio ocurrido en la longitud
promedio de la lana de las ovejas del establecimiento. Para ello, en el momento de esquila
seleccionará una muestra aleatoria de 20 ovejas y les medirá la lana del vellón. Con los datos a
generar construirá un intervalo de 95% de confianza para el cambio ocurrido en la longitud promedio
dando por cierto que la longitud de la lana de vellón una oveja a tomar al azar es una variable
aleatoria con distribución Normal.
a. ¿Qué resultado de su estimación permitirá al encargado concluir que la longitud promedio de la
lana de las ovejas del establecimiento aumentó en los 10 años transcurridos?
Una vez completado el muestreo, los datos generados son los siguientes.
Longitud de lana de vellón [mm]
98,2 - 96,5 - 97,4 - 98,6 - 99,8 - 96,6 - 97,4 - 97,7 - 98,0 - 97,4 - 95,7 - 96,3 - 96,8 -
97,6 - 96,3 - 98,3 - 99,0 - 98,2 - 95,2 - 99,4

b. Utilizar los datos para calcular el intervalo de 95 % de confianza para el cambio ocurrido en la
longitud promedio de la lana de las ovejas desde el inicio del plan de mejoramiento.
c. ¿A qué población de referencia se extiende la inferencia realizada?
d. ¿El intervalo de confianza construido justifica concluir que el plan de mejoramiento resultó en un
incremento de la longitud promedio de la lana de las ovejas? Justificar.

26
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 6
PRUEBAS DE HIPÓTESIS ACERCA DE LA MEDIA
POBLACIONAL
6.1 Un fabricante de cigarrillos sostiene que el contenido promedio de nicotina de su producto
es menor que 0,7 miligramos por cigarrillo y solicita autorización para incluir esta afirmación en su
publicidad. Para decidir si autorizarlo o no, es necesario establecer si es razonable dar por cierta
dicha afirmación mediante una prueba de hipótesis. Para ello, se decide obtener una muestra
aleatoria de 30 cigarrillos de la marca en cuestión y determinar el contenido de nicotina de cada uno.
a. Formular las hipótesis estadísticas apropiadas para la prueba requerida.
b. Elegir un nivel de significación para esta prueba.
Una vez obtenida la muestra, los contenidos de nicotina observados son los siguientes (mg/cigarrillo):
Contenido de nicotina [mg /cigarrillo]
0,71 0,75 0,67 0,68 0,72 0,58 0,69 0,71 0,61 0,67 0,75 0,72 0,61 0,63 0,75
0,73 0,59 0,60 0,64 0,60 0,68 0,69 0,78 0,80 0,65 0,62 0,64 0,79 0,76 0,76

c. Dando por supuesto que los datos registrados son realizaciones de variables aleatorias con
distribución Normal, calcular el valor p a partir de los datos disponibles.
d. Concluir e interpretar aclarando el alcance de la inferencia realizada.

6.2 Una compañía productora de automotores asegura que los autos del modelo que ofrece para
ser equipado como taxi cumplen en promedio con la norma de la Agencia de Protección Ambiental
de los Estados Unidos que establece que estos vehículos deben emitir menos de 2,5 gramos de
monóxido de carbono por kilómetro. Para decidir si dar por cierta esta afirmación se decide obtener
una muestra aleatoria de 25 de estos vehículos matriculados como taxis en la ciudad de San
Francisco y medir el nivel de emisión de monóxido de carbono de cada uno.
a. Formular hipótesis estadísticas apropiadas para tomar la decisión en cuestión. Enunciar el
significado de cada hipótesis en términos del fenómeno de interés.
b. Seleccionar un nivel de significación apropiado. ¿Qué implica el valor elegido?
c. ¿En qué consiste el procedimiento para obtener los datos necesarios para poner a prueba las
hipótesis propuestas?
Con los datos obtenidos se calcula la media muestral (2,44 g/km) y el estimador insesgado de la
varianza (0,021 g²/km²).
d. Dando por cierto que los niveles de emisión registrados son realizaciones de variables aleatorias
con distribución Normal, calcular el valor p. ¿Qué probabilidad representa?
e. Concluir y explicar la conclusión en términos del fenómeno de interés.
f. ¿A qué población se extiende la inferencia realizada?

6.3 Una empresa productora de semillas ofrece un nuevo híbrido de maíz que ha sido puesto a
prueba en 12 lotes tomados al azar dentro del partido de Pergamino. Los rendimientos obtenidos en
cada lote fueron los siguientes:

Rendimiento [t/ha]
7,2 - 10,0 - 8,5 - 8,4 - 8,0 - 7,5 - 9,0 - 9,0 - 8,0 - 7,0 - 6,1 - 8,0
a. Identificar la poblacion, la muestra y las variables aleatorias consideradas.
b. Construir un diagrama de caja y bigotes para los datos de rendimiento de los lotes.

27
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

En Pergamino el costo de producción de una hectárea de maíz híbrido es de U$S 325 y el ingreso
por cada tonelada vendida es U$S 50.
c. Poner a prueba la hipótesis nula que dice que el margen bruto (la diferencia entre el ingreso y
el costo) correspondiente a la media poblacional de los rendimientos que este nuevo híbrido
produciría en los lotes del partido de Pergamino no supera los U$S 50 por hectarea. (Mostrar el
desarrollo del análisis)
d. ¿Qué supuesto se dio por cierto para el análisis realizado en c?
e. Sobre la base del resultado obtenido, discutir la conveniencia de adoptar este nuevo híbrido en
el partido de Pergamino.

6.4 En un establecimiento lechero se proyecta utilizar el pasto presente en una pastura de 20 ha


para hacer una reserva de fardos de heno con la cual alimentar a las vacas lecheras durante el
invierno. Por ello interesa determinar si los fardos a producir alcanzarán para cubrir la necesidad de
90 t de forraje para dicho período. Para concluir al respecto, se decide tomar una muestra de 20
marcos de 1 m2 elegidos al azar dentro de la pastura. En cada marco, se cortará todo el forraje y se
lo pesará luego de dejarlo secar al aire del mismo modo que se hace para elaborar los fardos.
a. Identificar las unidades muestrales, la muestra y la población.
b. Formular hipótesis apropiadas para la evaluación propuesta.
Una vez realizadas las mediciones, se encuentra que el promedio de los pesos obtenidos es de 510
gramos/m2 y el estimador del desvío estándar es de 100 g/m 2.
c. Dando por cierto que el peso del forraje en un marco de 1 m2 a elegir al azar en la pastura de
20 ha es una variable aleatoria con distribución Normal, calcular el valor p y concluir con un nivel
de significación α = 0,01.
d. Explicar la conclusión en términos de este problema.
e. Explicar el tipo de error que se puede haber cometido en este análisis y cuáles serían sus
implicancias.

6.5 Para evaluar la exactitud de una nueva técnica de titulación para evaluar el contenido de
arsénico en el agua, una laboratorista prepara una solución acuosa que contiene exactamente 5010-
3 mg de arsénico por litro. Luego, toma al azar 30 alícuotas de la solución y en cada una evalúa el

contenido de arsénico con la técnica propuesta. Con los datos que obtiene calcula la media muestral
(52,1810-3 mg / l) y el estimador del desvío estándar (2,5910-3 mg / l).
a. Bajo el supuesto de distribución Normal de las titulaciones ¿los datos permiten concluir, con α
= 0,05, que la esperanza de las titulaciones difiere del contenido de arsénico de la solución?
b. Explicar qué es el nivel de significación α = 0,05 en términos de este problema.
c. Identificar la población de referencia y las variables aleatorias en este experimento.¿Qué
limitación importante tiene el procedimiento experimental seguido?
d. Construir e interpretar un intervalo de confianza 0,95 para la esperanza de las titulaciones.

6.6 En una investigación sobre la susceptibilidad de plántulas de duraznero a dos cepas


diferentes de un virus, se tomaron de un vivero 15 plántulas al azar; en cada plántula se
seleccionaron 2 hojas y cada una fue inoculada con una de las dos cepas virales. Al cabo de una
semana, se midió en cada hoja el tamaño de la lesión producida por el virus (en mm²). Los datos
obtenidos figuran en la tabla:
Tamaño de lesión [mm 2]
Planta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cepa viral A 31 20 18 8 25 14 17 12 21 30 17 9 13 10 24
Cepa viral B 18 17 14 7 21 13 22 11 22 15 11 10 13 5 25

28
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

a. Estimar el promedio y la varianza de las diferencias entre los tamaños de las lesiones producidas
por las dos cepas virales estudiadas.
b. Elegir un nivel de significación α y poner a prueba la siguiente hipótesis nula: Las lesiones que
producen las dos cepas virales tienen en promedio el mismo tamaño.
c. Construir e interpretar un intervalo de confianza 1−α para la esperanza de la diferencia entre los
tamaños de las lesiones producidas por las dos cepas virales.
d. ¿Qué supuesto condiciona la validez de la inferencia realizada en b y c?
e. Explicar qué representa el valor de α elegido en términos del problema.

6.7 Un consorcio de productores agrícolas (CREA) lleva adelante una comparación de los
rendimientos de maíz obtenidos con dos métodos de cultivo diferentes, labranza mecánica y labranza
química. Para ello, cada socio del CREA elige al azar un lote que ha sido cultivado como una unidad
al menos en los últimos 5 años, lo divide en dos y cultiva maíz aplicando uno de los dos tipos de
labranza en cada mitad. Al final de la campaña, los productores reúnen el siguiente conjunto de datos
de los rendimientos obtenidos:
Rendimiento de maíz [t/ha]
Productor 1 2 3 4 5 6 7 8 9 10
Labranza mecánica 8,9 7,8 10,1 9,7 9,2 9,1 9,9 8,4 9,0 7,2
Labranza química 8,8 6,8 12,9 11,9 8,0 12,2 9,1 11,2 10,5 10,1
a. Estimar el promedio y la varianza de las diferencias de rendimiento entre métodos de cultivo
b. Nombrar posibles causas de la varianza de las diferencias de rendimiento entre métodos de
cultivo.
c. Formular hipótesis para evaluar si los dos métodos de cultivo producen en promedio igual
rendimiento.
Dando por cierto que la diferencia de rendimientos en un lote a tomar al azar es una variables
aleatoria con distribución Normal:
d. Calcular el valor p, concluir con un nivel de significación α = 0,05 y explicar la conclusión en
términos del objetivo del estudio propuesto por el CREA.
e. onstruir e interpretar un intervalo de confianza 0,95 para la media poblacional de las diferencias
entre los renidmientos obtenidos con los dos tipos de labranza en los lotes de los productores
del CREA.

6.8 Durante la última década, una importante superficie de los pastizales de la Región
Pampeana ha sido reemplazada por forestaciones. Este cambio en el uso de la tierra puede producir
consecuencias ambientales debidas a modificaciones de la hidrología local, como cambios en el
caudal de los arroyos, en el contenido de sales del suelo o en la profundidad de la napa freática
(agua subterránea). En un estudio orientado a evaluar el impacto de las forestaciones sobre el ciclo
hidrológico, se seleccionaron al azar 10 forestaciones en el partido de Zárate y, en cada una ellas,
se midió la profundidad de la napa freática (en metros) en el centro de la plantación y en el pastizal
vecino a la misma. Los datos obtenidos figuran en la tabla:
Profundidad de napa [m]
Forestación 1 2 3 4 5 6 7 8 9 10
Centro plantación 2,0 2,3 2,2 2,0 2,3 2,5 2,0 2,3 2,4 2,0
Pastizal vecino 1,5 1,6 1,6 1,5 1,8 1,8 1,5 1,6 1,7 1,4
a. Identificar la población, la muestra y las unidades muestrales y las variables aleatorias
involucradas en este estudio.
b. Estimar la media y la varianza poblacionales de las diferencias en la profundidad de napa entre
pastizales y forestaciones.

29
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

c. Dando por cierto que el desnivel de napa freática entre el centro de una forestación a elegir al
azar en el partido de Zárate y su pastizal vecino es una variable aleatoria con distribución
Normal, poner a prueba la hipótesis que dice que, en Zárate, las forestaciones han determinado
un aumento en la profundidad promedio de la napa freática.
d. ¿Qué tipo de error se puede haber cometido en la prueba de hipótesis anterior? Explicar su
significado en términos del problema.

6.9 El asesor de una empresa agrícola del Oeste de la provincia de Buenos Aires necesita
recomendar acerca de la posible conveniencia de cambiar la variedad de girasol utilizada en los
últimos años (Contiflor) por una alternativa (Paraiso). Para ello cuenta con un conjunto de datos de
los rendimientos de dichas variedades en 5 establecimientos tomados al azar en la zona.

Rendimientos de girasol (kg/ha)


Establecimiento
Variedad Don Juan Alborada Tobiano El Lucero La Martita
Paraiso 1805 2200 1545 1875 1430
Contiflor 1724 1950 1325 1685 1148
a. Identificar la población, la muestra y las variables aleatorias involucradas en este problema.
b. ¿Qué experimento aleatorio produce las variables aleatorias en cuestión?
c. Seleccionar una prueba de hipótesis para fundamentar la recomendación acerca de la posible
conveniencia de cambiar la variedad de girasol. Justificar la selección.
d. Formular y poner a prueba la hipótesis para un nivel de significación apropiado. Concluir y emitir
una recomendación.
e. ¿Qué supuesto debería verificarse para que la inferencia realizada en d sea válida?

6.10 La vegetación característica del Parque Nacional El Palmar es una sabana con palmeras
altas dispersas en una matriz de vegetación herbácea y arbustiva baja. Esta sabana es
progresivamente invadida por árboles de especies que antes estaban restringidas a los bosquecitos
que rodean a los ríos y arroyos. Un estudiante de la Escuela para Graduados Alberto Soriano de la
Facultad de Agronomía proyecta un experimento para determinar si el crecimiento promedio de las
plántulas de Allophylus edulis (chal-chal), una de estas especies de árboles, difiere entre plántulas
que están ubicadas bajo la copa de alguna palmera y plántulas que están ubicadas lejos de cualquier
palmera. Para ello, seleccionará al azar 20 plántulas de Allophylus edulis establecidas bajo la copa
de alguna palmera y 20 establecidas a más de 5 m de la palmera más cercana. Luego registrará el
crecimiento de cada plántula durante un año, medido como la suma del crecimiento de todas sus
ramas [cm].
a. Identificar las poblaciones, las muestras, las unidades muestrales y las variables aleatorias
involucradas en esta investigación.
b. Explicar qué son los valores de crecimiento promedio que se intenta comparar.
c. Proponer dos causas posibles de la varianza de las variables aleatorias a registrar.
Luego de realizar el experimento propuesto, el estudiante registra los datos que figuran en siguiente
la tabla:
Crecimiento total por plántula [cm]
Bajo copa de palmera 15,1 - 16,0 - 17,0 - 17,6 - 16,3 - 14,4 - 14,6 - 16,4 - 17,5 -
19,6 - 15,4 - 18,0 - 14,2 - 15,8 - 15,0 - 17,7 - 19,1 - 15,7 -
18,4 - 18,3
Lejos de palmera 18,2 - 19,5 - 21,1 - 16,1 - 16,0 - 16,4 - 18,6 - 16,9 - 16,6 -
15,5 - 18,5 - 13,2 - 18,3 - 18,1 - 20,3 - 14,8 - 20,5 - 14,8 -
15,9 - 16,9

30
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

d. A partir de los datos obtenidos, producir estimaciones puntales e intervalos de 95% de confianza
para los valores de las medias poblacionales de los crecimientos de las plántulas de Allophylus
edulis ubicadas debajo de la copa de una palmera y de las ubicadas a más de 5 m de cualquier
palmera. Presentar las estimaciones en un gráfico de barras.
e. Formular y poner a prueba hipótesis apropiadas para realizar la evaluación propuesta.
f. ¿Qué supuestos involucra la inferencia realizada en e?
g. Interpretar los resultados de la inferencia en términos del problema particular.
h. Explicar qué error se puede haber cometido. ¿Qué se hubiera podido hacer para disminuir la
probabilidad de este tipo de error?

6.11 Un técnico del INTA condujo un experimento para evaluar el efecto de la aplicación de cobre
inyectable sobre la ganancia diaria de peso de terneros. Para ello, en un establecimiento de cría
vacuna en el este del Chaco, tomó dos muestras aleatorias de terneros de un mes y medio de edad
y dos muestras aleatorias de terneros de dos meses y medio de edad hijos de vacas cebú
inseminadas con semen de toros Polled Hereford, A fin de octubre pesó a todos los terneros
seleccionados y luego sometió a los terneros y a las madres de una de las muestras de cada edad
a un tratamiento de inyecciones de cobre y dejó a los restantes como controles sin tratar. Todos los
terneros pastorearon con sus madres en campo natural hasta el destete cuatro meses después,
momento en que se los volvió a pesar para calcular su ganancia de peso diario. A continuación se
presenta un resumen de los datos generados en el experimento.
Ganancia de peso de los terneros [g/día]
Edad inicial: un mes y Edad inicial: dos meses y
medio medio
n 𝑥̅ s n 𝑥̅ s
Tratados con Cu 16 807,03 74,37 16 768,00 63,44
Control 14 684,38 81,56 18 736,72 78,55
a. Identificar las poblaciones, las unidades muestrales, las muestras y los tratamientos.
b. Formular y poner a prueba hipótesis para establecer si la aplicación de cobre resulta en mayor
ganancia de peso diario promedio de los terneros con edad inicial de un mes y medio ( = 0,01).
c. Formular y poner a prueba hipótesis para establecer si la aplicación de cobre resulta en mayor
ganancia de peso diario promedio de los terneros con edad inicial de dos meses y medio
( = 0,01).
d. ¿Qué error podría haber cometido en cada una de las dos pruebas realizadas? Describirlo en
términos de este problema.
e. ¿Bajo qué supuestos son válidas las inferencia realizadas en b y c?

6.12 La aptitud de la harina de trigo para panificación depende principalmente de su contenido de


un complejo proteico denominado gluten. Para evaluar la posible influencia del sistema de secado
del grano sobre su contenido de gluten, se seleccionaron al azar dentro de la provincia de Buenos
Aires 12 plantas de acopio que utilizan un sistema de secado prolongado a baja temperatura y 15
plantas de acopio que utilizan un sistema de secado rápido con alta temperatura y se determinó el
contenido de gluten del trigo [g /100 g] procesado en cada una. Los datos obtenidos son los
siguientes:
Contenido de gluten [g /100 g]
Baja temperatura 25,9 – 25,3 – 25,1 – 26,6 – 25,5 – 24,7 – 24,6 – 27,0 – 25,2 – 25,2 – 25,0 –
28,6
Alta temperatura 27,7 – 22,2 – 22,9 – 24,2 – 22,8 – 23,8 – 24,8 – 26,3 – 23,3 – 24,4 – 24,9 –
21,5 – 26,3 – 24,6 – 25,6
a. Identificar las unidades muestrales, las muestras y las poblaciones.

31
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

b. Formular hipótesis apropiadas para evaluar si contenido promedio de gluten es afectado por el
sistema de secado.
Dando por cierto que los datos obtenidos son realizaciones de variables aleatorias con distribución
Normal con idéntica varianza.
c. Poner a prueba la hipótesis nula con un nivel de significación α = 0,05.
d. Construir un intervalo de confianza 0,95 para la diferencia entre los promedios de contenido de
gluten de trigo procesado con baja y con alta temperatura (Ayuda: el estimador puntual de esa
diferencia es la diferencia entre las medias muestrales y el error estándar de la diferencia entre
dos medias muestrales independientes está en la ecuación 6.15).
e. Explicar qué conclusión debería extraerse en relación con este fenómeno de interés y enunciar
el supuesto bajo el cual dicha conclusión sería válida.

32
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 7
PRUEBAS DE HIPÓTESIS ACERCA DE VARIABLES
CATEGÓRICAS
7.1 Para decidir si un dado está bien balanceado se decide arrojarlo 60 veces y registrar las
frecuencias con que cada una de las caras queda hacia arriba.
a. ¿Qué tipo de prueba de hipótesis corresponde realizar en este caso?
b. Formular las hipótesis nula (el dado está bien balanceado) y alternativa (el dado está “cargado”)
en términos de la distribución de probabilidad que corresponda.
Una vez completado el experimento descripto, se han registrado las siguientes frecuencias
absolutas:
Cara 1 2 3 4 5 6
Frecuencia 12 5 4 15 13 11
c. A partir de los datos obtenidos, poner a prueba las hipótesis (  = 0,05) y concluir en términos
del problema.
d. ¿Qué error puede estar asociado con la conclusión obtenida? ¿Qué modificación se podría
hacer al procedimiento experimental para disminuir la probabilidad de este tipo de error?

7.2 El rótulo de una bolsa dice que poder germinativo de la semilla que contiene es 0,95. Para
evaluar la veracidad de esta afirmación se decide obtener una muestra aleatoria de 100 semillas de
la bolsa, ponerlas en condiciones de humedad y temperatura apropiadas para la germinación y, luego
de 4 días, registrar las frecuencias absolutas de semillas germinadas y de semillas no germinadas.
a. ¿Cuántas poblaciones, cuántas muestras y cuántas unidades muestrales están involucradas en
este ensayo?
b. ¿Qué distribución de probabilidad tiene la frecuencia absoluta de semillas germinadas a registrar
en este ensayo si el poder germinativo es el consignado en el rótulo de la bolsa?
c. Formular hipótesis estadísticas apropiadas para decidir si el poder germinativo de la semilla
difiere del consignado en el rótulo de la bolsa.
d. ¿Qué tipo de prueba corresponde realizar?
Una vez completado el ensayo, 89 semillas han germinado y 11 no han germinado.
e. Estimar el poder germinativo de la semilla sobre la base de los datos obtenidos.
f. Completar la prueba de hipótesis y decidir si con nivel de significación α = 0,01 el poder
germinativo estimado es significativamente diferente del declarado en el rótulo de la bolsa.

7.3 Se realiza una investigación para evaluar si los criterios para la habilitación de automotores
son homogéneos entre un centro de inspección en la ciudad de Buenos Aires y otro en el Gran
Buenos Aires. Para ello, se seleccionan al azar 100 vehículos con 10 años de antigüedad
inspeccionados en el centro de inspección en la ciudad de Buenos Aires y otros 100 de igual
antigüedad inspeccionados en el del Gran Buenos Aires. Se encuentra que 80 de los 100 vehículos
inspeccionados en Buenos Aires y 95 de los 100 inspeccionados en el Gran Buenos Aires 80 han
sido autorizados a circular.
a. Identificar a las unidades muestrales, las muestras, las poblaciones y las variables aleatorias
involucrados en esta investigación.
b. ¿A qué tipo de prueba corresponde la hipótesis nula: “no hay diferencia entre las frecuencias
relativas de vehículos autorizados a circular en los dos centros de inspección”?

33
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

c. Poner a prueba esta hipótesis con un nivel de significación α = 0,05.


d. ¿Qué representa en este caso particular el nivel de significación α?
e. ¿Qué conclusión queda habilitada por el resultado de esta prueba?

7.4 Un fitotecnista compara la incidencia del gusano barrenador del tallo en las plantas de dos
cultivares de maíz híbrido A y B bajo condiciones de cultivo comercial. Para ello, elige 100 plantas al
azar en un lote cultivado con el híbrido A y 100 en otro lote cultivado con el híbrido B. Encuentra que
25 de las 100 plantas del cultivar A y 39 de las 100 plantas del cultivar B están afectadas por el
gusano barrenador
a. ¿Cuántas muestras y cuántas unidades muestrales fueron involucradas en esta investigación?
b. ¿Cuáles son las variables aleatorias categóricas cuyas distribuciones de probabilidad compara
el fitotecnista?
c. Los números observados de plantas del cultivar A y del cultivar B afectadas por el gusano
barrenador son realizaciones de dos variables aleatorias. ¿Qué tipo de distribución de
probabilidad siguen esas variables?
d. ¿En cuánto debería estimar el fitotecnista la incidencia del gusano barrenador en cada uno de
los híbridos? ¿Por qué existe incertidumbre respecto de estas estimaciones?
e. Desarrollar la prueba de hipótesis necesaria para establecer si el fitotecnista puede concluir, con
nivel de significación α = 0,05, que la incidencia del gusano barrenador difiere entre los dos
híbridos.
f. ¿A qué poblaciones se extiende la inferencia realizada?
g. Explicar qué error se puede haber cometido y qué consecuencia tendría en este caso.

7.5 Para evaluar la efectividad de un producto fungicida recomendado para controlar un hongo
patógeno que afecta al trigo, técnicos del INTA cultivan 100 plantas de trigo y las infectan con el
hongo. Luego, seleccionan al azar 50 de estas plantas y las tratan con el producto en cuestión.
Cuando las plantas comienzan a alargar los entrenudos (encañazón) registran que entre las 50
plantas tratadas con el funguicida, 18 están en buen estado, 17 están levemente afectadas y 15
están en muy mal estado. Entre las plantas no tratadas con el funguicida, 5 están en buen estado,
19 están levemente afectadas y 26 están en muy mal estado.
a. ¿Qué tipo de prueba corresponde realizar para decidir si las distribuciones de frecuencias de
estados (bueno, levemente afectado y malo) difieren entre plantas de trigo tratadas y no tratadas
con el fungicida?
b. Desarrollar la prueba paso a paso con nivel de significación α = 0,05.
c. Comunicar el resultado en términos de la evaluación de la efectividad del producto fungicida.
d. Explicar qué error se puede haber cometido en este análisis.

7.6 Una denuncia contra una planta industrial ubicada en una zona urbana sostiene que libera
cantidades de dióxido de azufre nocivas para las vías respiratorias. Como parte de la investigación
judicial subsiguiente, se realiza una encuesta entre pobladores domiciliados a menos de 300 m de
dicha planta industrial. Se entrevistan 90 residentes de la zona localizada a sotavento de la planta
industrial y 85 residentes de la ubicada a barlovento. En cada caso, se registra cuántos residentes
encuestados presentan alguna patología respiratoria. Los datos generados figuran en la tabla:
Patología respiratoria
Si No
Sotavento 64 26
Zona
Barlovento 47 38
a. ¿Cuántas poblaciones, cuántas muestras y cuántas unidades muestrales se examinaron en esta
investigación?

34
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

b. Estimar la proporción de pobladores que presenta patologías en cada zona. ¿Por qué existe
incertidumbre respecto de estas estimaciones?
c. Formular y poner a prueba hipótesis estadísticas apropiadas para decidir si la incidencia de
patologías respiratorias difiere entre las dos zonas.
d. ¿Qué conclusión queda habilitada por el resultado de esta prueba de hipótesis? ¿Qué error
podría implicar?

7.7 En el marco de una investigación de campo dirigida a comparar los resultados del control de
malezas por métodos mecánicos y químicos, un técnico decide tomar dos muestras aleatorias de 50
lotes agrícolas en un partido de la Pampa Ondulada. En todos los lotes seleccionados se cultivará
maíz; en los de la primera muestra se aplicará control mecánico de malezas y en los de la segunda
se aplicará control químico. A los 45 días de la emergencia de las plantas de maíz, el técnico
registrará en cada lote el grado de infestación con malezas como Severo, Moderado o Leve.
a. Identificar la población de referencia, las unidades muestrales, las muestras, los tratamientos y
las variables aleatorias categóricas consideradas en esta investigación.
b. ¿A qué tipo de prueba corresponde la hipótesis nula: “no hay diferencia entre los dos métodos
de control de malezas en la distribución de frecuencias relativas de del grado de infestación con
malezas?
Una vez completado el ensayo, se han encontrado las frecuencias absolutas consignadas en la
siguiente tabla de contingencia:
Grado de infestación
Severo Moderado Leve
Método Químico 6 10 34
de control Mecánico 9 15 26

c. Completar la prueba de hipótesis con nivel de significación  = 0,05 y concluir en términos del
objetivo del ensayo.
d. Explicar qué error se puede haber cometido en este análisis.

7.8 La siguiente tabla muestra los datos obtenidos en una investigación médica para el cual se
examinó una muestra aleatoria de 120 partos ocurridos en 2005 en hospitales públicos de la ciudad
de Buenos Aires y se registró si las madres eran o no fumadoras y si su bebé tenía peso normal o
peso bajo (menor que 2,5 kg).
Peso del hijo
Normal Bajo
Fumadora 4 13
Madre
No Fumadora 57 46
a. ¿Cuántas unidades muestrales, cuántas muestras y cuántas poblaciones fueron consideradas?
b. Estimar P[B|A] y P[B|AC], donde A es el evento “madre fumadora” y B el evento “bebé con peso
normal”.
c. Explicar por qué existe incertidumbre respecto de las estimaciones anteriores.
d. Formular y poner a prueba la hipótesis nula: “La deficiencia de peso de los bebes al nacer es
estadísticamente independiente del hábito de fumar de las madres”.
e. ¿Qué representa en este caso particular el nivel de significación elegido?
f. ¿A qué población se extiende la inferencia realizada?

7.9 Una investigadora de la FAUBA que evalúa indicios de interacciones entre plantas en los
cultivos se propone establecer si es razonable aceptar que los sentidos de inclinación de plantas
vecinas no son estadísticamente independientes. Para ello, selecciona al azar 60 plantas en un

35
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

cultivo denso de girasol (14 plantas/m 2) sembrado en surcos orientados de N a S. Para cada planta
registra su sentido de inclinación (E, O, Ninguno) y el sentido de inclinación de la planta
inmediatamente vecina hacia el S.
a. Identificar las unidades muestrales, la muestra y las variables aleatorias categóricas
involucradas en esta investigación.
b. Formular las hipótesis estadísticas apropiadas para cumplir con el objetivo de la investigadora.
c. ¿Cuál es el estadístico de prueba apropiado? ¿Qué distribución de probabilidad tiene en caso
de ser cierta la hipótesis nula?
Una vez realizado el muestreo, la investigadora ha obtenido los siguientes registros:
Inclinación planta sorteada
Este Oeste Ninguno
Inclinación Este 1 15 2
planta Oeste 16 0 4
vecina Ninguno 3 2 17
d. Completar la prueba hipótesis con nivel de significación α = 0,01 y concluir en términos del
objetivo de la investigadora.
e. ¿A qué población se extiende la inferencia realizada?

7.10 En el marco de una investigación sobre la regeneración de la palmera Butia yatay, una
estudiante de la FAUBA evalúa la incidencia de distintos agentes que dañan las semillas. Para tal fin
decide tomar al azar 500 carozos depositados en el suelo de un palmar, inspeccionar cada uno y
registrar primero si conserva o no pulpa adherida (indicando si fue o no producido en el último año)
y segundo si se encuentra sano o si ha sido dañado por insectos (Bruchidae), por roedores o por
microbios (hongos y/bacterias).
a. Identificar las unidades muestrales, la muestra y la población involucradas en este muestreo.
b. ¿Qué variables aleatorias categóricas registrará la estudiante?
Una vez realizado el muestreo, la estudiante ha obtenido los siguientes registros:
Estado
Sano Daño por Daño por Daño por
Bruchidae Roedores Microbios
Reciente (con pulpa) 39 5 1 17
Antigüedad
Viejo (sin pulpa) 46 38 133 221
c. Estimar las probabilidades de registrar los diferentes tipos de daño en los carozos con diferente
antigüedad.
d. Completar una prueba hipótesis apropiada para establecer si la incidencia de diferentes agentes
que dañan las semillas de Butia yatay depende del tiempo que los carozos han permanecido en
el suelo (con α = 0,01).
e. Escribir la conclusión de la prueba de hipótesis en términos del problema.
f. Explicar qué error se puede haber cometido e indicar cómo se hubiera podido disminuir el riesgo
de cometerlo.

36
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 8
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
8.1 En el marco de una investigación sobre la fertilidad del suelo, se realizó un experimento para
evaluar los efectos de la aplicación de fertilizantes orgánicos. Para ello, dentro de un campo
experimental se seleccionaron 4 muestras aleatorias de 3 parcelas de 400m² cada una y a las
parcelas de cada muestra se les aplicaron dosis de compost de 0, 6, 12 y 18 ton/ha respectivamente.
Al cabo de un año, en cada parcela se midió el contenido de nitrógeno inorgánico [kg de N/ha] en los
primeros 20 cm del suelo. Los datos generados se presentan en el siguiente cuadro.

Parcela 1 2 3 4 5 6 7 8 9 10 11 12
Compost [t/ha] 0 0 0 6 6 6 12 12 12 18 18 18
N inorg. [kg/ha] 173 166 155 164 188 177 170 185 198 200 192 206

a. Esquematizar un mapa con una posible distribución del experimento en el campo. ¿Cómo se
procedió para asignar la dosis de compost a cada parcela?
b. Identificar la variable independiente y la variable respuesta. Confeccionar el diagrama de
dispersión y describir la aparente relación estadística entre las variables. ¿Por qué se trata de
una relación estadística y no funcional?
c. Formular el modelo de regresión lineal correspondiente, identificar el dominio e interpretar cada
parámetro en términos del fenómeno de interés.
d. Calcular la recta de regresión estimada y graficarla sobre el diagrama de dispersión.
e. Estimar la varianza del contenido de N inorgánico de los suelos tratados con una misma dosis
de compost. ¿Qué unidad tiene?
f. Llevar a cabo la prueba de utilidad del modelo (=0,05). Interpretar la conclusión en términos
del fenómeno de interés.
g. Construir un intervalo de 0,95 de confianza para  1. Enunciar la estimación correspondiente con
una oración completa. Controlar que la estimación concuerde con el resultado de la prueba de
utilidad.
h. Construir un intervalo de 0,95 de confianza para  0. Enunciar la estimación correspondiente con
una oración completa.
i. Calcular y graficar la banda de 0,95 de confianza para la recta de regresión.
j. Calcular e interpretar el coeficiente de determinación.
k. ¿A qué población se extiende la inferencia realizada?

8.2 El girasol (Helianthus annuus L.) es una planta de polinización entomófila. Esto significa que
para producir semilla requiere de insectos que transportan el polen de las anteras a los estigmas.
Por eso, el rendimiento de este cultivo depende de la actividad de los insectos polinizadores. Como
es común que los insectos silvestres no alcancen a polinizar todas las flores, el rendimiento de los
cultivos frecuentemente se puede aumentar instalando colmenas de abejas. Los productores de una
cooperativa de Venado Tuerto (Santa Fe) condujeron un experimento para evaluar la relación
estadística entre densidad de colmenas x y el rendimiento de sus cultivos de girasol Y. Para ello,
seleccionaron 6 muestras aleatorias de 10 lotes sembrados con girasol dentro de su área de
influencia y las distribuyeron en 6 tratamientos: 0, 2, 4, 6, 8 y 10 colmenas /ha. A la cosecha,
registraron el rendimiento obtenido en cada lote y con los datos generados realizaron un análisis de
regresión lineal simple. A continuación se presentan el gráfico de dispersión y algunos resultados
parciales del análisis.

37
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

𝑛 = 60
colmena
𝑥̅ = 5 [ ]
ha
t
𝑦̅ = 2,383126
ha
60
colmena 2
𝑆𝐶𝑥 = ∑(𝑥𝑖 − 𝑥̅ )2 = 700 [( ) ]
ha
𝑖=1
60
t 2
𝑆𝐶𝑦 = ∑(𝑦𝑖 − 𝑦̅)2 = 3,169598 [( ) ]
ha
𝑖=1

60
t 2
𝑆𝐶𝑑 = ∑(𝑦𝑖 − 𝑚𝑌.𝑥𝑖 )2 = 1,103770 [( ) ]
ha
𝑖=1

60
colmena t
∑(𝑥𝑖 − 𝑥̅ ). (𝑦𝑖 − 𝑦̅) = 38,846876 [ ∙ ]
ha ha
𝑖=1

a. Identificar la población de referencia, las unidades muestrales y los tratamientos involucrados


en este experimento.
b. Formular el modelo de regresión lineal e interpretar todos sus términos en relación con
fenómeno de interés evaluado en este experimento.
c. Estimar la ordenada al origen y la pendiente de la recta de regresión. Dibujar la recta de
regresión estimada sobre el diagrama de dispersión.
d. Estimar la varianza de los rendimientos de lotes con igual densidad de colmenas. ¿A qué causas
podría deberse la dispersión que mide este parámetro?
e. Poner a prueba, con nivel de significación =0,01, la siguiente hipótesis nula: En el área de
influencia de la cooperativa de Venado Tuerto, el rendimiento promedio de los lotes de girasol
no varía con la densidad de colmenas que se instalen en ellos. ¿Bajo qué condiciones el riesgo
de rechazar equivocadamente esta hipótesis es exactamente 0,01?
f. Construir intervalos de 0,99 de confianza para los promedios de rendimiento de los lotes con 4
y con 10 colmenas por ha. Explicar por qué esos dos intervalos tienen diferente precisión.
g. Calcular el coeficiente de determinación e interpretarlo en términos del fenómeno de interés.
h. ¿Por qué este análisis no permite estimar el rendimiento promedio de los lotes de girasol con
15 colmenas por ha con riesgo de error conocido?

8.3 La sabana de palmeras del Parque Nacional El Palmar está invadida por árboles de especies
que antes estaban restringidas a los bosquecitos riparios. Como parte de una evaluación de la
invasión, una estudiante de FAUBA proyecta elegir al azar 20 sitios de sabana a distancias del
bosque preestablecidas en aproximadamente 200, 450, 800, 1200 y 1600 m (4 sitios por distancia
aproximada). En cada sitio elegido, establecerá una parcela de 400 m 2 y dentro de ella contará todos
los arboles de especies riparias presentes. Con los datos que genere llevará a cabo un análisis de
regresión lineal simple para evaluar la relación estadística entre el logaritmo natural de la densidad
de árboles riparios [árbol /400 m2] y la distancia al bosque más cercano [m].
a. Identificar las poblaciones de referencia, las unidades muestrales, la variable independiente y la
variable respuesta involucradas en esta investigación.
b. Formular el modelo de regresión lineal simple e interpretar sus parámetros en relación con el
fenómeno de interés evaluado en esta investigación.
Una vez ejecutado el muestreo, la estudiante analiza sus datos. Parte de su trabajo se transcribe a
continuación:

38
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

𝑛 = 20
𝑥̅ = 847,6
𝑦̅ = 5,0084
𝑏1 = −0,0011
𝑏0 = 5,9401
𝑠𝛽̂1 = 0,0003
𝑠𝛽̂0 = 0,2420
𝑆𝐶𝑥 = 4755030,8
𝑆𝐶𝑦 = 10,9882
𝑆𝐶𝑀 = 5,7461
𝑆𝐶𝑑 = 5,2421

c. Llevar a cabo la prueba de utilidad del modelo (=0,01). Interpretar la conclusión y explicar el
error que puede involucrar en términos del fenómeno de interés.
d. Sobre el diagrama de dispersión graficar la recta de regresión estimada con una banda de 0,99
de confianza.
e. Calcular el coeficiente de determinación e interpretarlo en relación con el fenómeno de interés.
f. Sobre la base de los resultados del análisis, describir del modo más completo posible la relación
estadística entre la densidad de árboles riparios y la distancia al bosque más cercano.
g. ¿Por qué razón en este caso los niveles de significación y los niveles de confianza elegidos para
la inferencia son sólo aproximados?

8.4 Una alternativa para controlar los nematodos que dañan a las raíces de las plantas de tomate
es establecer un cultivo acompañante de plantas que producen sustancias que repelen los
nematodos (Tagetes sp.). Para evaluar esta alternativa, en un establecimiento hortícola con alto
grado de infestación con nematodos se decide tomar 4 muestras aleatorias formadas por 6 parcelas
de 10 m² cada una. En las parcelas de cada muestra se cultivará tomate junto con una densidad
preestablecida de Tagetes sp. (0, 9, 15 o 25 plantas por m²) y se registrará el rendimiento del cultivo
de tomate [kg/m²]. Con los datos a generar con este experimento se realizará un análisis de regresión
lineal simple basado en el siguiente modelo,
𝜇𝑌.𝑥𝑖 = 𝛽0 + 𝛽1 ∙ 𝑥𝑖 , para 0 ≤ 𝑥𝑖 ≤ 25 planta/m2
{
𝑌𝑖 ~𝑁(𝜇𝑌.𝑥𝑖 , 𝜎) independientes , 𝑖 = 1, … ,24

a. Explicar el significado que tiene en este caso cada término del modelo e indicar en qué unidad
de mide
Una vez ejecutado el experimento, el análisis de los datos generados produce las siguientes
estimaciones:
kg kg
𝑏0 = 12,95 [ ] 𝑠𝛽̂0 = 1,75 [ 2 ] 𝑅2 = 0,54
m2 m
kg planta kg planta
𝑏1 = 0,58 [ 2 / ] 𝑠𝛽̂1 = 0,13 [ 2 / ]
m m2 m m2
b. Poner a prueba la hipótesis nula H0) β1 = 0 (prueba de utilidad del modelo) con nivel de
significación =0,01. ¿Qué inferencias quedan habilitadas por el resultado de esta prueba de
hipótesis?

39
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

c. Construir un intervalo de 0,99 de confianza para la pendiente de la recta de regresión. Controlar


que concuerde con el resultado de la prueba de hipótesis realizada en b. Escribir la estimación
en una oración útil para el productor hortícola.
d. Considerar el intervalo de confianza calculado en c. ¿En qué sentido sería esperable que
cambiara su precisión si el experimento incluyera 10 parcelas por grupo en lugar de 6? ¿Por
qué razón no hay certeza de que esto ocurra? Justificar sobre la base de las fórmulas para el
cálculo.
e. Interpretar el coeficiente de determinación R2. ¿A qué puede deberse que tenga un valor tan
bajo?
f. Construir un intervalo de 0,99 de confianza para 0 ¿Cómo se interpreta ese intervalo en este
caso?
g. ¿Por qué no es válido usar este análisis para estimar el rendimiento promedio en parcelas con
50 plantas del cultivo acompañante por m2?
h. ¿A qué población se extiende la inferencia estadística realizada?

8.5 En el marco de una investigación sobre la dinámica poblacional de Fagus grandifolia Ehrh.,
un árbol nativo de los bosques templados y subtropicales de América del Norte, un ecólogo evalúa
la relación estadística entre el crecimiento anual y el tamaño de los individuos de esta especie. En
un bosque cercano al Golfo de México, toma muestras aleatorias de 10 individuos de F. grandifolia
de cada uno de los siguientes intervalos de diámetro del tronco a 1,5 m de altura: (8, 16 cm], (16, 32
cm], (32, 48 cm], (48, 64 cm] y (64, 84 cm). Luego, identifica cada individuo seleccionado con un
número y registra su diámetro de tronco a 1,5 m de altura [cm]. Al cabo de 6 años vuelve a medir el
diámetro del tronco de cada árbol y calcula su crecimiento anual [mm/año]. Con los datos generados,
lleva a cabo un análisis de regresión lineal simple con los siguientes resultados:

𝑛 = 50
mm
𝑏1 = 0,0500 [ año⁄cm]

mm
𝑏0 = 0,9859 [ ]
año
mm
𝑠𝑒 = 1,5129 [ ]
año
mm
𝑠𝛽̂1 = 0,0101 [ año⁄cm]

mm
𝑠𝛽̂0 = 0,4620 [ ]
año
𝑅2 = 0,3381

a. Sobre el gráfico, identificar la variable independiente y la variable respuesta, la recta de


regresión estimada y la banda de confianza. ¿Qué indica cada punto?
b. ¿Cuáles son los parámetros del modelo de regresión utilizado? Explicar el significado de cada
uno en relación con el fenómeno de interés.
c. Explicar cómo de interpretan las estimaciones b1 y 𝑠𝑒 y el estadístico 𝑅2 en este caso particular.
¿Qué limitación hay en este caso para interpretar la estimación b0?
d. ¿Qué delimita la banda de 0,95 de confianza?
e. Sobre la base de los resultados del análisis, describir del modo más completo posible la relación
estadística examinada entre el crecimiento anual y el diámetro de los individuos de Fagus
grandifolia Ehrh.

40
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

f. Explicar qué dispersión es la que se estima con 𝑠𝛽̂1 . ¿A qué se debe?


g. ¿Cómo aborda el ecólogo el problema que genera no cumplir estrictamente con el requisito de
estipular valores fijos de la variable independiente?

41
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Algunos resultados
Capítulo 1
1.4 b. Comunidad IV: 𝑀𝑎𝑥 ≈ 6,5%, 𝑀𝑖𝑛 ≈ 3,9%, 𝑞1 ≈ 4,2%, 𝑞2 ≈ 5%, 𝑞3 ≈ 5,4%,
Comunidad V: 𝑀𝑎𝑥 ≈ 1,8%, 𝑀𝑖𝑛 ≈ 0,4%, 𝑞1 ≈ 0,8%, 𝑞2 ≈ 1%, 𝑞3 ≈ 1,4%
c. Comunidad IV: 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 2,6%, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 1,2%
Comunidad V: 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 1,4%, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 0,6%
1.6 a. Julio − sept. : 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 ≈ 200 mm. Enero − marzo: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 ≈ 390 mm
b. Julio − sept. : 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 210 mm, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 100 mm
Enero − marzo: 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 960 mm, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 200 mm
1.9 𝑥 = número de tormentas, 𝑣 = lluvia
a. 𝑣𝑎𝑟[𝑥] = 21,15 [tormenta2 ]
b. 𝑣𝑎𝑟[𝑣] = 25.692,65 [mm2 ]
c. 𝑐𝑜𝑣𝑎[𝑥, 𝑣] = 449,72 [tormenta ∙ mm]

Capítulo 2
2.2 a. Plateada
Cara Ceca
Cara 0,25 0,25 0,50
Dorada
Ceca 0,25 0,25 0,50
0,50 0,50 1,00
b. 𝑃[𝐷𝑐𝑎𝑟𝑎 ∩ 𝑃𝑐𝑎𝑟𝑎] = 0,25
c. 𝑃[𝐷𝑐𝑎𝑟𝑎] = 0,50
d. 𝑃[𝐷𝑐𝑎𝑟𝑎 | 𝑃𝑐𝑎𝑟𝑎] = 𝑃[𝐷𝑐𝑎𝑟𝑎 ∩ 𝑃𝑐𝑎𝑟𝑎] ÷ 𝑃[𝑃𝑐𝑎𝑟𝑎] = 0,50
f. 𝑃[(𝐷𝑐𝑎𝑟𝑎 ∩ 𝑃𝑐𝑒𝑐𝑎) ∪ (𝐷𝑐𝑒𝑐𝑎 ∩ 𝑃𝑐𝑎𝑟𝑎)] = 0,50
2.6 a. 𝑃[𝐴𝑐 ] = 1 − 𝑃[𝐴] = 0,75
b. 𝑃[𝐴 ∩ 𝐴𝑐 ] = 0
c. 𝑃[𝐴 ∪ 𝐴𝑐 ] = 1
d. 𝑃[𝐴 ∩ 𝐵] = 0,21875
e. 𝑃[𝐴𝑐 ∩ 𝐵] = 0,65625
f. 𝑃[𝐴 ∩ 𝐵𝑐 ] = 0,03125
g. 𝑃[(𝐴 ∩ 𝐵𝑐 ) ∪ (𝐴𝑐 ∩ 𝐵)] = 0,6875
h. 𝑃[𝐴𝑐 ∩ 𝐵𝑐 ] = 0,09375
2.8 𝐵𝐶 = Bajo Copa, 𝐺 = Germinar, 1𝑟𝑎𝐺 = Primera semilla germinar, etc.
a. 𝑃[𝐵𝐶] = 0,7
b. 𝑃[𝐵𝐶 𝑐 ∩ 𝐺] = 0,12, 𝑃[𝐵𝐶 ∩ 𝐺] = 0,1
c. 𝑃[𝐺] = 0,22
d. 𝑃[1°𝐺 ∩ 2°𝐺] = 0,0484
e. 𝑃[1°𝐺 ∩ 2°𝐺 𝑐 ] = 0,1716

42
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

f. 𝑃[(1°𝐺 ∩ 2°𝐺 𝑐 ) ∪ (1°𝐺 𝑐 ∩ 2°𝐺)] = 0,3432


g. 𝑃[(1°𝐺 ∩ 2°𝐺 𝑐 ∩ 3°𝐺 𝑐 ) ∪ (1° 𝐺 𝑐 ∩ 2°𝐺 ∩ 3°𝐺 𝑐 ) ∪ (1° 𝐺 𝑐 ∩ 2°𝐺 𝑐 ∩ 3°𝑎𝐺)] = 0,4015

Capítulo 3
3.2 b. 𝑃[𝑈 > 3] = 0,787, 𝑃[𝑉 > 3] = 0,971
c. 𝐸[𝑈] = 4,021, 𝑉𝑎𝑟[𝑈] = 2,1366, 𝐸[𝑉] = 5,020, 𝑉𝑎𝑟[𝑉] = 0,8316
e. 𝐸[𝑈 − 𝑉] = −0,999, 𝑉𝑎𝑟[𝑈 − 𝑉] = 2,9682
3.3 a. 𝑥 = 0, 𝑥 = 1, 𝑥 = 2, … , 𝑥 = 10
b. 𝑋~Binomial(𝑛, 𝜋)
c. 𝑛 = 10, 𝜋 = 0,98
d. 𝐸[𝑋] = 9,8, 𝑉𝑎𝑟[𝑋] = 0,196
e. 𝑃[𝑋 = 10] = 0,8171
f. 𝑃[𝑋 = 9] = 0,1668
g. 𝑃[𝑋 = 8] = 0,0153
h. 𝑃[𝑋 ≥ 8] = 0,9992
3.5 c. 𝑢0,50 = 0,50
d. 𝑃[𝑈 = 0,50] = 0
e. 𝐸[𝑈] = 0,50, 𝑉𝑎𝑟[𝑈] = 0,050, 𝐷𝑒[𝑈] = 0,2236
f. 𝑃[0,25 < 𝑈 < 0,75] = 0,6875
g. 𝑃[𝑈 < 0,25 | 𝑈 < 40] = 𝑃[𝑈 < 0,25] ÷ 𝑃[𝑈 < 0,40] = 0,4439
3.8 a. 𝑃[𝑋 < 190] = 𝑃[𝑍 < (190 − 250)⁄20] = 0,0013
b. 𝑃[𝑋 > 245] = 𝑃[𝑍 > (245 − 250)⁄20] = 05987
c. [220 < 𝑋 < 280] = 𝑃[(220 − 250)⁄20 < 𝑍 < (280 − 250)⁄20] = 0,8664
d. 𝐸[𝑋] = 250 g, 𝑉𝑎𝑟[𝑋] = 400 g 2
e. 𝑥0,10 = 224,3689 g
f. Con 𝑊~Binomial(𝑛 = 10, 𝜋 = 0,8664), 𝑃[𝑊 ≥ 8] = 0,8609
g. Con 𝑈~Binomial(𝑛 = 10, 𝜋 = 0,1336), 𝑃[𝑈 ≥ 1] = 0,7618
3.11 a. 𝑃[𝑋2 = 2 |𝑋1 = 2] = 𝑃[𝑋2 = 2] = 0,12
b. 𝑃[𝑋2 = 2 ∩ 𝑋1 = 2] = 𝑃[𝑋2 = 2] ∙ 𝑃[𝑋2 = 2] = 0,12 ∙ 0,12 = 0,0144
c. 𝑥̅ = 0, 𝑥̅ = 0,5, 𝑥̅ = 1,0, 𝑥̅ = 1,5, 𝑥̅ = 2,0, 𝑥̅ = 2,5, 𝑥̅ = 3,0
d. 𝐸[𝑋̅] = 0,78
e. 𝑉𝑎𝑟[𝑋̅] = 0,2658 semilla2
f. 𝐷𝑒[𝑋̅] = 0,5156 semilla

Capítulo 4
4.3 a. 𝑃[𝑋 > 0,1; 𝜇 = 0,2 𝜎 = √0,02] = 𝑃[𝑍 > −0,7071] = 0,7603

43
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

b. Con 𝑈~𝐵𝑖(10, 0,7603), 𝑃[𝑈 ≥ 5] = 0,9840

c. 𝑃 [𝑋̅ > 0,1; 𝜇 = 0,2 𝜎⁄√𝑛 = √0,02⁄10] = 𝑃[𝑍 > −2,2361] = 0,9873

4.4 a. 𝜇 = 420 kg, 𝜎 = 8 kg


b. 𝑃[𝑋 < 425; 𝜇 = 420 𝜎 = 8] = 𝑃[𝑍 < 0,625] = 0,7340
c. 𝑃[𝑋 = 425; 𝜇 = 420 𝜎 = 8] = 0
d. 𝑋~𝑁(𝜇 = 420, 𝜎⁄√𝑛 = 8⁄√𝑛)
e. 𝑃[415 < 𝑋̅4 < 425] = 𝑃[(415 − 420)⁄4 < 𝑍 < (425 − 420)⁄4] = 0,7887
e. 𝑃[415 < 𝑋̅9 < 425] = 𝑃[−1,875 < 𝑍 < 1,875] = 0,9392
4.10 b. 𝐸[(𝑋̅25 − 𝜇)2 ] = 1600⁄25 = 64 [g⁄m2 ∙ año]
c. 𝑃[−10 < 𝑋̅25 − 𝜇 < 10] = 𝑃[− 10⁄√64 < 𝑍 < 10⁄√64] = 0,7887

d. 𝑃[−10 < 𝑋̅𝑛 − 𝜇 < 10] ≥ 0.99 ⇒ 10⁄√1600⁄𝑛 ≥ 𝑧0,995 ∴ 𝑛 ≥ 107


e. 𝑃[−𝑎 < 𝑋̅25 − 𝜇 < 𝑎] = 0,99 ⇒ 𝑎⁄√64 = 𝑧0,995 ∴ 𝑎 = 20,6068

Capítulo 5
5.4 b. σ y n
c. 𝛼 = 0,05

d. 2,9 ± 2,064 ∙ √0,36⁄25 [t⁄ha]


e. 𝑛 = 35
5.5 b. 𝑥̅ = 340,3500 [microgramo⁄l]
d. 𝑠 2 = 1234,9763 [microgramo⁄l]2

e. 340,3500 ± 2,0930 ∙ √1234,9763⁄20 [microgramo⁄l]

Capítulo 6
6.1 a. H0) 𝜇 ≥ 0,7, H1) 𝜇 < 0,7
c. 𝑝 = 𝑃[𝑇29 < −0,3013] = 0,3827
6.4 a. H0) 𝜇 ≤ 450, H1) 𝜇 > 450
c. 𝑝 = 𝑃[𝑇24 > 3,00] = 0,0031 < 0,01
6.7 a. 𝑑̅ = −1,22 t/ha, 𝑠 2 = 3,2218 (t/ha)2
c. H0) 𝜇𝐷 = 0, H1) 𝜇𝐷 ≠ 0

d. 𝑝 = 2. 𝑃 [𝑇9 > |−1,22 − 0|⁄√3,2218⁄10] = 0,0601 > 0,05

6.12 b. H0) 𝜇BT = 𝜇AT , H1) 𝜇BT ≠ 𝜇AT

c. 𝑝 = 2. 𝑃 [𝑇25 > |25,7250 − 24,3533|⁄√1,4743 ∙ (1⁄12 + 1⁄15)] = 0,024 < 0,05

d. (25,7250 − 24,3533) ± 2,0595. √1,4743 ∙ (1⁄12 + 1⁄15) [g /100 g]

44
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

Capítulo 7
7.1 b. H0) 𝜋1 = 𝜋2 = ⋯ = 𝜋6 = 1⁄6
c. 𝑝 = 𝑃[𝑋52 > 10,0] = 0,0752 > 0,05
7.3 c. H0) 𝜋𝑖1 = 𝜋𝑖2 (𝑖 = 1, 2), 𝑝 = 𝑃[𝑋12 > 10,2857] = 0,0013 < 0,05
7.8 ̂ = 0,2353, 𝑃[𝐵|𝐴
b. 𝑃[𝐵|𝐴] ̂𝑐 ] = 0,5534

d. 𝑝 = 𝑃[𝑋12 > 5,9078] = 0,0151

Capítulo 8
8.1 d. 𝑚𝑌.𝑥𝑖 = 164,3667 + 1,8667 ∙ 𝑥𝑖 [kg de N/ha]
e. 𝑠𝑒2 = 97,0067 [kg de N/ha]2
f. 𝑝 = 2𝑃[𝑇10 > 4,4042] = 0,0013
g. 1,8667 ± 0,9444 [(kg de N/ha) ÷ (t de compost⁄ha)]
h. 164,3667 ± 10,6006 [kg de N/ha]

i. (164,3667 + 1,8667 ∙ 𝑥𝑖 ) ± (2,2281 ∙ √97,0067 ∙ (1⁄12 + (𝑥𝑖 − 9)2 ⁄540))


j. 𝑅2 = 0,6598
8.2 c. 𝑚𝑌.𝑥𝑖 = 2,1056 + 0,0555 ∙ 𝑥𝑖 [t⁄ha]
2
d. 𝑠𝑒2 = 0,0175 [t⁄ha]
e. 𝑝 = 2 ∙ 𝑃[𝑇58 > 11,1058] < 0,0001
f. 2,3276 ± 0,0474 [t⁄ha] y 2,6606 ± 0,0806 [t⁄ha]
g. 𝑅2 = 0,6802

45

Das könnte Ihnen auch gefallen