Apuntes de Estadística Escolarizado

SISTEMA NACIONAL DE EDUCACIN SUPERIOR TECNOLOGICA DIRECCIN GENERAL DE EDUCACIN SUPERIOR TECNOLGICA INSTITUTO TECNOLGICO DE LA ZONA MAYA
INGENIERIA EN AGRONOMIA
APUNTES DE ESTADSTICA Turno escolarizado

(Clave AGM-0614)
Presenta: MC. VICTOR FRANCISCO DAZ ECHEVERRA
ENERO 2011 UNIDAD I: Fundamentos 1.1 Estadstica
La estadstica se utiliza en diversas disciplinas socioeconmicas y cientficas como, la industria, la poltica, la ganadera, la agricultura, la medicina, la sociologa, los negocios, la educacin, la sicologa y la economa entre otras. Por ejemplo para tratar de predecir el resultado de una eleccin nacional, los encuestadores entrevistan a un nmero predeterminado de personas en todo el pas y registran sus preferencias. Sobre la base de esta informacin se construye una prediccin. La estadstica tambin es utilizada en estudios de mercado, para determinar que porcentaje de los consumidores prefieren X o Y marca de leche pasteurizada. En sociologa puede utilizarse para determinar que proporcin de las casas rurales cuentan con electricidad. 1.1.1 Incertidumbre En las actividades productivas o en los hechos cotidianos de la vida diaria, nos encontramos con una multitud de datos que colectamos, los cuales tenemos que organizar e interpretar, presentndolos en una forma reducida y entendible. En otras ocasiones nuestro inters es sacar conclusiones con respecto a un conjunto de datos grandes (poblacin) de la cual se toma una muestra (una parte de la poblacin). Para ello es indispensable contar con una herramienta de trabajo que facilite la toma de datos, su anlisis y las conclusiones que se pueden sacar de ellos. Esa herramienta es la estadstica. 1.1.2 Mtodo cientfico La investigacin cientfica consiste en la bsqueda permanente de la verdad por mtodos objetivos, adecuados y precisos. La experimentacin es un mtodo cientfico de investigacin que consiste en hacer operaciones y practicas destinadas a demostrar, comprobar y descubrir fenmenos o principios bsicos. La experimentacin en las ciencias biolgicas, en particular comprende las pruebas, ensayos, observaciones, anlisis o estudio practico de todo cuanto interesa a esta disciplina. El desarrollo agrcola de un pas se basa en las investigaciones que se realizan en ese campo, valindose de la experimentacin. Cualquier modalidad en las tcnicas de cultivo, al introducirse por primera vez a una regin, se necesita de la experimentacin para poder adaptarlo y divulgarlo entre los agricultores. Estos se deben a que las condiciones de clima y suelo varan en cada regin, estacin y ao. Para el aprovechamiento ptimo de los recursos disponibles, los experimentos se deben disear de acuerdo con los principios estadsticos que permitan al investigador llegar a conclusiones correctas acerca de un problema especfico. Los investigadores y estadsticos deben planear los experimentos conjuntamente. Para ello el estadstico debe tener un criterio prctico y el investigador un criterio estadstico, pues la estadstica es uno de los elementos bsicos de la experimentacin agrcola, ya que mediante ella se puede obtener algunas conclusiones acerca de problemas especficos de las ciencias agrcolas 1.2 Conceptos generales La estadstica es la ciencia que trata de las tcnicas para colectar, organizar, presentar y analizar datos, tanto para la deduccin de conclusiones, como para tomar decisiones razonables de acuerdo con tales anlisis. La base matemtica de esta herramienta descansa en la teora de la probabilidad. Cuando los datos que se estn analizando provienen de las ciencias biolgicas y la medicina, como es el caso de la agronoma, se utiliza el termino Bioestadstica. Su principal diferencia con
las dems ciencias, es que analiza datos provenientes de seres vivos, los cuales sufren alteraciones a lo largo del desarrollo de su vida en periodos que pueden ser muy cortos. 1.2.1 Estadstica La estadstica puede dividirse en dos partes: el anlisis de datos descriptivo o deductivo y el anlisis de datos inductivo o inferencial. La estadstica descriptiva o deductiva, es la parte de la estadstica que trata solamente de describir y analizar un grupo de datos sin sacar conclusiones o inferencias de los mismos o de un grupo mayor. En esta parte esta la descripcin tabular o frecuencia de los datos, las medidas de tendencia central y de dispersin de los datos (varianza) y la probabilidad. La estadstica Inductiva o Inferencial, es la parte de la estadstica que se encarga de hacer inferencias o sacar conclusiones validas de un conjunto de datos a partir del anlisis de una muestra de esos datos. sea trata de tomar decisiones, cuando se tiene solo una parte de los datos examinados. Sus principales medidas, son la hiptesis estadstica, el anlisis de varianza, la regresin y la correlacin de los datos. 1.2.2 Poblacin y parmetro Una poblacin es cualquier coleccin entera de personas, animales, plantas o cosas de las cuales podramos recolectar datos. Es el grupo entero que nos interesa, el cual deseamos describir o sobre cul deseamos establecer conclusiones. Por los tanto la poblacin es un conjunto de todas las mediciones o datos de inters, que son factibles de muestrease. Por ejemplo en el caso de la encuesta para determinar los resultados de una eleccin nacional, la poblacin son todos los habitantes del pas mayores de 18 aos y que tiene derechos e identificacin para votar. Un parmetro es un valor desconocido y por lo tanto tiene que ser estimado. Los parmetros se utilizan para representar una determinada caracterstica de la poblacin. Por ejemplo la media poblacional es un parmetro que normalmente se utiliza para indicar el valor medio de una cantidad. Dentro de una poblacin, un parmetro es un valor fijo que no vara. Cada muestra tomada de la poblacin tiene su propio valor de cualquier estadstica que se utilice para estimar este parmetro. 1.2.3 Muestra y estimador Una muestra es un subconjunto de las mediciones seleccionadas de la poblacin de inters. En el caso de la eleccin nacional, la muestra la representan todos los ciudadanos de diferentes estados a los cuales se le aplico la encuesta de preferencia. La palabra estimacin significa estimar, o sea darle un valor a algo. Una estimacin estadstica es una indicacin de valor de una cantidad desconocida basada en datos observados. Ms formalmente, una estimacin es el valor particular de un estimador que es obtenido de una muestra particular de datos y que es utilizado para indicar el valor de un parmetro. Por ejemplo, suponga que los rganos electorales del pas desean saber el valor de promedio de los ciudadanos que votan por estado. Para ello tendran que utilizar todos los datos de todos los estados (miles de datos) de las personas que votaron en las ltimas elecciones; es decir, la media de la poblacional, que en este caso se llamara parmetro. En lugar de esto, el rgano electoral podra utilizar una estimacin de la media poblacional, calculando la media de una muestra representativa de ciudadanos. Si se encontrara que el valor fue 17,000 personas, estos 17,000 votos serian su estimacin o su estimador. Es decir un estimador es un valor calculado de una muestra y no de una poblacin.
1.3 Ejercicios de aprendizaje Ejercicio 1. Con un compaero de clase lee perfectamente el texto de la primera unidad y contesta el siguiente cuestionario: 1. Describe cual es la rama de estudio de la estadstica 2. Menciona mnimo cuatro disciplinas de las ciencias actuales en las que se utilice la estadstica 3. Describe por que la estadstica es un elemento bsico de la experimentacin agrcola 4. Describe por que es importante la investigacin agrcola en el desarrollo de nuestro Estado 5. Cual es la diferencia entre la estadstica y la bioestadstica 6. Describe cual es la diferencia entre la estadstica descriptiva y la estadstica inferencial 7. En la siguiente descripcin de una problemtica agropecuaria seala los valores que describen a una poblacin y sus parmetros; y los valores que describen a la muestra y sus estimadores El rancho Tres Gavilanes el mes pasado peso el total de sus 1220 borregas de pie de cra de las cuales obtuvo una media de 42.7 kilogramos con una varianza de 3.4 y una desviacin estndar de 1.84 kilos, con los cuales se calculo un coeficiente de variacin de 7.96%. En das pasados la Asociacin Estatal de Productores Ovinos solicito los valores de peso de las borregas del rancho, dado que era imposible volverlas a pesar, se tomo al azar un grupo de 250 borregas cuya media fue 40.9 kilogramos con una varianza de 2.8 y una desviacin estndar de 1,67, de los cuales se calculo un coeficiente de variacin de 3.91%. Indica cual es: El tamao de la poblacin _____________________________________________________ Los valores de los parmetros de la poblacin ______________________________________ ___________________________________________________________________________ El tamao de la muestra _______________________________________________________ Los valores de los estimadores de la muestra_______________________________________ ___________________________________________________________________________ 1.4 Ejercicios para evaluacin Tomando como base la informacin anterior y con investigacin realizada en la biblioteca e Internet realiza un trabajo individual (no pueden existir dos trabajos iguales) de mnimo hoja y media tamao carta con letra Times New Roman 12, con interlineado mnimo. En el que se describa ejemplos prcticos de la utilizacin y utilidad de la estadstica en la agricultura, la ganadera y la actividad forestal. Mnimo un ejemplo por cada actividad productiva. En ejemplo debe de indicarse cual es una poblacin, cual es la muestra, cuales son los parmetros y cuales son los indicadores (mnimo, 1 de agricultura, 1 de ganadera y 1 de produccin forestal). UNIDAD II: Estadstica descriptiva 2.1 Introduccin
La coleccin o toma de datos, es la obtencin de los mismos sin que hallan sido ordenados numricamente. Existen muchas maneras de ordenar y presentar un conjunto de datos, que permitan su interpretacin de una manera fcil de entender. Como es el caso de los cuadros, graficas, figuras, histogramas y polgonos de frecuencia. La caracterizacin de los datos tambin puede ser presentando varios nmeros como resumen. En particular nos interesa un nmero que localice el centro y una medida de amplitud de las observaciones. Como es el caso de la media aritmtica, la mediana, la desviacin media, varianza, desviacin estndar, coeficiente de variacin y rango. 1.2 Medidas de tendencia central para datos agrupados y no agrupados. Las medidas de centralizacin ms comunes son: la media aritmtica o simplemente media, la mediana, la moda. Cada una de ellas tiene sus ventajas e inconvenientes dependiendo de los resultados que se pretenden obtener de los datos. 1.2.1 Media La media es la medida de tendencia central de uso ms comn en la estadstica. Cuando se trabaja con poblaciones completas a las medias se les denomina parmetros. Cuando se trabaja solo una muestra de la poblacin se les denomina estimadores. La formula de la media aritmtica es: X = Xi /N X = media Xi = indica la suma de cada uno de los valores que toma la variable X N = numero de observaciones o datos que se tiene en total Ejemplo: Calcular la media aritmtica para el tamao de camada de cinco marranas No de marrana Tamao de camada 1 8 2 7 3 6 4 11 5 10
X = Xi /N = 8 + 7 + 6 + 11 + 10 / 5 = 8.4 2.2.2 Mediana La mediana es el valor o la media aritmtica de dos de los valores medios de una coleccin de datos ordenados en orden creciente o decreciente. Ejemplo 1: La mediana de los siguientes datos 10, 8, 14, 22, 33, 19, 9, 25, 44 sera: 8, 9, 10, 14, *19 * 22, 25, 33, 44. O sea es el numero 19 Ejemplo 2: Cuando el nmero de datos es par, se determina la media de ambos valores centrales, como en el caso de los siguientes nmeros: 3, 9, 5, 11, 23, 17, 18, 29, 40, 24. La mediana sera: 3, 5, 9, 11 *17, 18*, 23, 24, 29, 40. dado que son dos valores centrales se determina (17 + 18) / 2 = 17.5 2.2.3 Moda La moda es aquel valor que se presenta con mayor frecuencia en un conjunto de datos.
Ejemplo. La moda para el siguiente conjunto de nmeros ( 2, 4, 17, 12, 14, 23, 12, 13, 18, 12, 17) sera el 12, dado que es el valor que se representa con mayor frecuencia, en este caso aparece 3 veces. La moda para los siguiente datos (3, 7, 23, 11, 18, 11, 44, 22, 9, 11, 22, 15, 22, 15) sera los nmeros 11 y 22, dado que son los valores que se representa ms veces y con igual frecuencia. 2.3 Medidas de dispersin para datos agrupados y no agrupados El grado en que los datos numricos tienden a extenderse alrededor de un valor medio, se le llama variacin o dispersin de los datos. Dos o ms conjuntos de datos pueden tener la misma media, pero la dispersin de sus valores alrededor de su valor medio puede ser diferente. 8, 8, 9, 10, 11, 12, 12 5, 6, 8, 10, 12, 14, 15 1, 2, 5, 10, 15, 18, 19 X = 10 X = 10 X = 10
Obsrvese que existe una mayor variacin en el segundo y tercer conjunto de datos que en el primero, aunque la medias sea las mismas. Las medidas de dispersin mas usadas son la desviacin media, la varianza, la desviacin estndar, el coeficiente de variacin y el rango. 2.3.1 Varianza La varianza de un conjunto de datos es igual al promedio de las desviaciones, de los datos con respecto a su media, elevados al cuadrado. Se denomina S2 y se calcula por: (X1 X) 2 S2 = ---------------N1 Ejemplo: Para calcular la varianza del peso de un grupo de pollos de 1 semana de edad. Peso gr. 163 152 178 149 171 162 168 148 156 167 161.4 Desviacin (X1 X) 163 161.4 = 1.6 152 161.4 = -9.4 178 161.4 = 16.6 149 161.4 = -12.4 171 161.4 = 9.6 162 161.4 = 0.6 168 161.4 = 6.6 148 161.4 = -13.4 156 161.4 = -5.4 167 161.4 = 5.6 (X1 X) 2 2.56 88.36 275.56 153.76 92.16 0.36 43.56 179.56 29.16 31.36 896.40
Media
(X1 X) 2 896.40 2 S = ---------------- = ------------ = 99.6
N1
10 - 1
2.3.2 Desviacin estndar o desviacin tpica La desviacin tpica de un conjunto de datos es la raz cuadrada de la varianza, se representa por (S) o por (DE) y se calcula por: (X1 X) 2 DE = ---------------N-1 DE = S2
o simplemente
Tomando los datos del ejemplo anterior, donde se calculo la varianza de 10 pollos de una semana de edad, se tendra una desviacin tpica de: DE = S2 = 99.6 = 9.98 2.3.3 Coeficiente de variacin Es una medida de dispersin relativa de un conjunto de datos, que se obtiene dividiendo la desviacin estndar (DE) del conjunto de datos entre su media aritmtica, el resultado es expresado en porcentaje y de calculad por la siguiente formula. DE CV = ------- x 100 X El coeficiente de variacin para el ejemplo anterior donde DE = 9.979 y X = 161.4 sera: DE 9.979 CV = ------- x 100 = ---------- x 100 = 6.18 % de variacin X 161.4 Para el ejemplo del peso de los pollos, si se quiere describir los datos se dira, que tienen una media de 161.4 Kg. una desviacin estndar de 9.98 grs. y una variacin del 6.18 %. El coeficiente de variacin es la medida de dispersin mas adecuada para compara la variabilidad de dos conjuntos de datos, pues es una medida independiente de las unidades de medicin, dado que se mide en las unidades originales. Esto es de suma importancia en la investigacin, donde se tienen datos previos de otros experimentos, pues el CV se usa para comparar los datos obtenidos con los CV de los experimentos anteriores. Ejemplo: Las medias y desviacin estndar para los pesos al destete e intervalos entre partos de un grupo de 50 vacas suizas fueron: X DE Pesos al destete 184.2 19.3 Intervalo entre partos 461.7 93.7 Calcula los coeficientes de variacin y determina que caracterstica productiva es mas variable. CV Peso al destete = DE / X x 100 = 19.3 / 184.2 x 100 = 10.48 % CV Intervalo entre partos = DE / X x 100 = 93.7 / 461.7 x 100 = 20.29 %
Comparando los coeficientes de variacin, es posible decir que el intervalo entre partos es una caracterstica mas variable que el peso el destete. 2.3.4 Rango Es la medida de dispersin mas simple. El rango se obtiene de la diferencia entre las observaciones de mayor y menor valor numrico en un conjunto o serie de datos. Ejemplos: 8, 8, 9, 10, 11, 12, 12 5, 6, 8, 10, 12, 14, 15 1, 2, 5, 10, 15, 18, 19 X = 10 Rango = 12 8 = 4 X = 10 Rango = 15 5 = 10 X = 10 Rango = 19 1 = 18
La ventaja de esta medida de dispersin es la facilidad con que se calcula. Su desventaja es que intervienen solo 2 nmeros del conjunto de datos. Por otra parte al aumentar el nmero de observaciones aumenta la variabilidad. As mismo tiene la desventaja de que no se puede utilizar para comparar 2 grupos de observaciones, amenos que tengan el mismo tamao. 2.4 Organizacin y presentacin de datos Existen muchas maneras de ordenar y presentar un conjunto de datos, que permitan su interpretacin de una manera fcil de entender. Como es el caso de los cuadros, graficas, figuras, histogramas y polgonos de frecuencia. Uno de los mas fciles de usar y mas socorridos en la estadstica, es el cuadro de frecuencia o distribucin de frecuencia, que permite distribuir un conjunto de datos en clases o categoras y la determinacin del numero de datos pertinentes en cada clase. Ejemplo: Se desea representar en una tabla de distribucin de frecuencia, la altura de 50 plantas de cedro despus de un ao de siembra en invernadero, como indicativo de su crecimiento bajo condiciones controladas. Los datos de crecimiento en centmetros se contemplan en el cuadro siguiente y se detallan los pasos para la obtencin de la tabla de distribucin de frecuencia. 164 165 166 181 175 170 184 160 166 179 160 175 176 177 178 179 168 180 166 184 182 182 163 161 166 168 175 176 175 178 181 182 184 183 183 181 160 161 163 167 162 163 166 165 166 170 171 172 173 174
1) Se determinan los valores mayor y menor del conjunto de datos (160 y 184) 2) Se determina el Rango de los datos, restando al valor mayor el valor menor (184 160 = 24) 3) Se divide el rango en un nmero conveniente de intervalos de clase del mismo tamao. Se puede fijar arbitrariamente entre 4 y 12 intervalos de clase o usar la formula K = 1 + 3.332 + log N, donde K es el numero de intervalos de clase y N el total de datos que se tienen. En este ejemplo se toman arbitrariamente 5 intervalos de clase, los cuales quedaran de la siguiente manera: 160 164 Intervalo de clase 165 169 170 174 (los extremos de un intervalo de clase se conocen como limites de clase, en este caso
175 179 180 - 184
son los valores 160 y 164)
4) Se determina el numero de datos que caen dentro de cada intervalo de clase y se calcula la frecuencia relativa, multiplicando el valor de cada intervalo por 100 y dividido entre N (es este caso N = 50) Altura (cm) Numero de plantas Frecuencia relativa 160 164 llllllllll = 10 20 % 165 169 lllllllllll = 11 22 % 170 174 llllll =6 12 % 175 179 lllllllllll = 11 22 % 180 184 llllllllllll = 12 24 % Total = 50 100 % Clculos: 10 x 100 /50 = 20 % 11 x 100 /50 = 22 % 6 x 100 /50 = 12 % 11 x 100 /50 = 22 % 12 x 100 /50 = 24 % Una ves ordenados los datos y determinado el numero de observaciones por cada intervalo de clase, estos tambin pueden ser presentados en diferentes tipos de graficas. Entre las mas utilizadas se encuentran las graficas de lneas, graficas de barras y graficas de pastel o circulares entre otras. Como se ejemplifica a continuacin Distribucin de frecuencias para plantas de cedro
14 12 10 8 6 4 2 0 160 164 165 169 170 174 175 179 180 184 Serie1
Distribucion de fecuencia para plantas de cedro

12 10 8 Numero de datos 6 4 2 0 160 164 165 169 170 174 175 179 180 184 Serie1
Intervalos de clase
Distribucion de fecuencia para plantas de cedro
160 164 165 169 170 174 175 179 180 184
2. 5 Ejercicios de aprendizaje Ejercicio 1. En hojas blancas de manera manual, con la ayuda de la calculadora y posteriormente en el programa computarizado Excel, realiza los siguientes ejercicios. a) Un granjero tomo la ganancia de peso de una parvada de pavos despus de 8 semanas de ceba, cuyos datos estn expresados en kilogramos. Determinar la media aritmtica, medina, moda, varianza, desviacin estndar y coeficiente de variacin. 3.2 4.7 4.8 3.8 5.7 5.0 4.3 3.5 6.7 4.9 4.7 4.8 4.6 4.7 5.2 5.2 3.9 4.6 5.2 3.6 3.9 5.2 3.9 5.1 4.6 4.9
b) En una granja avcola se de una muestra de dos parvadas de pollos de engorda de diferentes razas Playmonth Rock y Sacijall, cuyos pesos al final de la engorda se dan a continuacin. Se
desea determinar la media aritmtica, medina, moda, varianza, desviacin estndar y coeficiente de variacin. Adems saber cual parvada es mas uniforme, con la finalidad de elegir una raza para explotarse en la regin. Playmonth Sacijall 1.2 1.5 1.3 1.9 1.7 2.0 2.2 1.8 1.5 1.9 1.9 1.6 1.7 1.9 1.8 1.8 2.2 1.0 2.0 1.7 1.4 1.6 1.5 1.8
c) Se han obtenido los pesos al destete de un lote de 50 lechones de una piara comercial, los cuales se desean expresar en una tabla de distribucin de frecuencia. Realiza dicha tabla para: Obtener los intervalos de clase Calcular las frecuencias relativas 5.00 7.00 6.59 5.90 5.69 5.20 7.20 6.79 6.10 5.89 5.40 7.40 6.99 6.30 6.09 5.60 5.19 7.19 6.50 6.29 5.80 5.39 7.39 6.70 6.49 6.00 5.59 7.59 6.90 6.69 6.20 5.79 5.10 7.10 6.89 6.40 5.99 5.30 7.30 7.09 6.60 6.19 5.50 5.29 7.29 6.80 6.39 5.70 5.49 7.49
Posteriormente en el programa computarizado excell, representa los datos en graficas de lneas, barras y circulares.
UNIDAD III. Introduccin a la probabilidad 3.1 Conceptos
La estadstica descriptiva trabaja con todos los individuos de una poblacin. La estadstica inferencias trabaja con muestras o subconjuntos formados por algunos individuos de esa poblacin. A partir del estudio de la muestra se pretende inferir (determinar) aspectos relevantes de toda la poblacin. Es decir el trabajo de la estadstica inferencial, no solo consiste en reunir y tabular los datos, sino que este es un proceso de interpretacin de la informacin. Donde lo fundamental es comprobar la validez (fiabilidad) de esas interpretaciones o inferencias estadsticas. En tal sentido la probabilidad es el fundamento de la estadstica inductiva. 3.1.1 Probabilidad La probabilidad es la rama de las matemticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que ocurra un determinado suceso o evento. El calculo matemtico de la probabilidad se basa en situaciones tericas en las cuales se determina un espacio muestreal cuyos sucesos elementales o eventos tengan todos la misma probabilidad de ocurrir. Donde el espacio muestreal es el conjunto de todos los posibles resultados. 3.1.2 3.1.3 Eventos Espacio muestral Si un evento (E) puede tener n resultados igualmente posibles (h) de los cuales tienen el atributo E, se dice entonces que la probabilidad de ocurrencia de E es la fraccin h/n y se denota mediante la formula: P(E) = h/n P = Probabilidad E = Evento del que se quiere calcular la probabilidad h = Numero de elementos que tiene el atributo n = numero total de elementos o espacio muestreal En estos casos la probabilidad de un resultado se representa con un nmero entre 0 y 1. Donde la probabilidad 0 indica que el resultado nunca ocurrir y la probabilidad 1 que el resultado ocurrir siempre. Matemticamente puede representarse como 0 P(E) 1. Este tipo de probabilidad suele llamarse probabilidad a priori, por que se puede calcular antes de realizar el evento. Tambin puede calcularse la probabilidad de no ocurrencia del suceso o atributo (no E). Llamando su no ocurrencia y se representa como q y se simboliza matemticamente como: q=1P q = no ocurrencia del suceso 1 = probabilidad total P = probabilidad del suceso As pues: P (E) + P (no E) = 1 o P+q=1
Ejemplo 1: Sea E el suceso de que aparezcan los nmeros 2 o 6 en el lanzamiento de un dado: Espacio muestral = existen seis casos o resultados que pueden presentarse, los nmeros 1, 2, 3, 4, 5, y 6, todos con igual posibilidad. Evento = que se presente el 2 o el 6
Probabilidad: P (E) = h / n = 2 / 6 = 1/ 3 = 0.3333 No probabilidad: q (E) = 1 h / n = 1 1/3 = 2 / 3 = 0.6666 Ejemplo 2: Cul es la probabilidad de obtener un nmero impar en el lanzamiento de un dado. Sabiendo que el dado tiene 3 nmeros impares. Evento: Sea E el suceso de que aparezcan los nmeros 1, 3 o 5, de seis resultados posibles Probabilidad: P (E) = h / n = 3 / 6 = 1/ 2 = 0.5 No probabilidad: q (E) = 1 h / n = 1 1/ 2 = 0.5 3.1.4 Probabilidad como frecuencia relativa Otra forma de estimar la probabilidad es calcularla como una medida de frecuencia relativa de ocurrencia de un evento casual. Por ejemplo una manera de calcular la probabilidad de tener un parto gemelar de una borrega, es consultar el registro de partos gemelares en borregas del mismo hato. Ejemplo 1: En un hato de borregas gestantes, de los ltimos 10 partos 8 han sido gemelares. Cul es la probabilidad de obtener gemelos en el parto siguiente. Cual es la probabilidad de que el parto sea simple. Probabilidad de parto gemelar: P = h / n = 8 / 10 = 0.8 No probabilidad de parto gemelar (simple): q = 1 h / n = 1 0.8 = 0.2 Ejemplo 2: En los ltimos 35 partos de una granja de cerdos, 20 marranas han parido camadas superiores a los 10 cerditos. Cul es la probabilidad de que el siguiente parto sea superior a los 10 cerditos, Cul es la probabilidad de que el siguiente parto sea inferior a los 10 cerditos, Cul es la frecuencia relativa de marranas con mas de 10 cerditos por parto. Probabilidad: P = h / n = 20 / 35 = 0.57 No probabilidad: q = 1 h / n = 1 0.57 = 0.43 Frecuencia relativa = 20 / 35 x 100 = 57.14 % 3.2 Variables aleatorias Una poblacin es un conjunto de individuos o elementos que estamos interesados en estudiar. Esa poblacin puede ser finita o infinita. El conjunto de todos los nmeros positivos es un ejemplo de una poblacin infinita, mientras que el conjunto del nmero de plantas en un vivero es un ejemplo de una poblacin finita. Expresiones tales como la vaca tiene 3 cras o las pias pesan 2 kilos, son comunes e informativas. Esas expresiones se refieren a rasgos productivos que no son constantes, sino que varan de un individuo a otro y por lo tanto sirve para distinguir o describir.
Las caractersticas o rasgos que muestran variabilidad se les llaman variables. Por ejemplo el peso al nacer, la altura de las plantas de maz, el tamao de la camada, entre otras. Estas variables se representan normalmente con la letra (x, y, w, z). Las variables de acuerdo con su cantidad numrica se pueden clasificar en: 3.2.1 Variables discretas Es la variables que solo puede tomar un numero finito o numerable de valores. Los ejemplos de variables discretas son, el tamao de la camada, el nmero de frutos de una planta, el numero de servicios por concepcin, entre otros. 3.2.2 Variables continuas Es la variable que tericamente puede tomar cualquier valor entre dos valores dados. Los ejemplo de variables continuas son los pesos al nacer, las alturas de las plantas o los animales, los intervalos entre partos, los das de crecimiento de una planta para el cultivo, entre otras. 3.2.3 Constantes Si una variable puede tomar solamente un valor se le llama Constante, por ejemplo la temperatura corporal normal de los animales homeotermos o el promedio de altura de una poblacin. 3.2.4 Variables Binomiales Son un caso particular de las variables discretas, pues son aquellas variables que solo pueden tener dos resultados, Los ejemplos de la variables binomiales son la sobre vivencia (vivo o muerto), el estado reproductivo (gestante o vaca), la preferencia (si o no) En general las medidas dan origen a datos continuos, mientras que las numeraciones o conteos originan datos discretos, donde un dato es el valor que puede tomar una variable. 3.2.5 Muestras aleatorias En algunas ocasiones las poblaciones de datos son inaccesibles o muy grandes para ser trabajadas en su totalidad. En consecuencia se estudian muestras (subconjuntos de la poblacin) que en caso de ser aleatorias permite realizar estimaciones tanto de la poblacin como de los parmetros estadsticos de esta. Una muestra aleatoria es una muestra elegida independientemente de todas las dems, con la misma probabilidad que cualquier otra. En este caso la variable aleatoria es un numero real perfectamente definido asociado a cada punto muestreal. Es decir las variables aleatorias permiten definir la probabilidad como una funcin numrica (variable real) en lugar de una funcin de conjuntos. 3.3 Distribuciones de probabilidad La asociacin de cada uno de los resultados posibles de un evento con su probabilidad de ocurrencia se llama distribucin de la probabilidad.
Ejemplo: Al lanzar dos dados la suma de ambos puede asumir 11 valores diferentes en 36 puntos mustrales 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
En este caso vemos que la distribucin de p(x) obtenida es simtrica.
El valor de 36 representa el espacio muestreal o total de la poblacin (N), en la cual X representa una variable aleatoria discreta, que en este caso puede tener 11 valores distintos (del 2 al 12), cada valor tiene una probabilidad de ocurrencia (p) y de no ocurrencia (q). Ambos valores siempre suman 1 (p + q = 1). Por lo tanto la distribucin de probabilidad es un modelo matemtico que asocia los valores de una variable aleatoria con su respectiva probabilidad Probabilidad de X = Funcin p + q = 1 En caso de la produccin agropecuaria, cualquier muestreo aleatorio o proceso donde se calcula la probabilidad, la unin de cada evento con su valor de probabilidad se llama distribucin de la probabilidad. En la distribucin de la probabilidad la unin de los eventos con su valor de probabilidad toma forma de campana.
Punto medio X r
P 0.160 N = tamao de la poblacin (36 posibilidades) P = probabilidad q = no probabilidad r = tamao de la muestra o veces que se lanza el dado
Ocurrencia del evento
6 5 4 3 2 1
P 0.013 P 0.011
P 0.013 P 0.011
P 0.083 P 0.05 P 0.027
P 0.083 N P 0.05 P 0.027
6 7 8 9 Suma de puntos
10
11
12
Cada evento o muestra (r) tiene su valor de probabilidad (p) y de no probabilidad (q) con valores independientes del otro evento. El valor de mayor probabilidad es la media o punto de la campana. A medida que nos alejamos de la media en ambos sentidos el valor de la probabilidad disminuye. La suma de las probabilidades de todos los eventos (N) siempre tiene que sumar 1 o 100%.
Por lo tanto, se la media (X) es el valor de mayor probabilidad, las pedidas de dispersin como la varianza (S2) y desviacin estndar (DE) pueden servirnos para saber cuanta probabilidad perdemos o ganamos a medida que la muestra (r) se aleja o acerca de la media, en ambos sentidos de la campana Cada espacio muestral o poblacin tiene su propia distribucin de probabilidad (forma y tipo de la campana que forman sus datos) de acuerdo con sus caractersticas de tamao y tipo de variable, las ms comunes son: a) Distribucin binomial: Si en cada prueba la variable o muestra (r) en un nmero indeterminado de eventos (0-1000) solo puede tener dos resultados (positivo o negativo) independientes del evento anterior, con un valor de probabilidad constante (p = 0.5) (q = 0.5) la distribucin se conoce como binomial. b) Distribucin de Poisson: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero limitado de eventos (tiempo-espacio) la distribucin se conoce como Distribucin de Poisson. c) Distribucin normal Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes (< 30) la distribucin se conoce como Distribucin Normal o Distribucin de Z.. d) Distribucin de T: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes (> 30) la distribucin se conoce como Distribucin del T de Studen o Distribucin para muestras pequeas. e) Distribucin de Ji cuadrada: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes, que se comparan con valores de probabilidad esperada o conocida, la distribucin se conoce como Distribucin de Ji-cuadrada. f) Distribucin de F: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes, cuya frecuencia es acumulativa y puede compararse con la frecuencia acumulativa de otros eventos, la distribucin se conoce como Distribucin de F. En general cuando se conoce el tipo de distribucin, el tamao de la poblacin (N), el tamao de la muestra (r o k), la probabilidad de ocurrencia (p) o de no ocurrencia (q), se puede estimar con cierta facilidad una serie de valores de X evento de la poblacin a los cuales se les conoce como inferencias. Cada distribucin tiene sus formulas matemticas para estimar los valores de probabilidad o sus parmetros estadsticos, como la media, varianza y desviacin tpica, conocido como estadstico de prueba o prueba estadstica. Esta probabilidad tambin puede ser estimada con el uso de tablas de probabilidad de las cuales existe una para cada tipo de distribucin, en las cuales se necesita conocer los valores antes mencionados. Se asume que mientras mas veces se repita un evento (tamao de la muestra) mayor debe ser la exactitud de su calculo de probabilidad
3.3.1 Binomial Supongamos que un experimento aleatorio tiene las siguientes caractersticas: En cada prueba del experimento slo son posibles dos resultados: el suceso p (xito) y su contrario q (fracaso).El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. La probabilidad del suceso es constante y representamos por p, y no vara de una prueba a otra. La no probabilidad es 1- p y la representamos por q. El experimento consta de un nmero n de pruebas. Todo experimento que tenga estas caractersticas diremos que sigue el modelo de la distribucin binomial. A la variable X que expresa el nmero de xitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial. La variable binomial es una variable aleatoria discreta, slo puede tomar los valores 0, 1, 2, 3, 4,..., n suponiendo que se han realizado n pruebas. La distribucin binomial se suele representar por B (n, p) siendo n y p los parmetros de dicha distribucin.
Los parmetros de la distribucin binomial puede calcularse por:
Sea X una variable aleatoria discreta correspondiente a una distribucin binomial.
Ejemplo 1: En un vivero forestal se sabe que por cada 1000 plantas que se producen, 7 salen infectadas de hongos patgenos. Que probabilidad existe que al escoger 50 plantas para sembrar en un terreno libre del hongo solo una planta salga infectada. Primero se calculo los valores de probabilidad: Probabilidad de que las plantas estn infectadas: P = h / n = 7 / 1000 = 0.007 No probabilidad de que las plantas estn infectadas: q = 1 h / n = 1 0.007 = 0.993 Solucin: Se trata de una distribucin binomial de parmetros B (n=50, p=0.007) y debemos calcular la probabilidad p (X=1). P X = 1) (n k ) p k * q n-k = (50 1 ) 0.007 1 x 0.993 49 = 0.00496 Existe 0.496 % de probabilidad de escoger una planta con hongos.
Los parmetros de esas 50 plantas se puede calcular con: X = n * p = 50 x 0.007 = 0.35 S2 = n * p * q = 50 x 0.007 x 0.993 = 0.347 DE = n*p*q = 0.347 = 0.589 (Media, varianza y desviacin estndar de plantas infectadas por cada 50) Ejemplo 2: La probabilidad de xito de la vacuna contra la influenza aviar es de 0.72. Calcula la probabilidad de que una vez administrada a 15 animales: a) ninguno sufra la enfermedad, b) todos sufran la enfermedad, c) dos de ellos contraigan la enfermedad Calculo los valores de probabilidad: Probabilidad de xito de la vacuna = 0.72 No probabilidad de xito de la vacuna: q = 1 h / n = 1 0.72 = 0.28 Solucin: Se trata de una distribucin binomial de parmetros B (15, 0.72) De 15 vacunados todos sana no infectados De 15 vacunados todos se enferman ninguno sana De 15 vacunados 13 sanan y 2 se enferman Ejemplo 3: La probabilidad de que un fruto de chile habanero este infectado con picudo es del 4%. Un productor realiza en su cultivo un muestreo aleatorio de 1000 frutos, para tratar de determinar los indicadores de cuantos frutos infectados tendra por cada embarque de su producto. a) Hallar la media () del nmero de frutos infectados en un corte de 1000 frutos b) La varianza (S2) y la desviacin estndar (DE) de la muestra. Solucin: = n * p = 1000 * 0.04 = 40 frutos S2 = n * p * q = 1000 * 0.04 * 0.96 = 38.4 DE = n * p * q = 38.4 = 6.19 Como el clculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo. Ejemplo 4: Cual es la probabilidad de obtener dos cras machos en una marrana que pari 6 cras. K = 2 n = 6 p = 0.5 (Utilizar las tablas de distribucin binomial que se encuentran en los anexos 1, 2 3) 3.3.2 Poisson El modelo de distribucin de Poisson sirve para calcular sucesos o variables que su ocurrencia esta limitada a un intervalo, pudiendo ser tiempo, rea o longitud.
Por ejemplo: El nmero de fallas (evento) de un tractor en una semana (intervalo) El numero de bacterias (evento) por milmetro cuadrado (intervalo).
En otras palabras se trata de calcular la probabilidad de un evento, dado que su ocurrencia esta limitado a un intervalo. Los parmetros estadsticos de la distribucin Poisson se pueden calcular por: Media = n * p Varianza = n * p * q ambas son equivalentes a n = total de ensayos p = probabilidad q = no probabilidad La probabilidad de Poisson puede calcularse por la formula = media de los xitos por intervalo (esperados) x = fenmeno o variable a estimar e = probabilidad de ocurrencia En la prctica, la aproximacin es muy buena cuando < 5, siendo n > 50 Ejemplo En 60 ensayos con p = 0.002 a) Calcular la media y la varianza b) Calcular P(5) a) media = np = 60 x 0.002 =0.12 varianza = npq = 60 x 0.002 x 0.998 = 0.12 b) p( 5) ( 0.125 x e-0.12) / 5! =1.84 x 10-7
3.3.3 Normal (o campana de Gauss-Laplace) La distribucin normal es la que mas se usa en estadstica por que mucho de los fenmenos biolgicos de inters en las ciencias agropecuarias se distribuyen de esta manera. Como es el caso de los caracteres morfolgicos de personas, animales y plantas de una especie, por ejemplo las alturas de una planta, el peso de los frutos o el peso de los animales, los dimetros o grososr de los tallos de las plantas entre otros, o los caracteres fisiolgicos, por ejemplo el efecto de una misma dosis de un frmaco o de una misma cantidad de abono, sobre el peso de los frutos de una planta. Empleando clculos bastante laboriosos, puede demostrarse que el modelo de la funcin de densidad que corresponde a tales distribuciones viene dado por la frmula que se expresa en la figura siguiente.
La distribucin normal queda definida por dos parmetros, su media y su desviacin tpica y la representamos as Representacin grfica de esta funcin de densidad
A-B
Muchas variables biolgicas aleatorias continuas presentan una funcin de densidad cuya grfica tiene forma de campana. La localizacin del centro de la curva es la media (X o ) y la cantidad de joroba observada depende del tamao de la varianza (S2 o 2). El rea bajo la curva es igual a 1 por lo que se puede obtener el valor de la probabilidad de los eventos contenidos en ella. La distribucin normal permite calcular la probabilidad de un grupo de resultados (muestra) mas que la probabilidad de un determinado resultado. La distribucin normal se utiliza cuando el tamao de la muestra es mayor a 30 observaciones (n > 30). En la prctica en vez utilizar la formula que describe la densidad de la curva, se utiliza una tabla (de Z) para obtener las probabilidades de una distribucin normal o continua. En la cual lo esencia es saber a cuantas desviaciones estndar (DE) esta la muestra con respecto a la meda, considerando que:
A-B
Z es positiva cuado la media de la muestra (x) es mayor que la media general () Z es negativa cuando la media de la muestra (x) es menor que la media general () De a 0.05 DE en ambos lados de la campana esta el 68.0 % del rea De a 1.0 DE en ambos lados de la campana esta el 95.0 % del rea
De a 1.5 DE en ambos lados de la campana esta el 99.90 % del rea Como se muestra en la figura anterior. La distribucin normal de la probabilidad de Z se conoce como distribucin tipificada. Dado que su media es igual a cero (Zo) y su DE es 1. Por lo tanto, la manera mas fcil de encontrar una probabilidad (rea) entre el intervalo A B con un nmero especifico de desviaciones estndar (DE o ) a partir de la media general, es mediante la utilizacin de la tabla de Z. Si se conoce el valor de Z o numero de Desviaciones Estndar (DE) se puede calcular el valor de probabilidad rea de la campana y esta representa un porcentaje de la poblacin. Ejemplo 1: Sabemos que 0.68 del rea se encuentra dentro de 1 DE a partir de la media, 0.95 del rea dentro de 2 DE y casi toda el rea dentro de 3 DE. Qu fraccin del rea total se encuentra entre la media (Zo) y 0.7 DE (Z = 0.7) Solucin Buscar en la tabla de Z (anexo 4) el valor para la fraccin 0.7 DE. Observe que el valor de Z, hasta el dcimo ms cercano se encuentra en la columna de la izquierda. La segunda cifra decimal de Z correspondiente al centsimo, se da en la fila superior. As el rea entre la media y el punto situado a Z = 0.7 DE a la derecha de la tabla es 0.2580. Similarmente el rea entre la media (Z0) y Z = 1.0 es de 0.3413, por lo tanto el rea que se encuentra dentro de 1 DE en ambos lados de la media es dos veces 0.3413 o sea 0.6828 El rea que se encuentra dentro de 2 DE a partir de la media es de 0.4772. Si se quiere el valor en ambos lados de la grafica es 0.9544. Estos nmeros proporcionan los valores aproximados de 68 y 95 % supuestos en la regla de distribucin emprica Para encontrar un rea de Z = 0.57 DE a la derecha de la media (Z0), en la columna de la izquierda buscamos la fila que tiene el valor 5, luego en la fila superior buscamos la columna que tiene el valor 0.07. La unin de las filas nos da el rea aproximada de 0.2157. En algunas ocasiones se tiene que hallar reas de Z que no parte de la media (Z0) y pueden abarcar un solo lado de la media o ambos lados de la misma, por lo tanto la forma de calcular el rea se modifica como se ejemplifica a continuacin: Ejemplo 2. Hallar el rea que se encuentra entre 1.63 DE (Z=1.63) y 1.88 DE (Z=1.88) Solucin: Primeramente se hallan en la tabla los valores de Z=1.63 y Z=1.88 Z=1.63 en la tabla tiene una probabilidad de 0.4484 Z=1.88 en la tabla tiene una probabilidad de 0.4699 Como ambos valores de Z estn por encima de la media (+) al mayor valor de Z (1.88) que dio 0.4699 se le resta el menor valor de Z (1.63) que dio 0.4484, por lo tanto el valor de z que se encuentra entre esas DE se puede calcular por: Z = 0.4699 0.4484 Z = 0.0125 Ejemplo 3. Hallar el rea que se encuentra entre -0.50 DE (Z= -0.50) y 1.00 DE (Z=1.00) Solucin: Primeramente se hallan en la tabla los valores de Z= -0.50 y Z=1.00
Z=0.50 en la tabla tiene una probabilidad de 0.1915 Z=1.00 en la tabla tiene una probabilidad de 0.3413 En este caso un valore de Z estn por encima de la media (+) y el otro por debajo de la misma (-), por lo tanto el valor de Z (0.50) que dio 0.1915 se suma al valor de Z (1.00) que dio 0.3413, por lo que el valor de z que se encuentra entre esas DE se puede calcular por: Z = 0.1915 0.3413 Z = 0.5320 En algunos casos no se tienen los valores de Z, pero estos se puede calcular utilizando los datos tomados de la poblacin y la muestra tomada de la misma, utilizando la formula: X - Z = ------------DE ()
(pudiendo ser cualquier valor entre 0.01 y 3.0 DE)
X = media de la muestra = media general DE () = desviacin estndar 3.3.3.1 Distribucin muestral de medias Cuando se trata de muestras de una poblacin los valores de y DE () para la muestra se pueden calcular por Nn x = DE () x = DE ()/N * ----------n-1 Ejemplo: 500 lechones tiene un peso medio de 5.02 Kg. y una DE de 0.30 Kg. Hallar la probabilidad de que una muestra al azar de 100 lechones tanga una media comprendida entre 4.96 y 5.00 Kg. y exprsalo como % de probabilidad Datos poblacin = 5.02 = 0.30 N = 500 Datos de la muestra X; Z1 = 4.96 y Z2 = 5.00 DE = ? n = 100
Solucin x = = 5.02 Para poder aplicar la formula de Z se necesita la DE de la muestra, y no se tiene, por lo tanto se tiene que calcular por la formula: Nn 500 - 100 DE()x = DE()/ N * ---------- = 0.30/ 500 * -------------- = 0.0134 * 2.010 = 0.027 n1 100 1 Se busca los valores de Z para 4.96 y 5.00
X - 4.96 5.02 Z (4.96) = ----------- = --------------- = - 2.22 DE () 0.027 X - 5.00 5.02 Z (5.00 ) = ----------- = --------------- = - 0.74 DE() 0.027 La probabilidad pedida esta entre Z = - 2.22 y Z = - 0.74 El rea entre Z = -2.22 y Z = 0 es 0.4868 El rea entre Z = -0.74 y Z = 0 es 0.2704 El rea pedida es de 0.4868 0.2704 = 0.2164 Por lo tanto la probabilidad de que la muestra de 100 lechones tenga una media entre 4.96 y 5.00 es de 0.2164 en porcentaje (0.2164 x 100) es de 21.64 % de probabilidad. 3.4 Ejercicios de aprendizaje Ejercicio 1. (25 minutos) En equipos de trabajo, lee cuidadosamente los conceptos y ejercicios del subtema de conceptos de probabilidad que se encuentran en los apuntes de la unidad III para determinar los siguientes conceptos y preguntas: a) Cual es el campo de estudio de la estadstica inferencial y como influye la probabilidad en l. b) Que es la probabilidad c) Cual es la formula desglosada de la probabilidad y que valores puede tener d) Cual es la formula desglosada de la probabilidad de no ocurrencia e) Como se calcula la probabilidad como frecuencia relativa Ejercicio 2. (25 minutos) Con los juegos de azar proporcionados por el instructor realiza uno de los siguientes ejercicios a) Utiliza la formulas de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos: E1) La probabilidad de sacar un as en una sola extraccin de un manojo de cartas E2) La probabilidad de sacar el as de corazones rojo de un manojo de cartas E3) La probabilidad de sacar un carta con corazn rojo de un manojo de cartas b) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos: E1) La probabilidad de que te toque tomar en un solo lanzamiento de una pirinola E2) La probabilidad de que te toque poner en el lanzamiento de una pirinola E3) La probabilidad de que te caiga toma todo en el lanzamiento de una pirinola
c) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos: E1) La probabilidad de que te caiga un nmero par en un solo lanzamiento de un dado E2) La probabilidad de que no te caiga un nmero par en un solo lanzamiento de un dado E3) La probabilidad de que te caiga el nmero 6 en un solo lanzamiento de un dado d) Anota la pizarra las formulas y los resultados obtenidos en cada evento calculado, explicndole a tus compaeros como se obtuvieron (10 minutos por cada equipo de trabajo). Ejercicio 3. (30 minutos) En equipos de trabajo de 5 o 6 integrantes, lee cuidadosamente los conceptos y ejercicios que se encuentran en los apuntes de la unidad III en los subtemas de variables y distribucin de la probabilidad para determinar los siguientes conceptos y preguntas: a) Que es una variable aleatoria y como se representa b) De acuerdo con su valor numrico que es una variable discreta c) De acuerdo con su valor numrico que es una variable continua d) Menciona dos ejemplos que no estn en los apuntes de variables binomiales e) Que es una muestra aleatoria y cuando se utiliza f) Por que una variable aleatoria permite definir la probabilidad de ocurrencia g) Que es la distribucin de la probabilidad Ejercicio 4. (30 minutos) Con el auxilio de los apuntes de los subtemas de distribucin de la probabilidad determina cual es el tamao de la poblacin o espacio muestreal que existe en el lanzamiento de dos dados numricos, que valores puede tomar la suma o combinacin de una cara de cada dado en un lanzamiento (la cual se conoce como variable aleatoria discreta) y cual es el valor de ocurrencia (p) y no ocurrencia (q) de cada variable aleatoria. Ejercicio 5. (60 minutos) a) Con los dados proporcionados por el instructor realiza (Equipo 1: 75 lanzamientos, Equipo 2: 100 lanzamientos, Equipo 3: 125 lanzamientos y Equipo 4: 150 lanzamientos) y a anota en la tabla cada uno de los resultados obtenidos. Suma 2 3 4 5 6 7 8 9 10 11 12 veces que cayo Total
b) Con los resultados de total de veces de cada variable (suma de los nmeros) realiza un grafica de puntos para representar la probabilidad de cada ocurrencia de cada valor. c) Contesta las siguientes interrogantes:
Que nombre la daras el punto medio de la grfica Que sucede con la probabilidad a medida que se acerca o aleja el valor del punto medio Como mediras o que valor le daras a la cercana o lejana de un valor de su punto medio Ejercicio 6. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) Supongamos que en un tanque de nitrgeno lquido se tienen 15 dosis de semen en buenas condiciones y 4 dosis caducas. Cual es la probabilidad de sacar 1 dosis de semen buena y cuales la probabilidad de sacar una dosis de semen caduca. b) La probabilidad de xito (efectividad) de un nuevo insecticida orgnico a base extracto del rbol de nin para combatir la mosca blanca es 0.83. Calcula la probabilidad de que una vez administrada a un lote de injertos de naranja que consta de 20 plantas a) Ninguna sufra ataques de la plaga b) Todas las plantas sean afectadas por la plaga, c) Solo el 50% sea afectada por la plaga d) Determina la media del nmero de plantas infectadas e) Determina la varianza del nmero de plantas infectadas e) Determina la desviacin estndar del nmero de plantas infectadas c) Da 10 ejemplos de variables continuas, 5 ejemplos de variables discretas y 5 ejemplos de variables binomiales. d) Encontrar un rea entre Z = 0 y Z = 1.63 DE Encontrar un rea entre Z = 0 y Z = 1.88 DE Encontrar un rea entre Z = 0 y Z = 2.57 DE Encontrar un rea entre Z = 1.83 y Z = 1.98 DE Encontrar un rea entre Z = -1.45 y Z = 1.67 DE e) Marca John Deer asegura que el rendimiento de sus tractores de inyeccin electrnica fue de 25.5 Km./litro de disel, cuando realizo pruebas en las ltimas 750 unidades producidas. Si los productores del ingenio azucarero adquieren 50 unidades con el fin de optimizar el uso de combustible en sus cultivos, Qu % de los tractores crees que tengan un rendimiento de 27 Km./litro de disel.
UNIDAD IV. Estimacin
4.1 Hiptesis estadstica A menudo se tiene que tomar decisiones sobre una poblacin partiendo de informacin procedente de una muestra de la misma. Ejemplos: Si se quiere saber si un fertilizante es mejor que otro en el cultivo de chile habanero. Si existen diferencias en el peso al destete de dos razas de cerdos. Si el rendimiento de una Ha. de caa en Sac-Xan es igual o superior a la produccin media de la regin. Para tomar tales decisiones sin que se estudie o analice toda la poblacin es conveniente hacer determinados supuestos o enunciados a cerca de las poblaciones que se estudian.Tales supuestos se llaman hiptesis estadsticas y pueden ser ciertas o no. Existen 2 tipos de hiptesis estadsticas: 4.1.1 Hiptesis nula (Ho) Las hiptesis nulas afirman que no hay diferencias estadsticas de la muestra y el parmetro de la poblacin o que no hay diferencias entre dos muestras de los fenmenos (tratamientos) en estudio. 4.1.2 Hiptesis alternativa (Ha) Las hiptesis alternativas afirman que existen diferencias entre la muestra y la poblacin o que existen diferencias entre dos tratamientos. Ejemplo 1: Se cree que la longitud dorsal de la abeja europea es de 30 mm. Se captura un enjambre de abejas en Limones y se obtiene una media de 20 mm de longitud dorsal. Para saber si las abejas que se capturaron en el municipio son europeas o africanizadas, en trminos estadsticos las hiptesis seran: Ho: La medida de longitud dorsal obtenida de la muestra (20 mm) es igual a la medida de las abejas europeas (30 mm) Ha: La medida de longitud dorsal obtenida de la muestra es diferente a la medida de las abejas europeas. Ejemplo 2. El promedio de peso al destete del ganado Brahmn en un rancho es de 210 Kg. y el promedio del Indobrasil es de 190 Kg. Existen diferencias entre el peso al destete de estas dos razas o la diferencia se debe a errores de muestreo. En trminos estadsticos las hiptesis seran: Ho: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es igual al peso al destete del ganado Brahmn (210 Kg.) Ha: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es mayor que el del Brahmn (210 Kg.). El procedimiento que facilita decidir si esas hiptesis son ciertas o falsas (se aceptan o se rechazan) o el determinar si lo observado es diferentes a los resultados esperados se llaman ensayos de hiptesis o reglas de decisin. Para que un ensayo de hiptesis sea correcto, debe disearse de forma que minimice los errores de decisin.
4.2 Tipos de errores El ensayo de hiptesis esta sujeto a dos tipos de errores que son predominantes en cualquier problema de decisin, en el que hay dos elecciones posibles. Podemos rechazar la hiptesis nula cuando en realidad es verdadera, o podemos aceptar la hiptesis nula cuando en realidad es falsa. Estos errores se llaman de tipo I y tipo II, respectivamente.. 4.2.1 Error tipo I Si rechaza una hiptesis cuando debera aceptarse se conoce como error tipo I 4.2.2 Error Tipo II Si acepta una hiptesis cuando debera rechazarse se conoce como error tipo II La probabilidad mxima en la cual se puede cometer un error tipo I en una prueba se llama nivel de significanca del ensayo y se interpreta como la probabilidad del que el estadstico de prueba este en la zona de rechazo de la hiptesis alterna. La forma de representarla es . El valor de significancia mas utilizado es el de 0.05 ( = 0.05) (P<0.05). Tal expresin significa que la probabilidad de cometer un error tipo I es de 5% e indican que si la probabilidad de es mayor de 5% se debe aceptar la hiptesis nula. La probabilidad de cometer un error tipo II se conoce como beta y se representa por B, y se interpreta como la probabilidad de que el estadstico de prueba este entre la zona de aceptacin de la hiptesis alterna. El valor de significancia mas utilizada para B es el de 95% (B = 0.95) o (P>0.05). Tal expresin significa que la probabilidad de cometer un error tipo II es de 95% e indican que si la probabilidad de es mayor o igual a 95%, se debe aceptar la hiptesis alterna. Asumiendo que la hiptesis nula (Ho) es verdadera, un aumento de significa una disminucin en B. Es decir, si aumenta la probabilidad de disminuye la de B. La nica forma de reducir al mismo tiempo ambos errores de decisin es aumentar el tamao de la muestra. Esto puede ser posible o no. En la practica los valores de se pueden encontrar tabulados en la mayora de los libros de estadstica. Generalmente existe una tabla para cada tipo de prueba estadstica. Los contenidos de las tablas se denominan valor tabular o valor de tabla. 4.3 Procedimientos para las pruebas de hiptesis de una poblacin La aceptacin o rechazo de la hiptesis (Ho) se basa en estadsticos de prueba. Los ms usados son: La prueba de T de Student, la prueba de Ji cuadrada y la prueba de F. Si el valor calculado para el estadstico de prueba es mayor que el valor de tabla se rechaza la hiptesis nula y se acepta la hiptesis alterna. Ejemplo: Cuando Tc >Tt se rechaza Ho. O cuando Tc<Tt se acepta Ho.
4.3.1 Para la media 4.3.2 Para la varianza 4.3.3 Para la proporcin 4.4 Intervalo de confianza de una poblacin 4.4.1 Para la media 4.4.2 Para la varianza 4.4.3 Para la proporcin Generalmente los estadsticos de prueba se utilizan para compara los estadsticos de una poblacin con los valores estadsticos de las muestras extradas de la misma, con la finalidad de
determinar si la muestra pertenece o no a la poblacin en estudio. Algunos de los procedimientos utilizados de describen a continuacin. 4.3.1.1 Prueba de T de Student Se utiliza para comparar la media de una muestra contra un valor hipottico. Se usa para comparar dos medias mustrales. Se utiliza cuando el tamao de la muestra es menor a 30 observaciones (n < 30). La T de Student utiliza el Error Estndar (EE) en ves de la varianza (S 2) para calcular la probabilidad de muestras pequeas. 4.3.1.2 Comparacin de una media con un valor hipottico La prueba de T para comparar una media de una muestra con la media de una poblacin, esta dada por la formula: X - T = ----------(EE = S2/n) X = media de la muestra = media de la poblacin S2 = Varianza de la muestra EE = Error estndar de la muestra
En este caso de esta interesado en preguntar si una poblacin tiene o no una media especfica. Ejemplo1: La familiaridad con los pesos del ganado en la regin nos lleva a pesar que la media de peso a los 210 das de destete es de 180 Kg. Se pesan 25 becerros ceb y se obtiene una media de 210 Kg. con una varianza de 35 Kg. La hiptesis que se quiere probar es que la muestra de los becerros es igual al peso promedio de la regin. Es decir: Ho: El peso de la muestra (210) es igual al valor regional (180) Ha: El peso de la muestra es diferente al valor regional Las hiptesis sealan que se trata de una prueba de T de dos colas Si el valor de Tc es mayor que el valor de Tt se rechaza la hiptesis nula y se acepta la Ha.
X - 210 180 30 T = ----------- = ----------- = -------- = 4.285 S2/n 35/25 7 El valor de Tt se buscar con n-1 grados de libertad (GL) y (Anexo 5) GL = 25 -1 = 24 = 0.05 Se busca en la tabla de T (a dos colas) y equivale a 2.064 Dado que 4.285 es mayor que 2.064 se rechaza la Ho y se concluye que la muestra pertenece a una poblacin diferente a la regional. Esta prueba garantiza que los resultados son reales y las diferencias no se deben al azar. Cabe mencionar que el inters fue determinar si haban o no diferencias entre los dos valores, por eso se utilizo una prueba de dos colas (ambos lados de la media). Ejemplo 2: Un investigador tiene razn suficiente para pensar que el aprovechamiento del silo de maz en borregos es del 54%. Realiza una prueba con un lote de 7 borregos y obtiene los siguientes datos: Borrego 1 2 3 4 5 6 7 % aprovechamiento 57.8 56.2 61.9 54.6 53.6 56.4 53.2
El investigador quiere probar la hiptesis del que el aprovechamiento de los borregos utilizados es mejor de lo que se espera (54%) Ha: El aprovechamiento del silo de maz es superior al 54% (prueba de T de una cola) Con un = 0.05 Los datos arrojan que los borregos de la prueba tuvieron una X = 56.24, con una S 2 = 8.89 (sacados en la calculadora) EE = S/n = 8.89/7 = 3.367 56.24 -54.00 Tc = --------------- = 0.665 3.367 La Tt se busca con 6 GL y 0.05 tomando los valores de significancia en la base de la tabla (una cola) el valor es 1.943. Dado que Tc < Tt se acepta la Ho y se concluye que los borregos tuvieron un igual aprovechamiento de la media poblacional.
4.3.1.2 Comparacin de dos medias mustrales Supongamos que se tiene dos poblaciones con medias X 1 y X2. A continuacin se toma una muestra aleatoria de cada poblacin para probar que ambas son iguales. La Ho que define esta diferencia entre medias se esquematiza, Ho: X 1 = X2 y se prueba utilizando la formula: 1 - 2 Tc = -----------S 1 - 2 donde: S 1 - 2 = EE (Error Estndar de la diferencia entre las medias)
En este caso ambas muestras tiene una media y varianza definida, y debe calcularse una varianza comn, denominada Error Estndar de diferencia entre las medias (EE). El calculo de la varianza comn (EE) es el primer paso a realizarse en cual quier prueba de T, donde se comparan dos medias mustrales. Dado que existe una serie de condicionantes de las muestras que pueden hacer variara la formula para su calculo. La formula a utilizar depende de:. Si las dos muestras tienen una varianza comn (iguales estadsticamente hablando) Si los valores de la varianza son conocidos o estimados Si las dos muestras son del mismo tamao Si las observaciones son pareadas 4.3.1.2.1 Prueba de homogeneidad para determinar si las muestras tiene varianza comn El primer paso es determinar si las varianzas son iguales. Una forma prctica y fcil de determinar si las dos varianzas son iguales es a travs del uso de la prueba de F, mediante el siguiente procedimiento: Se calcula la varianza de cada muestra en la calculadora tomando el total de datos de cada muestra y utilizando la funcin estadstica de la misma. Posteriormente se calcula el valor de F dividiendo la varianza mayor entre la varianza menor (Fc= S21/S22 ) y el resultado se compara con el valor de F que se encuentra en las tablas (Ft) proporcionadas en los anexos de estos apuntes.. El valor de F tabulada se obtiene con los grados de libertad (gl = n 1-1) de la varianza mayor en la parte de arriba de la tabla y los grados de libertad (gl = n 2-1) de la varianza menor en la parte lateral izquierda de la tabla (Anexos 6, 7, 8, 9 y 10). Posteriormente se utiliza los siguientes criterios: Si el valor de F calculada (Fc) es menor que (<) la F de tablas (Ft) las varianzas comparadas son iguales o comunes. Si el valor de F calculada (Fc) es mayor que (>) la F de tablas (Ft) las varianzas comparadas son diferentes o no comunes. 4.3.1.2.2 Determinacin del nmero de observaciones. De acuerdo con el nmero de observaciones de cada muestra, se pueden presentar dos casos: Caso 1: n1 = n2. (muestras con igual numero de observaciones tomadas en cada la poblacin) Caso 2: n1 n2. (muestras con desigual nmero de observaciones tomadas en cada poblacin) Con ambos factores se determina que tipos de formula utilizar para cada problema o pruebas de T especificas, tiendo en cuanta que X1 y X2 son medias de dos poblaciones independientes, donde
se han toma una muestra de cada una y se obtiene sus medias 1 - 2, varianza S1 S2 y tamao de muestra n1 n2 y se desea probar la Ho: X 1 = X2, suponiendo que las poblaciones se distribuyen normalmente y tiene un varianza comn pero desconocidas, pueden encontrarse los siguientes casos para calcular los valores de la formula: 4.3.1. 2.3 Muestras con iguales varianzas e igual numero de observaciones Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas 1 - 2 Tc = -----------EE EE = 2S /n
2
donde
SC 1 + SC 2 S = --------------------N-2
2
S2 = Varianza SCX = Suma de cuadrados de X N = Total de observaciones de las dos muestras Para obtener el valor de Tt se utilizan el nivel de significancia deseado ( . = 0.05) y GL sacado por N -2, es decir el total de las observaciones menos 2. La decisin de utilizar la tabla de t de una o dos colas depende de la hiptesis plateada. 4.3.1.2.4 Muestras con iguales varianzas y desigual numero de observaciones Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas 1 - 2 Tc = -----------EE EE = S (1/ n1 +1/ n2) donde
2
SC 1 + SC 2 S = --------------------N2
2
Para obtener el valor de Tt se utilizan el nivel de significancia deseado ( . = 0.05) y GL sacado por N -2, es decir el total de las observaciones menos 2. La decisin de utilizar la tabla de t de una o dos colas depende de la hiptesis plateada. 4.3.1.2.5 Muestras independientes de varianza desigual (Heterogneas) Cuando se realiza la prueba de F y las varianzas no son iguales (S 1 S2) y se quiere probar la hiptesis de que X1 = X2, la forma de calcular Tc y Tt cambian a: 1 - 2 Tc = -----------EE El EE se calcula por: EE = S21/n1 + S22/n2
En este caso no hay necesidad de calcular una varianza comn, dado que resulto que las varianzas son desiguales e independientes, por lo que S 21 y S22 se toman directamente de los datos utilizando la calculadora. Sin embargo, para obtener la Tt, se tienen que obtener los grados de libertad efectivos (GL) para ambas muestras mediante la formula: (S1/n1 + S2/n2)2 GL = --------------------------------------------{ (S21/n1)2/n1-1 } + { (S22/n2)2/n2-1 } El . = 0.05 Ejemplo 1. En un experimento con 22 plantas. Se probaron dos hormonas de crecimiento, la Adenotropa (A) y la Corticotropa (C). 11 plantas recibieron la hormona A y 11 plantas la hormona C. Los efectos se midieron pesando las plantas despus de 15 das de aplicacin. La hiptesis planteada es que las hormonas producen iguales efectos. Ho: No existen diferencias en el crecimiento de la plantas por efecto del tipo de hormona Los resultados fueron los siguientes: HormonaA 57 120 101 137 HormonaC 89 30 82 50 Clculos necesarios Hormona A 2 S S2 N ()2/n SC = 2 - ()2/n 119 39 117 22 104 57 73 32 53 96 68 31 118 88
97 1067 111971 29.106 847.2 11 (1067)2/11 = 103499 111971103499 = 8474
Hormona C 2 S S2 N ()2/n SC= 2 - ()2/n
56 616 42244 27.83 774.8 11 34496 42444 4496 = 7948
1. Se toman de los valores de las varianzas de la calculadora).. S2 A = 847.2 S2 C = 774.8 2. Se realiza la prueba de homogeneidad de las varianzas Fc = S21/S22 = 847.2 / 774.8 = 1.093 Ft = 10 GL en el numerador y 10 GL en el denominador, a un = 0.05 Ft = 2.97
Dado que Fc (1.093) < Ft (2.097) se acepta la Ho de que las varianzas son iguales. 3. Se calcula el EE de la diferencia entre medias En este caso la varianza comn (S21 = S22) con igual numero de observaciones (n1 = n2) EE = 2S2/n SC 1 + SC 2 8,474 + 7,948 16,220 S = --------------------- = ------------------- = -------------- = 811.0 N2 22 2 20
2
EE = 2S2/n = 2 (811.0)/22 = 12.14 4. Se calcula T 1 - 2 97 56 41 Tc = ------------------- = ------------------ = -------------- = 3.38 EE = 2S2/n 2 (811.0)/22 12.14 5. Se determina Tt Tt se busca con 20 GL (N 2) y = 0.05 (tabla de dos colas) Tt = 2.086 Dado que Tc (3.38) > Tt (2.086) se rechaza la hiptesis nula y se concluye que existen diferencias en el peso de las plantas por efecto de las hormonas. Donde la hormona A da un peso superior a la hormona C. 4.3.1.2.6 Calculo de T con tratamientos pareados Esta distribucin se utiliza cuando los tratamientos por comparar son muy heterogneos y hay similitud entre las observaciones contiguas o estn correlacionadas. Esta prueba trata de eliminar errores de observaciones o fuentes de variacin por falta de tiempo o espacio para hacer determinado experimento. Ejemplo 1. En un estudio con Leucaena se compararon dos variedades durante 9 aos. En cada ao se sembraron las variedades peruana (P) y Leucocephala (L) y se obtuvieron los resultados de forraje verde en ton/ha. La hiptesis planteada es que la diferencia promedio de ambos variedades es igual Ho: No existen diferencias en el rendimiento de la leucaena por efecto de la variedad ( d = 0) Ha Existen diferencias en el rendimiento de la leucaena por efecto de la variedad (d 0) Resultados de dos variedades de Leucaena por 9 aos variedades Diferencia Ao P L Di 1992 71.0 54.7 16.3 1993 73.9 60.6 13.3
1994 1995 1996 1997 1998 1999 2000
48.9 78.9 43.5 47.9 63.0 48.4 48.1
45.1 71.0 40.9 45.4 53.4 41.2 44.8
3.8 7.9 2.6 2.5 9.6 7.2 3.3
Clculos (di) d d 2d Sd S2d Nd (d)2/n

2
7.38 66.5 687.33 4.95 24.49 9 (66.5)2/9 = 491.36
d2 - ( ( d)2 /n ) 687.3 491.36 195.97 S d = -------------------------- = ---------------------- = -------------- = 24.5 N1 91 8 EE = S2/n = 24.5/9 = 1.663 d 7.38 Tc = --------- = ----------- = 4.48 EE 1.663 Tt se busca con 8 GL (N 1) y = 0.05; Tt = 2.306 Dado que Tc (4.48) > Tt (2.306) rechazamos la hiptesis Ho y concluimos que las variedades son diferentes. Donde la variedad peruana es mejor que la leucocephala. 4.4 Prueba de Ji cuadrada (para intervalos de confianza de una poblacin) La distribucin de Ji cuadrada se utiliza cuando se quiere comparar la media de una poblacin observada con su valor esperado de probabilidad. Muchas veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados tericos esperados, segn las reglas de probabilidad. Por ejemplo, aunque consideraciones tericas conduzcan a esperar 50 machos y 50 hembras del nacimiento de 100 becerros, es raro que se obtengan exactamente estos resultados. Cuando se desea determinar si las frecuencias observadas difieren significativamente de las esperadas se utiliza el estadstico de prueba Ji cuadrada. Este estadstico da una medida de la discrepancia existente entre las frecuencias observadas y esperadas. (O j - E j)2 Chi (X2) = -----------------Ej
Donde O j es la frecuencia observada y E j es la esperada en la celda j. Si la X 2 = 0, la frecuencias observadas y esperadas concuerdan exactamente; mientras que si X2>0, no coinciden exactamente. A valores mayores de X2 mayores son las discrepancias entre las frecuencias observadas y esperadas. Nota: Al igual que la distribucin de t, la distribucin de Ji cuadrada se calcula por el nmero de desviaciones independientes, es decir por los grados de libertad. El nmero de grados de libertad de un estadstico se define como el tamao de la muestra menos el nmero de los parmetros de la poblacin que deben estimarse a partir de las observaciones de la muestra. Se simboliza Gl (Gl = t 1) y se buscan en el anexo 11 Ejemplo 1. Se desea determinar si se cumplen las leyes de la herencia mendeliana para la caracterstica del cuello desnudo en un lote de 200 pollitos, resultado del cruzamiento de un gallo cuello desnudo (Nana) y gallinas (Nana) heterocigotos (no puros). De acuerdo con las leyes mendelianas la herencia debe de dar los resultados: NaNa = pollo cuello desnudo Nana = pollo cuello desnudo nana = pollos sin cuello desnudo Ho: No existen diferencias entre los valores observados y los esperados (Ho = 0) Genotipo nana Nana NANA Observado 45 102 53 Esperado 50 100 50 (45 50) 2 (102 100) 2 (53 50) 2 52 22 -32 X2 c = -------------- + ----------------- + --------------- = ----- + ------ + ------ = 0.72 50 100 50 50 100 50 X2t = Gl (numero de clases 1) y o sea 2 Gl (3 -1) y = 0.05 (Anexo 11) Cuando las clases del valor esperado son mayor de 2, se multiplica el numero de columnas por el numero de filas a las que previamente se les resta uno, para sacar los grados de libertad (Gl = Columnas -1 * filas -1) Si la Xc > Xt rechazamos la Ho. Xc (0.72) < Xt (5.99) Conclusin: Por lo tanto aceptamos la hiptesis nula y se concluye que las frecuencias observadas estn de acuerdo con las frecuencias esperadas de las leyes de Mendel. En algunas ocasiones la naturaleza de los trabajos no permite tener la seguridad de los valores esperados, por lo tanto estos deben ser calculados a travs de los resultados de los valores observados.
Ejemplo 2. Se desea determinar si el suero de inmunizacin del clera porcino, es til para curar la presencia de la enfermedad en cerdos de traspatio. Por lo tanto, a un grupo de animales se les inyecta el suero (grupo tratado) y al otro grupo agua destilada (grupo testigo). Efectividad Suer o Sanaron 75 No Sanaron 5 Total 80 Testigo Total 25 45 70 100 50 150
A continuacin se procede a calcular las frecuencias esperadas. La frecuencia esperada para la celda 1, se obtiene multiplicando los totales marginales y dividiendo el resultado entre el gran total. E1 = 100 * 80 / 150 = 53.33 Similarmente las frecuencias esperadas para las celdas 2, 3 y 4. E2 = 100 * 70 / 150 = 46.67 E3 = 50 * 80 / 150 = 26.67 E4 = 50 * 70 / 150 = 23.33 Entonces el valor de Chi cuadrada se calcula como: (O j - E j)2 X = -----------------Ej
2
(75 53.33) 2 (25 46.67) 2 (5 26.67) 2 (45 23.33) 2 X = ---------------- + ----------------- + ------------------ + ------------------53.33 46.67 26.67 23.33
2
X2 = 8.805 + 10.062 + 17.607 + 20.128 = 56.602
X2c = 56.602
X2 t = Chi de tabla se busca con 1 Gl (2 columnas 1) y = 0.05; la cual resulta = 3.84 X2c (56.602) > X2t (3.84) por lo tanto se rechaza la hiptesis nula El porcentaje o proporciones de animales que sanaron con el suero = 75 / 80 * 100 = 93.75 % El porcentaje de sanos en el testigo = 25 / 70 * 100 = 35.71 % Conclusiones: Existen diferencias entre el grupo de animales tratados (93.75 % sanaron) y el grupo de animales testigos (35.71 %). Nota. Si la Ho no se hubiera rechazado, sera equivalente a afirmar que la recuperacin es independiente del empleo del suero, es decir la clasificaciones son independientes. 4.5 Ejercicios de aprendizaje
En parejas realiza los siguientes ejercicios Ejercicio 1. Contesta el siguiente cuestionario a) Cuando se deben formular una hiptesis estadstica b) Que afirma estadsticamente una hiptesis nula c) Que afirma estadsticamente una hiptesis alternativa Ejercicio 2. Realiza el siguiente ejercicio Con las conclusiones sacadas del cuestionario anterior y tomando como base los ejemplos que se encuentran en los apuntes de la unidad IV, formula 5 hiptesis nulas y 5 hiptesis alternas, que estn relacionadas con el rea agropecuario. Desde luego no pueden ser las mismas de los apuntes. Ejercicio 3. Contesta el siguiente cuestionario a) Que es un ensayo o prueba de hiptesis b) Que tipos de errores se pueden cometer en un ensayo o prueba de hiptesis c) Que es un error tipo I d) Que es un error tipo II e) Que es el nivel de significancia, como se interpreta, como se representa y que nivel se utiliza. f) Como se conoce a la probabilidad de cometer un error tipo II, como se representa y que nivel se utiliza g) Donde y como se pueden encontrar los valores de alfa y beta de los diferentes tipos de ensayo de hiptesis h) Que es un estadstico de prueba i) Cuales son los estadsticos de prueba mas utilizados en el mbito agropecuario j) Cuando se utiliza un estadstico de prueba Ejercicio 4. Realiza el siguiente formulario a) Cuales son las formulas de T de Studen para comparar una muestra con un valor hipottico o poblacional b) Cuales son las formulas de T de Studen para comparar dos medias mustrales c) Cuales son la formulas de T de Studen para comparar dos tratamientos pareados d) Cuales son la formulas para comparar las medias de una poblacin observada con un valor de probabilidad esperado o prueba de Ji cuadrada Ejercicio 5. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) El promedio de produccin de leche en la regin para vacas Suizo Ceb es de 4.75 litros por vaca por da. Se tomo en un rancho de la regin 30 vacas elegidas al azar a las que se alimento con un suplemento a base de melaza, gallinaza, sorgo y sal mineral por un periodo de 30 das. Durante todo el periodo se midi la produccin de leche y se saco el promedio de produccin diaria para cada vaca. Realiza una prueba de T de Student para probar la siguiente hiptesis. Ha: Las suplementacin mejora la produccin diaria de leche en las vacas No de vaca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Produccin No de vaca Produccin
7.5 8.0 5.0 4.0 2.0 5.0 16 17 18 19 20 21 5.0 4.0 6.0 4.5 4.9 3.00
8.9 7.6 9.1 8.0 5.2 6.3 4.2 5.0 6.1 22 23 24 25 26 27 28 29 30 3.2 5.9 9.0 5.0 4.5 9.0 8.9 9.2 9.7
b) El promedio del crecimiento de las plantas de zapote en vivero es de 80 cm por ao, un productor cree que con un nuevo sistema de contenedores puede mejorar el crecimiento de las plantas, las cuales se siembra bajo condiciones controladas. Los resultados obtenidos en cm despus de un ao de siembra se muestran en el cuadro siguiente. Crees que exista suficiente evidencia estadstica para pensar que el productor tiene razn. Platea las hiptesis que creas convenientes y prubalas. 73 102 118 104 81 94 79 96 98 102 98 74 56 111 95 90 76 90 64 86 49 82 73 86 81 108 95 97 80 98
c) Un productor pretende comparar la produccin en Kg. de una nueva variedad de frjol (Mantequilla) con la variedad que se siembra comnmente en la regin, de la cual se obtiene normalmente 220 Kg. por hectrea. El productor siembra 20 hectreas de la nueva variedad y obtiene los siguientes resultados Rendimiento de frjol mantequilla / ha. . 420 460 380 410 320 380 310 300 250 320 280 260 350 420 460 400 360 250 220 260 El productor desea saber si el rendimiento de la nueva variedad es igual al rendimiento que obtiene normalmente o si la variedad es mejor. Plantea las hiptesis que creas convenientes para contestar las preguntas del productor. Con los resultados que obtuviste que le recomendaras. d) En una graja de produccin porcina, la ganancia normal de peso obtenida en cerdos de engorda es de 0.810 Kg. por animal por da alimentndolos con una dieta que contiene 14% de protena cruda. El encargado de la alimentacin cree que aumentando el nivel de protena cruda a 18% en la dieta el peso aumentara. Para probar su idea alimenta un grupo de cerdos durante 3 meses y obtiene los resultados que se muestran abajo. 0.690 0.660 0.780 0.740 0.960 0.760 0.890 0.710 0.810 0.810 0.930 0.830 0.730 0.650 0.790 0.690 0.660 0.800 0.840 0.730 0.810 1.250 0.830 0.790 0.710 1.010 0.700 0.850
La hiptesis ha probar fue:
Ha: El nivel de 18% de protena cruda mejora la ganancia de peso Crees que el encargado tiene razn?. En que te basas? e) Un investigador pecuario trabajando con cabras lecheras, desea probar un suplemento fosfatado para la produccin de leche, contra cabras sin suplementar. El efecto del suplemento se midi como la produccin de leche por cabra por da. Se utilizaron 10 animales por cada tratamiento. Los resultados obtenidos despus del experimento son los siguientes. Testigo 1.150 1.125 1.100 1.112 1.195 1.125 1.150 1.150 1.125 1.100 Ortofosfato 1.450 1.550 1.547 1.650 1.400 1.550 1.450 1.450 1.550 1.547
Prueba la hiptesis: Ho: el suplemento fosfatado mejora la produccin de leche en cabras lecheras Saca tus conclusiones del trabajo g) Un investigador esta tratando de probar la eficacia de escarificacin de semillas de Leucaena con hidrxido de sodio (NaOH), para lo cual trato un lote de semillas y les hizo una prueba de germinacin, el investigador comparo sus resultados con la germinacin de semillas sin tratar. Efectividad Testigo NaOH Total Germinaron 745 909 No germinaron 375 223 Total h) La eficacia de dos herbicidas (2-4 D amina y faena) se ha probado por el numero de plantas por hectrea de que elimina o deja de eliminar. Un productor desea saber si es lo mismo usar cualquiera de los dos herbicidas, dado que el faena vale 5 veces ms que el 2 4 D amina. Plantas 2-4 D amina Faena Total Muertas 1117 405 Vivas 223 679 Total i) Un investigador trata de averiguar cual es el mejor mtodo de escarificacin de semillas de Leucaena, para lo cual utiliza cuatro diferentes tratamientos, cido sulfrico (H2SO), hidrxido de sodio (NaOH) y calor, Se utilizo un lote de semillas por cada mtodo y se les hizo una prueba de germinacin, el investigador comparo sus resultados con la germinacin de semillas sin tratar.
Efectividad Testigo H2SO NaOH Germinaron 745 909 1117 No germinaron 591 375 223 Podridas 14 66 10 UNIDAD V. Regresin y correlacin
Calor Total 450 679 221
5.1 Regresin La aplicacin de los conceptos de probabilidad en la produccin agrcola, pecuaria y forestal, permiten predecir la influencia de algunos factores en el comportamiento productivo de animales, cultivos, plantas o calcular el grado de relacin que existe entre esos factores y los caracteres productivos. Las herramientas matemticas que facilitan estos aspectos son la regresin y la correlacin. 5.1.1 Regresin lineal 5.1.2 Regresin no lineal Es el procedimiento que se usa para construir una ecuacin de prediccin para una variable aleatoria (que puede ser x carcter productivo) como efecto de una o mas variables independientes (obtenidas de rasgos productivos, mediciones, datos de produccin etc.). Es decir se trata de predecir el comportamiento de una variable como resultado de la observacin de otra u otras variables. Ejemplo: En el sector de produccin de caa es de sumo inters para los productores, poder estimar los volmenes de produccin para las siguientes cosechas en sus parcelas. Sin embargo los productores saben de antemano que no todas las parcelas producen igual, pues el rendimiento depende de factores como la fertilizacin, el tipo de suelo, las labores de cultivo, el tipo de maquinaria utilizada, entre otros. En tal sentido los productores quieren predecir como se incrementaran sus rendimientos tomando en cuenta que van a fertilizar sus parcelas. Para realizar las estimaciones los productores cuentan con la informacin de 10 parcelas distribuidas en ejidos diferentes con distintas caractersticas de produccin, que muestran el rendimiento de las parcelas antes y despus de la aplicacin de fertilizante en cuestin. Dicha prediccin le permitira a cada productor decidir si realiza la inversin en ese tipo de fertilizante o no lo aplica o se cambia a otro, antes de comprar y aplicar el producto en cuestin, que se muestran en el cuadro siguiente. Parcela 1 2 3 4 5 6 7 8 9 10 Produccin antes de fertilizar Ton/Ha. (X) 39 43 21 64 57 47 28 75 34 52 Produccin despus de fertilizar Ton/Ha. (Y) 65 78 52 82 92 89 73 98 56 75
Puede observarse que el problema planteado es muy general, pues estamos interesados en una variable aleatoria (Y) que esta relacionada con algunas variables independientes (X 1, X2, X3.).
La variable aleatoria en este caso es el rendimiento futuro de las parcelas y las variables independientes que influyen en el rendimiento son la fertilizacin (X 1), el tipo de suelo (X2), las labores de cultivo (X3), el tipo de maquinaria (X 4). En este caso nos interesa nicamente la primera variable. El objetivo de la regresin es medir el efecto de las variables independientes (X1, X2, X3.) para una parcela cualquiera (en este caso nos interesa nicamente la primera variable) y colocar esos valores en una ecuacin de prediccin y as poder estimar el promedio de produccin de cualquier otra parcela. Es decir se trata de construir una ecuacin que permita estimar la produccin futura de cualquier parcela como efecto de la fertilizacin El primer paso para solucionar este problema, es construir una grafica con los datos de los productores, tomando los rendimientos de las parcelas despus de fertilizar como eje Y, y la produccin antes de fertilizar como eje X y trazar una lnea a travs de los puntos de tal manera que todos queden equidistantes de la lnea trazada (lnea de mejor ajuste).
Regresin lineal 120 100 Despues de fertilizar 80 60 40 20 0 0 20 40 Antes de fertilizar 60 80 Serie1
En teora se puede utilizar la grafica para predecir la produccin de una parcela en funcin de la fertilizacin, pues la recta representa un modelo matemtico que expresa la supuesta relacin funcional entre Y y X (la produccin de la parcela y la fertilizacin). Sin embargo la ecuacin debe expresarse matemticamente, de tal manera que pueda utilizarse en clculos futuros, por lo cual debemos recordar que la ecuacin matemtica de una lnea recta es: Y = o + 1X Donde o es el punto de interseccin con el eje Y y 1 es la pendiente o inclinacin de la recta. Cuando trazamos una lnea a travs de los puntos en realidad estamos trazando un modelo matemtico deterministico, por que cuando se coloca un valor de X en la ecuacin, el valor de Y queda determinado y no deja abierta la posibilidad de error. Por lo tanto los modelos deterministicos son bastante adecuados para utilizarse como herramienta de prediccin.
El segundo paso para la solucin de la ecuacin de la recta de mejor ajuste de Y con respecto a X, se utiliza el procedimiento de los mnimos cuadrados, donde se estima los valores de o y 1, mediante la formulas: SCxy 1 = ____________ SCx o = - 1(x) Donde para calcular la SCx y SCxy se utiliza las formulas SCx
( X)2 = X - -------n
2
( X) ( Y)
SCxy = (X)(Y) - ----------------n i =1
Para su aplicacin debe de realizarse los siguientes clculos en la calculadora: X 39 43 21 64 57 47 28 75 34 52 460 Y 65 78 52 82 92 89 73 98 56 75 760 XY 2,535 3,354 1,092 5,248 5,244 4,183 2,044 7,350 1,904 3,900 XY 36,85 4
Media x 46 Media y 76 X2 23,63 Y2 59,81 4 6 N 10 N 10 Sustituyendo los valores en la formula de SC, tendremos: (460)2 ( X)2 2 SCx= X - -------= 23,634 - -------- = 23,634 21160 = 2,474 n 10 (460) (760) ( X) ( Y) i =1 SCxy = (X)(Y) - ----------------= 36,854 - ---------------- = 36,854 34960 = 1,894 n 10 Sustituyendo los valores en la ecuacin tendramos: SCxy 1,894 1 = ________ = ________ = 0.765562 o 0.77 SCx 2,474 o = - 1(x) = 76 (0.765566) (46) = 76 35.216036 = 40.7841 o 40,78
Por lo tanto la ecuacin que mejor ajusta la produccin de una parcela con respecto a la fertilizacin sera: Y = 40.78 + 0.77 X Donde la valor 40.78 es la interseccin con Y (sea cuando X vale 0) y 0.77 es la pendiente de la recta que da el cambio estimado en Y por cada unidad de cambio de X. Con esta ecuacin se puede predecir la producciones futuras de una parcela fertilizada (Y) partiendo de una produccin sin fertilizar (X). Ejemplos: Si una parcela produce actualmente 50 Ton/Ha. sin fertilizar y se fertiliza, su produccin calculada sera: Y = o + 1X Y = 40.78 + (0.77) (50) = 40.78 + 38.50 = 79.28 Ton/Ha. Para una parcela que produce 35 Ton/Ha, sera: Y = o + 1X Y = 40.78 + (0.77) (35) = 40.78 + 26.95 = 67.90 Ton/Ha. 5.2 Correlacin Alguna veces es deseable saber que tanto una variable influyen en los cambios provocados en la otra variable o sea que tan fuerte es la relacin entre las variables Y y X, que sea independiente de sus respectivas escalas de medicin. 5.2.1 Correlacin lineal 5.2.2 Coeficiente de determinacin A la relacin que existe entre dos variables se le denomina coeficiente de correlacin lineal entre Y y X y se simboliza con la letra r y su valor siempre va de 0 a 1 o -1, dependiendo si se trata de una correlacin positiva (1) o negativa (-1). El valor de r = 0 indica que no hay correlacin lineal entre Y y X o sea que los valores de X no producen cambios en Y. Los valores positivos de r (0.01 a 1) indica que existe una correlacin positiva de Y y X y la recta que forman los datos van creciendo hacia la derecha, donde el valor de r = 1 indica que existe una total correlacin de Y y X o sea que los valores de X explican 100% los cambios provocados en Y (a medida que aumenta X, aumenta Y). Cuando el valor de r es negativo indica que los puntos que forman la recta van decreciendo hacia la derecha, o sea que a medida que aumenta X desminuye el valor de Y. Para el calculo del coeficiente de correlacin se utiliza la formula SCxy r = ------------------. (SCx) (SCy) Para explicar el clculo del coeficiente de correlacin tomaremos los mismos datos del ejemplo anterior, en que se quiere predecir la produccin futura de una parcela de caa como efecto de la fertilizacin. X Y XY 39 65 2,535 43 78 3,354 21 52 1,092 64 82 5,248 57 92 2,244 47 89 4,183 28 73 2,044 75 98 7,350 34 56 1,904
52 460
75 760 76 59,81 6 10
3,900 36,85 4
X 46 X2 23,63 4 N 10
10
La SCx y SCxy ya han sido calculadas y sus valores son SCx = 2,474 SCxy = 1,894
La SCy se puede calcular mediante la formula: SCy

( Y)2 = Y - -------n
2
Sustituyendo los valores de la formula sera: (760)2 SCy = 59,816 - -------- = 59,816 57,760 = 2,056 10 Por lo tanto para calcular r se sustituyen en la formula SCxy 1894 1894 1894 r = ------------------ = ------------------ = ------------- = ----------- = 0.8397 o 0.84 (SCx) (SCy) (2,474) (2056) 5086544 2255.336 r = 0.84 El valor de 0.84 indica que existe una correlacin positiva entre Y y X, o sea que a medida que va aumentando X, va aumentando el valor de Y, y que el 84% (0.84 x 100) de los cambios de Y estn relacionados con los valores de X. O sea que existe una fuerte correlacin entre las variables. Si el valor que se obtuvo fuera inferior a 0.5 indicara que no existe una fuerte correlacin entre las variables. O si el valor hubiera sido negativo (-0.84) indicara que a medida que aumenta el valor de X disminuye el valor de Y. 5. 3 Ejercicios de aprendizaje Ejercico1. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) En la regin lechera de Quintana Roo los productores desean saber si la suplementacin de las vacas realmente esta relacionada con el incremento en la produccin de leche por da, o este incremento es resultado de otros factores, tambin quieren saber como se incrementara la produccin en sus vacas, pues tiene animales de todas las cualidades genticas. Por lo que los
i =1
productores toman los datos de produccin de los animales sin suplementar y despus de someterlos a una suplementacin de 60 das. Los datos se enlistan a continuacin: Vaca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Antes 4.5 4.8 6.0 6.2 4.0 4.3 4.9 4.6 5.0 5.0 5.2 5.7 5.6 5.8 5.9 Despus 8.6 8.9 10.9 12.0 7.9 8.0 8.6 9.2 10.0 10.9 10.7 10.2 9.7 9.9 11.0
Realiza una grafica que relacione la produccin antes y despus de la suplementacin. Opten una ecuacin de regresin lineal que permita predecir la produccin de las vacas por efecto de la suplementacin. Realiza las predicciones de produccin partiendo de los datos de los animales sin suplementar. Opten el coeficiente de correlacin entre la produccin de leche y la suplementacin Determina si ambas variables estn correlacionadas o no.
UNIDAD VI. Muestreo aleatorio simple 6.1 Conceptos bsicos de muestreo Una poblacin es cualquier coleccin entera de personas, animales, plantas o cosas, de las cuales podramos recolectar datos. Es el grupo entero que nos interesa, l cual deseamos describir o sobre l cual deseamos establecer conclusiones. Por lo tanto la poblacin es un conjunto de todas las mediciones o datos de inters que son factibles de muestrearse. Una muestra es un subconjunto de las mediciones seleccionadas de la poblacin de inters. En tal sentido el muestreo puede definirse como la representacin de un todo (poblacin) en una proporcin adecuada (muestra), que contenga las caractersticas de ese todo y cuyos resultados sern los mismos, como si se hubiera hecho el estudio en toda la poblacin. Una muestra que no tenga representacin de la poblacin de estudio imposibilita la obtencin de datos confiables, aun cuando en las etapas posteriores se utilicen las tcnicas de anlisis estadstico mas sofisticadas. En los sistemas de produccin agropecuaria y en general en las poblaciones biolgicas, la toma de decisiones, acciones y actitudes estn basadas en gran parte en muestras, ante la imposibilidad de trabajar con toda la poblacin, aunque est sea finita. La cantidad de informacin obtenida de la muestra para hacer inferencias acerca de la poblacin, depende del nmero de elementos muestreados y la variacin de los datos. El diseo del muestreo es el mtodo de seleccin de la muestra dirigido a controlar la variacin de los datos que pudieran afectar la inferencia. El diseo y tamao de la muestra determina la cantidad de informacin pertinente a un parmetro poblacional, siempre y cuando se obtengan mediciones exactas en cada elemento muestreado. Como siempre estamos sujetos a errores, la manera de controlar la exactitud de las mediciones sera mediante mtodos adecuados de recoleccin de datos y por una buena elaboracin de los instrumentos de muestreo o plan de muestreo. 6.1.1 Unidad de muestreo Las unidades de muestreo son colecciones de datos no repetidos de elementos de la poblacin, que conforman la poblacin completa. Cada dato u observacin independiente es llamado unidad experimental o item. 6.1.2 Marco de muestreo Un marco es una lista de unidades de muestreo (unidades experimentales) que contienen todos los elementos que son factibles de muestrearse y que generalmente proviene de una lista ms grande. O sea un marco es la relacin de los elementos que contienen el atributo que se desea muestrear. Algunos esquemas de muestreo pueden requerir marcos mltiples donde las muestras obtenidas pueden ser seleccionadas de un marco o varios marcos.
Para comprender mejor la terminologa usada en el muestreo estadstico, analicemos el siguiente ejemplo: El baniario Rancho Alegre de la comunidad de Bacalar, realizo un muestreo de opinin, para determinar la actitud del pblico hacia la creacin de una seccin especial para acampar en las instalaciones del baniario. El Objetivo del muestreo fue estimar la proporcin del nmero de personas de la ciudad de Chetumal mayores de 18 aos, que pudieran hacer uso de la nueva seccin para acampar. En este caso la unidad experimental o tem, son los habitantes de la comunidad mayores de 18 aos. La poblacin es el nmero de habitantes de Chetumal mayores de 18 aos (poblacin finita) Las unidades de muestreo son los habitantes de Chetumal mayores de 18 aos, visitantes potenciales o no, de la zona de acampar en el baniario. Sin embargo un proceso mas eficiente puede ser el muestreo de casa, (varias unidades experimentales). Si las casas son las unidades de muestreo, estas debe de definirse de tal manera que ninguna persona mayor de 18 aos de la poblacin pueda ser muestreada mas de una ves, y que cada unidad experimental tenga la misma oportunidad de ser seleccionada. En este ejemplo el marco de muestreo pueden ser las listas del Instituto Federal Electoral (IFE) de personas con credencial de elector., pues estas por regla tienen que tener mas de 18 aos. Pero tambin pueden ser los resultados del censo de poblacin del Instituto Nacional de Estadstica Geografa e Informtica (INEGI) en los que se seleccione las personas mayores de 18 aos. Aunque tambin se pueden utilizar ambos marcos de muestreo que pueden ser complementarios, con la finalidad de tener mayor exactitud en el muestreo. 6.1.3 Diferencia entre parmetros y estimadores El objetivo del cualquier muestreo es realizar inferencias acerca de una poblacin de inters, partiendo de la informacin obtenida de una muestra de dicha poblacin. Las inferencias en el muestreo usualmente son dirigidas a la estimacin de ciertas caractersticas numricas de la poblacin, tales como la media, la desviacin estndar o el tamao de la poblacin. Estas medidas descriptivas de la poblacin se denominan parmetros. Cuando estos valores o parmetros de la poblacin se calculan a travs de los valores obtenidos de una muestra tomada en la misma poblacin se denominan Estimadores (E) y se simbolizan por ^. En otras palabras estimador (E) es una funcin (propiedad) de la variables aleatorias que se usa para estimar un parmetro. Por ejemplo la media muestral () puede ser utilizada como un estimador de la media poblacional (). Por lo que en este caso es una variable aleatoria con una distribucin de muestreo que depende del mecanismo mustrela. Algunos de los posibles valores que puede tomar, estarn cercanos a en cualquiera de los lados positivo o negativo. Cualquier mtodo de muestreo busca que el valor esperado de sea igual a ( = ) y que la desviacin estndar entre la poblacin () y la muestra (s) se pequea o iguales ( = s). En trminos generales se estima que en una poblacin con distribucin normal (distribucin Z), la media y la varianza de la poblacin es igual a la media y la varianza de la muestra, o se espera que sean muy cercanas. Por lo que cuando se hacen los clculos de cualquier parmetro ambas medias y varianzas se toman por igual y se sitan en el centro de la distribucin de probabilidad como se esquematiza en la siguiente figura.
6.2 Concepto de muestreo aleatorio Si una muestra n es seleccionada de una poblacin de tamao N de tal manera que cada muestra posible de tamao n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestre se denomina Muestre Aleatorio Simple (MAS). A la muestra obtenida (n) se le llama muestra aleatoria irrestricta. En la practica el proceso del muestreo, se trata de obtener muestras de una poblacin finita, por lo que es mas fcil asignar a cada elemento de la poblacin un numero escrito y obtener ese numero, sin sesgos, mediante una tabla de nmeros aleatorios (Anexo 12) o una calculadora con nmeros aleatorios. La seleccin de los nmeros corresponder al nmero de elementos de la muestra de entre un total de N elementos de la poblacin. Con base a esta seleccin se procede al muestreo. Este procedimiento garantiza en lo posible la ausencia de tendencias o sesgos. Ejemplo: Supongamos que queremos muestrear la produccin de leche de 25 vacas de un total de 850 vacas de la comunidad de Sergio Butron Casas. Primeramente se comienza por asignar un nmero a cada vaca de 01 a 850. Posteriormente en la tabla se toma aleatoriamente 25 nmeros de 3 cifras (reuniendo 3 columnas) eliminando los que sean mayores a 850 pero tambin el 000. Si por ejemplo comenzamos en la quinta columna (se puede comenzar en cualquier columna) se obtendran los nmeros 517, 225, 560, 413, 730, 544, 412, 087, 458, 832. hasta reunir los 25. Posteriormente se ve la lista de las vacas con esos nmeros y se muestra la produccin. En el caso de la calculadora se teclea 25 veces la funcin aleatoria y se van a notando los nmeros resultantes, para posteriormente proceder al muestreo. Mediante este procedimiento se obtienen muestras aleatorias con reemplazamiento. Si se desea muestras sin reemplazamiento se habr que eliminar los nmeros cuando se repitan. 6.3 Estimacin de la media y total poblacional Aun cuando el muestreo se realiza con muchos propsitos, generalmente el principal inters es determinar algunas caractersticas de la poblacin a travs de la muestra tomada. Dicha determinacin recibe el nombre de estimacin y se simboliza por ^, que sirve para indicar la estimacin del algn parmetro de la poblacin a travs de los datos de la muestra. 6.3.1 Estimadores Las estimaciones mas comnmente realizadas son, la media de la poblacin ( ), el error estndar de la poblacin () y el limit para el error de estimacin (LEE). Para las cuales se utilizan las siguientes formulas: = s (N-n) = ------- * -------- = Estimacin de la media de la poblacin N = Tamao de la poblacin = Media de la muestra n= Tamao de la muestra
o Vo S2sistemtico simple y
n
LEE = 2 *
N-1
= Estimacin del error estndar de la pobalcin LEE = Limite de error de estimacin s = Error estndar de la muestra
El factor (N-n/N-1) se conoce como correccin por poblacin finta (cpf). Cuando n es muy pequea con respecto a N ( n<0.05) es decir cuando el tamao de la muestra es menos del 5% del tamao de la poblacin, la cpf es muy cercano a 1 y puede eliminarse. En este caso el error estndar se calcula solo con s/n. Ejemplo: La Secretara de Agricultura Ganadera Desarrollo Rural y Pesca (SAGARPA), necesita determinar la produccin promedio y la dispersin de las 850 vacas registradas en su programa de ganado mejor (PROGAM) en la comunidad de Sergio Butron Casas, sin embargo debido a sus limitaciones de tiempo nicamente puede monitorear una muestra de esa poblacin. Por lo que los encargados del programa disean la toma de una muestra aleatoria simple de 25 vacas y registran su produccin durante un mes, mismas que se enlistan a continuacin. Posteriormente se realizaron los clculos necesarios para estimar los parmetros del total de las 850 vacas (poblacin). Vaca 1 Produccin 4. 5 Vaca 16 Produccin 6. 7 2 4. 7 17 5. 9 3 4. 9 18 6. 8 4 5. 2 19 4. 6 5 5. 4 20 7. 0 6 6. 1 21 7. 2 7 6. 2 22 8. 9 8 6. 7 23 5. 2 9 6. 6 24 5. 9 10 4. 3 25 5. 4 11 4. 2 12 4. 9 13 4. 1 14 4. 0 15 7. 0
a) Se calculan los parmetros de la muestra 5.69 6 S 1.21 8 N 25 b) Se estiman los parmetros poblacionales = = 5.696 s 1.218 1.218 = ------- = ------- = ------- = 0.2436 n 25 5 Dado que 25 vacas es menor que un 5% de la poblacin total de vacas, se omite el factor de correccin por poblacin finita. LEE = 2 * = 2* 0.2436 = 2 * 0.2436 = 0.0487
El error de estimacin tambin puede expresarse como porcentaje por lo que se traducira a 4.87 %. Sin embargo en el proceso de muestreo tambin se puede calcular el proceso inverso o sea se pueden calcular ciertos valores de la muestra tomando como base los valores de la poblacin. Por lo que debe de tomarse en cuenta que para cualquier tamao de muestra dada n, tomada de un poblacin con media , los valores de la media ( )y el error estndar (s) de la muestra se conoce como el valores esperados y se pueden estimar por: = = media de la poblacin N = Tamao de la poblacin (N-n) = estimacin de la media de la muestra s = ------- * --------n= Tamao de la muestra
N-1
= Error estndar de la poblacin
Ejemplo: La cantidad de hectreas de caa de la Rivera del Ro Hondo es considerada una poblacin muy grande difcil de estimar, dado la constante variacin que el tamao de la parcelas de los diferentes productores y ejidos, sin embargo que el ingenio azucarero durante aos ha calculado la media de produccin estimada en 50.00 ton/ha, con una desviacin estndar de 12.0. Cual sern los valores esperados de la media de la media y la desviacin estndar, si se toma una muestra del rendimiento (ton/ha) de 36 productores. = = 50.00 12 s = ------- = -------- = 2.0 n 36 En el muestreo el error estndar de la media ofrece la base Principal para la inferencia estadstica, con respeto a la media de una poblacin que se desconoce. Por lo tanto al aumentar el tamao de la muestra, la distribucin de la muestra con respecto a la media poblacional se aproxima a la distribucin normal, sin importar la forma de las distribuciones de las mediciones individuales de la poblacin. Para propsitos prcticos puede suponerse que la distribucin muestral de la media es aproximadamente normal cuando el tamao de la muestra es mayor o igual a 30 (n>30). Por ello si se tiene una muestra grande (n>30) puede utilizarse la distribucin normal para calcular la probabilidad de ciertos factores de la media y la distribucin estndar. Por otra parte si se sabe que la poblacin de donde se tomaron las muestras tiene una distribucin normal y se conoce la desviacin estndar. Puede utilizarse la distribucin normal para hacer inferencias estadsticas a partir de muestras pequeas. Ejemplo: Un productor de sandia de Jos Mara Morelos toma una muestra aleatoria de 36 sandias (n= 36) en una hectrea que rindi un total de 1000 sandas. El peso promedio de las sandias en la hectrea fue de 2600 gramos ( = 2600) con una desviacin estndar de 450 gramos ( = 450). El productor sabe que las sandias de mucho peso son difciles de transportar y de vende en el mercado. Por lo que el quiere que el peso de su produccin mayoritaria sea inferior a 2500 gramos. Cul es probabilidad de que el productor con su muestra tomada tenga una produccin mayoritaria de 2500 gramos?
rea buscada
2500
2600
= = 2600 450 s = ------- = -------- = 75 n 36 No se requiere factor de correccin por poblacin finida por que 36 es menor de un 5% de total o 1000. Para calcular la probabilidad se utiliza la formula de Z o distribucin normal X - 2500 2600 - 100 Z = ---------- = --------------- = -------- = -1.33 ( ) 75 75 se busca en la tabla de Z y da un valor de 0.4082
Dado que se esta buscando que el valor este por debajo de 2500 gramos por debajo de la media poblacional, se requiere un valor de Z< -1.33 a la media de la probabilidad de la campana de Gauus sea 0.50 de probabilidad. P(Z<-1.33) = 0.50 P (-1.33<Z<0) = 0.50 0.4082 = 0.918 sea se tiene una probabilidad del 9.18% de que la muestra del productor este por debajo de 2500 gramos). 6.3.4 Intervalos de confianza para la media utilizando la distribucin normal Una ves que se ha determinado o estimado la media poblacional y le media muestral, se necesita saber el porcentaje de probabilidad de que la media muestral realmente sirva como estimador de la media poblacional o viceversa. Este aspecto matemtico se conoce como intervalo de confianza para la media, y se interpreta como la probabilidad de que la media muestral incluya el valor de la media poblacional. El mtodo de estimacin de un intervalo de confianza esta basado en que se puede utilizar la distribucin normal de probabilidad para su calculo, por lo que este intervalo puede ser estimado cuando n 30 debido al teorema del limite central o cuando n 30 pero la poblacin tiene una distribucin y se conoce su desviacin estndar. Cuando puede utilizarse la distribucin normal de probabilidad, el intervalo de confianza para las medias puede determinarse por:
Intervalo = z Intervalo = z s Donde z representa el intervalo de confianza o proporcin del rea de probabilidad. Los valores que se utilizan con mayor frecuencia son 90, 95 y 99%, mismo que equivalen a una cantidad de desviaciones estndar como se indica en el siguiente cuadro.
Z (numero de unidades de DE) Proporcin del rea en el intervalo z % de efectividad 1.645 0.90 90 % 1.96 0.95 95% 2.58 0.99 99% Para entender mejor la utilizacin y el clculo del intervalo de confianza para la media, analicemos el siguiente ejemplo: Ejemplo: La asociacin de porcicultores del estado de Yucatn, desea poner en marcha un programa de mejoramiento gentico mejorar el peso al nacimiento. Por lo que se eligi al azar una muestra del peso al nacimiento de 300 cerditos. Los productores saben que el total del nmero de animales nacidos es muy grande y difcil de estimar, sin embargo la asociacin cuenta con estadsticas de todas sus granjas afiliadas, en las que se determino que el promedio del peso al nacimiento de todos los productores es de 1800 gramos con una desviacin estndar de 140 gramos. Se necesita estimar un intervalo de peso al nacimiento con un 95% de confiabilidad, para poder poner en marcha el programa. Intervalo = z s = 1800 1.96 (s) 140 s = ------- = -------- = 8.08229 n 300 Intervalo = 1800 1.96 (8.08229) = 1800 15.842 Por lo que 1800 15.842 = 1784.16 y 1800 + 15.842 = 1815.842 Por lo tanto puede decirse que el promedio al nacimiento de todas las granjas para comenzar el programa de mejoramiento gentico se encuentra entre 1784.16 y 1815.842 gramos, con un grado de confianza de 95%. 6.3.5 Determinacin del tamao de la muestra para estimar la media Si conoce el tamao del intervalo de confianza y el grado de confianza (z) que se requiere de la muestra y si se conoce o se puede estimar el error estndar (s) y la media ( = ), puede estimarse el tamao de la muestra que se requiere para obtener resultados confiables en base a la distribucin normal, mediante la formula:
(s)2 *z 2 n = --------L2 n= tamao de la muestra s = desviacin estndar z = numero de unidades de s para la confiabilidad L = media poblacional o la media muestral Ejemplo. El promedio de produccin de materia seca por hectrea de hojas de Leucaena leucocephala en los bancos de protena establecidos en el municipio de Jos Mara Morelos fue estimado en 2.14 ton/Ha con una desviacin estndar de 9.6. Que tamao de muestra debo tomar si se requiere una confiabilidad del 95% para los datos de la muestra a recabar en esa misma comunidad. (s)2 *z 2 (9.6) 2 * (1.96) 2 92.16 * 3.8416 n = ----------- = ------------------- = ------------------ = 77.30 o 78 L2 (2.14) 2 4.5796 n = 78 muestras Ejercicios: Ejercicio1. Por parejas y en hojas sueltas soluciona el siguiente cuestionario para entregar al final de la clase. a) Que se entiende por poblacin y muestreo b) En que consiste el diseo del muestreo estadstico c) Que es una unida de muestreo d) Que es un marco de muestreo e) Para que se utiliza la inferencia estadstica en el muestreo f) Que es un estimador g) Cual es la diferencia entre u n estimador y un parmetro h) Cual es la caracterstica de las poblaciones con distribucin normal i) Que es el muestreo aleatorio simple j) Ejemplifica como se realiza el muestreo aleatorio simple k) Cuales son las estimaciones ms comunes realizadas en un muestreo aleatorio simple l) Describe las formulas para las estimaciones de un muestreo aleatorio simple m) Cual es el factor para la correccin por poblacin finita y cuando se utiliza n) Mediante que formula se estiman los valores de la media y desviacin estndar de la muestra a travs de los valores poblacionales ) Como de calcula el intervalo de confianza utilizando la distribucin normal o) Como se estima el tamao de la muestra requerida para obtener resultados confiables p) Cuales son las formulas para determinar el intervalo de confianza y el tamao de la muestra
Ejercicio 2. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) Los responsables del programa estatal de pequeos rumiantes, sabe que el promedio del peso al destete para borregos pelibuey, en el estado de Quintana Roo es 9.00 Kg. con una desviacin estndar de 0.5 Kg. Pero desean determinar el valor esperado de la media y desviacin estndar de una muestra de 25 borregos tomada el rancho Tres Zapotes de Nicols bravo. Calcula e interpreta dichos valores esperados. b) Los cultivos forestales establecidos en el Quintana Roo tiene un promedio 1500 rboles de caoba por hectrea cuadrada, con una desviacin estndar de 350 rboles. Los productores afirman que se puede elevar el nmero de rboles por hectrea, pues afirman que en las selvas sin alterar se pueden encontrar hasta 1600 unidades por hectrea. Calcula la probabilidad de que una muestra de una hectrea de selva tomada al azar tenga una concentracin arbrea de caobas superior a las 1600 plantas por hectrea cuadrada. Calcula la probabilidad de que la media de una muestra aleatoria de 40 hectreas, tengan una concentracin superior a las 1600 plantas por hectrea. c) El promedio de pesos de las sandias Jubile en las producciones del municipio de Jos Mara Morelos fue estimado en 3.0 Kg. una desviacin estndar muy grande de 20.0 Que tamao de muestra debo tomar si se requiere una confiabilidad del 90% para los datos de la muestra a recabar en esa misma produccin.
ANEXOS Numero de anexo Anexo 1 Anexo 2 Anexo 3 Anexo 4 Anexo 5 Anexo 6 Anexo 7 Anexo 8 Anexo 9 Anexo 10 Anexo 11 Anexo 12 Titulo de la tabla Tablas de calculo de probabilidad binomial Tablas de caculo de probabilidad binomial Tablas de caculo de probabilidad binomial Tabas de distribucin normal o distribucin de Z Tablas de valores de T Tablas para la distribucin de frecuencia o distribucin de F Tablas para la distribucin de frecuencia o distribucin de F Tablas para la distribucin de frecuencia o distribucin de F Tablas para la distribucin de frecuencia o distribucin de F Tablas para la distribucin de frecuencia o distribucin de F Tabla de valores de Chi cuadrada o X2 Tabla de nmeros aleatorios
Trabajos de gregorio gomez daniel me pidio de porfavor que te los envie porque ya te habia comentado que habia debido estadisticas y lo estaba volviendo a llevar y como el maestro les habia entregado los examenes de launidad 6 para que lo hagan en su casa, pero les dio un de terminado dia para que los hicieran sin que se pasa de ese dia, ya no se los resive y autamaticamente esta reprobado y por eso me pidio que porfavor te los entregue ya que tu te habias comprometido de hacerle el favor de ayudarlo haciendo su trabajo para que lo entregue ya que habian quedado en un acuerdo los dos y el trabajo es para maana 15/13/2013.
Soy
su
compaero
de
la
escuela
que
me
pidio
ese
favor
de
enviartelo
ATTE: RICARDO ESCALANTE

Apuntes de Estadística Escolarizado

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Apuntes de Estadística Escolarizado

Hochgeladen von

Copyright:

Verfügbare Formate

SISTEMA NACIONAL DE EDUCACIN SUPERIOR TECNOLOGICA DIRECCIN GENERAL DE EDUCACIN SUPERIOR TECNOLGICA INSTITUTO TECNOLGICO DE LA ZONA MAYA

APUNTES DE ESTADSTICA Turno escolarizado

Presenta: MC. VICTOR FRANCISCO DAZ ECHEVERRA

ENERO 2011 UNIDAD I: Fundamentos 1.1 Estadstica

(X1 X) 2 896.40 2 S = ---------------- = ------------ = 99.6

175 179 180 - 184

son los valores 160 y 164)

Distribucion de fecuencia para plantas de cedro

Distribucion de fecuencia para plantas de cedro

UNIDAD III. Introduccin a la probabilidad 3.1 Conceptos

En este caso vemos que la distribucin de p(x) obtenida es simtrica.

Ocurrencia del evento

P 0.083 P 0.05 P 0.027

P 0.083 N P 0.05 P 0.027

Los parmetros de la distribucin binomial puede calcularse por:

Sea X una variable aleatoria discreta correspondiente a una distribucin binomial.

(pudiendo ser cualquier valor entre 0.01 y 3.0 DE)

UNIDAD IV. Estimacin

97 1067 111971 29.106 847.2 11 (1067)2/11 = 103499 111971103499 = 8474

Hormona C 2 S S2 N ()2/n SC= 2 - ()2/n

56 616 42244 27.83 774.8 11 34496 42444 4496 = 7948

1994 1995 1996 1997 1998 1999 2000

48.9 78.9 43.5 47.9 63.0 48.4 48.1

45.1 71.0 40.9 45.4 53.4 41.2 44.8

3.8 7.9 2.6 2.5 9.6 7.2 3.3

Clculos (di) d d 2d Sd S2d Nd (d)2/n

7.38 66.5 687.33 4.95 24.49 9 (66.5)2/9 = 491.36

X2 = 8.805 + 10.062 + 17.607 + 20.128 = 56.602

Produccin No de vaca Produccin

La hiptesis ha probar fue:

Calor Total 450 679 221

SCxy = (X)(Y) - ----------------n i =1

La SCy se puede calcular mediante la formula: SCy

= Error estndar de la poblacin

ATTE: RICARDO ESCALANTE

Das könnte Ihnen auch gefallen