Beruflich Dokumente
Kultur Dokumente
Estadístico
XS0217 – Probabilidades e Inferencia Estadística
II Semestre - 2013
Diccionario Estadístico
Estadística
XS0217 – Probabilidades e Inferencia Estadística
La estadística se trata de
A continuación se presenta una serie de términos fundamentales verificar la validez
probabilística de los
en la ciencia estadística, con el fin de funcionar como un
acontecimientos en la
diccionario que sirva de referencia para consulta de dichos escala tiempo-espacio. La
palabra estadística se
conceptos importantes.
deriva del latín status,
que significa estado,
experimento. Puede referirse a actos, áreas geográficas, casos, datos, objetos, individuos,
resultados, mediciones, etc. De este conjunto de datos se buscan conclusiones para el estudio
O individuo. Es todo elemento que está afectado por la característica o factor que se desea
estudiar. Se refiere a cada uno de los elementos que componen la población (Conde Abellán, 2009).
Variables:
Son las características que se desean observar de los elementos de la población. Son caracteres,
cualitativos o cuantitativos, de cada individuo de la población (Badii, Castillo, Landeros J., &
suceso o acción que presente o experimente un cambio. Una variable aleatoria es aquella cuyos
cambios no pueden ser determinados antes de que se presenten, también se le llama variable
probabilística, cabalística o de azar. Puede ser del tipo cuantitativas, que se asocian a un valor
numérico y corresponden a aspectos que son medibles. Estas a la vez, pueden ser clasificadas en
discretas o continuas. Las variables discretas son aquellas que solamente toman valores enteros con
rango finito y las continuas aquellas que pueden tomar cualquier valor entre dos valores dados, es
decir, el rango contiene un intervalo de valores reales. Por su parte, las variables cualitativas o
categóricas son aquellas a las que se les asigna un aspecto, cualidad o características que las
distinga y que no se pueden medir. A dicha cualidad se le conoce como categoría. En este tipo de
variables, un elemento no puede estar en dos o más categorías a la vez, por lo cual son excluyentes.
Tampoco puede haber elementos de la población que no pertenezcan a alguna categoría, por lo que
son exhaustivas. A la vez, las variables cualitativas se pueden clasificar en nominales y ordinales;
siendo las nominales aquellas a las que no se les puede asignar un orden y las ordinales son
aquellas que además de clasificar a los elementos en distintas categorías también se les puede
estudio exhaustivo de una variable en una población. En ese caso, se elige una muestra para llevar
a cabo el estudio. Hay que asegurarse de que la muestra sea representativa y que el resultado que
se obtenga de ella sea significativo de toda la población (Larios Rodríguez). Los tipos más comunes
muestreo por conglomerados y el muestreo sistemático. Si una muestra aleatoria se elige de tal
forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados,
Censo:
todos los elementos que comoponen a la población bajo estudio. Debe incluir a todos los elementos
todas la unidades que componen la población que se investiga (Villegas Alemán, Conceptos
Sesgo:
Error de muestreo en una dirección determinada. Se encuentra definido por las fallas en el
muestreo, que hacen que la selección de las muestras no sean lo suficientemente representativas.
Son errores sistemáticos, en uno sólo sentido y pueden ser de selección (cuando se utilizan
incluye errores de muestreo, ya que por su naturaleza aleatoria, estos sí pueden ser evaluados o
medidos con los modelos matemáticos que brinda la teoría de probabilidades (Villegas Alemán,
Se dan cuando ocurren diferencias entre la media muestral y la media poblacional. El error
muestral se refiere a la variación natural existente entre muestras tomadas de la misma población.
estadística inferencial. Los errores que surgen al tomar las muestras no pueden clasificarse como
que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.
conlleva algún error. Si se usa la media para medir, estimar, la media poblacional μ, entonces la
media muestral conlleva algún error (de la Torre, 2003). Una media muestral x puede pensarse
como la suma de dos cantidades, la media poblacional μ y el error muestral; si e denota el error
muestral, entonces:
(1)
Datos que son creados directamente por el proveedor; es decir, son fuentes que publican o
suministran datos solamente recogidos por ellas mismas (Villegas Alemán, Conceptos preliminares
de Estadística, 2012).
Utilizados por otro ente diferente y tomado directamente de una fuente de datos; es decir son
fuentes que toman y publican estadísticas originalmente recogidas por otros (Villegas Alemán,
persona participante sobre ello. La encuesta es un método descriptivo con el que se pueden
detectar ideas, necesidades, preferencias, hábitos de uso, etc. Puede ser definida como una
“investigación realizada sobre una muestra de sujetos representativa de un colectivo más amplio,
& Salazar).
Cuestionarios:
Son formularios que rellenan los encuestados solos. Este método puede adoptarse para toda la
población o para sectores escogidos. Los cuestionarios pueden utilizarse para recopilar datos
sistemáticos habituales o poco frecuentes, y datos para estudios especializados (Food and
Entrevistas:
mientras que en las entrevistas abiertas se toman notas mientras se habla con los encuestados. Las
notas se estructuran (interpretan) luego para su posterior análisis. Las entrevistas abiertas, que
deben interpretarse y analizarse incluso durante la entrevista, deben realizarlas observadores y/o
encuestadores bien formados (Food and Agriculture Organization of the United Nations).
Distribuciones de Frecuencias
Distribución de frecuencias:
Es la manera de presentar las categorías de una variable. Indica cómo se distribuye la frecuencia
total entre las categorías, por lo que es el resumen más importante de la información contenida en
- Frecuencia relativa simple: es la suma total de las frecuencias simples de clase. Cuando cada
valor de la frecuencia simple de clase se divide entre el total de casos u observaciones a este
acumulada de la primera clase será igual a la frecuencia simple de la misma clase. La segunda
acumulada entre el total de observaciones. También se puede definir como la suma sucesiva de
las frecuencias relativas simples (Badii, Castillo, Landeros J., & Cortez, 2007).
Histograma:
Es un conjunto de barras o rectángulos unidos uno de otro. Se utiliza para representar variables
continuas (Badii, Castillo, Landeros J., & Cortez, 2007). Existen varios tipos de histogramas:
- Unimodal simétrico: se suele dar en variables en las que hay una gran cantidad de
intermedio.
- Bimodal simétrico: suele aparecer cuando los datos son de 2 grupos heterogéneos y conviene
Polígono de Frecuencia:
Se usa para representar los datos continuos y para indicar los puntos medios de clase en una
distribución de frecuencias (Badii, Castillo, Landeros J., & Cortez, 2007). Un polígono de
frecuencias se forma uniendo los extremos de las barras mediante segmentos. También se puede
realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos
frecuencias. Puede construirse de dos maneras diferentes; sobre la base “menor que” o sobre la
base “mayor que”. Puede determinar el valor de la mediana de la distribución (Badii, Castillo,
Landeros J., & Cortez, 2007). La figura que se forma al unir los puntos del polígono de frecuencias
acumulación de los datos en el cuadro, la ojiva resulta ser ascendente) (Cabrera González). Un
Pareto:
Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para
representar frecuencias de una clase. Para su construcción, se ordenan las clases de mayor a menor
Cuadro estadístico:
columnas que responden a un ordenamiento lógico; es de gran peso e importancia para el uso y
para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla
- Título: Es la parte más importante del cuadro y sirve para describir todo el contenido de éste.
- Subtítulos: Son los diferentes encabezados que se colocan en la parte superior de cada columna.
- Columna matriz: Es la columna principal del cuadro.
- Texto: El texto contiene todas las informaciones numéricas que aparecen en la tabla.
- Referencia (fuente): La fuente de los datos contenidos en la tabla indica la procedencia de
Gráfico de barras:
Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para
representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual
distancia. Pueden disponerse en forma vertical y horizontal (Badii, Castillo, Landeros J., & Cortez,
2007). Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los valores de
la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas o acumuladas. Los
datos se representan mediante barras de una altura proporcional a la frecuencia (Conde Abellán,
2009). Se utilizan para comparar magnitudes entre varias categorías, por lo que se suelen usar
también para la mezcla de las dos utilidades anteriores. Un ejemplo de este tipo de gráficos se
muestra en la Figura 5, donde a la izquierda se muestra uno horizontal y a la derecha uno vertical o
de columnas.
Los gráficos de barras pueden ser simples, cuando contienen solamente una serie de datos, o
compuestos, cuando contienen varias series de datos. En los gráficos compuestos, cada serie de
datos se representa mediante un conjunto de rectángulos que comparten color o textura. En cada
categoría o secuencia, los rectángulos suelen estar juntos, formando un grupo, mientras que entre
También existen los gráficos de barras apilados, donde cada uno de los segmentos en que está
dividida la barra pertenece a una serie de datos diferente. Muestra de qué forma una entidad total
está subdividida en partes. El gráfico 100% es un gráfico apilado en el que la altura del total cubre
todo el eje cuantitativo de manera que lo que muestran los segmentos es el porcentaje con que
Gráfica lineal:
Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se
usan para representar series de tiempo o cronológicas (Badii, Castillo, Landeros J., & Cortez, 2007).
Son bidimensionales y las escalas se marcan sobre dos rectas, una vertical y otra horizontal que se
unen en un ángulo recto formando un sistema de coordenadas basado en parejas de distancias
sobre el eje de las abscisas y ordenadas. Los puntos de cada par ordenado se conectan de izquierda
a derecha con segmentos de línea recta para obtener una curva que muestre la evolución del
fenómeno de interés (Villegas Alemán, Gráficos Estadísticos, 2012). Un ejemplo de este gráfico se
muestra en la Figura 6.
Gráfico circular:
Gráfico bidimensional basado en un círculo que se divide en tantos sectores como categorías se
tienen. El área de cada uno de estos sectores indica la importancia de la categoría que representa. El
sector mayor se inicia exactamente en el punto más alto del círculo y luego los demás se van
colocando siguiendo el movimiento de las manecillas del reloj. La categoría de "otros" siempre se
coloca al final, sin importar su magnitud (Villegas Alemán, Gráficos Estadísticos, 2012). Un ejemplo
El gráfico de caja es una representación que describe la información contenida en una muestra
basándose en cinco estadísticas: el valor máximo (máx), el tercer cuartil (Q3), la mediana (m), el
primer cuartil (Q1) y el valor mínimo (mín). La interpretación del gráfico se basa en la comparación
de las longitudes de los cuatro tramo, donde cada tramo tiene la misma cantidad de elementos, por
lo que aquellos tramos de menor longitud representan una mayor densidad de elementos
Parámetro estadístico:
Es un número que se obtiene a partir de los datos de una distribución estadística. Los
parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica
(Conde Abellán, 2009). Hay tres tipos parámetros estadísticos: de centralización, de posición y de
dispersión.
Medidas de posición:
distribución de los datos. También se conocen como medidas de tendencia central. Pueden
resultado obtenido al dividir la suma de los datos entre el número total de ellos. Se calcula de la
siguiente manera:
(2)
̅ ∑
- Mediana: se define como el valor central de una serie de datos ordenados de acuerdo a su
magnitud. Si se tiene un número de datos par, existen dos valores centrales y la mediana se
- Moda: está relacionada con el valor más común o que ocurre más frecuentemente en un conjunto
presencia de valores altos o bajos, pero requiere un número mínimo de observaciones para que
se manifieste claramente. En ocasiones, puede no estar definida al haber más de un valor modal
- Media geométrica: se define como la raíz enésima del producto de los datos. Se puede calcular
- Media armónica: se define como el recíproco de la media aritmética de los recíprocos, como
(4)
̅
(∑ )
Se emplea para promediar variaciones con respecto al tiempo (Mendoza & Bautista, 2002).
- Cuantilos: en muchas ocasiones es importante obtener valores que dividan el conjunto de datos
en fracciones específicas, dichas fracciones son los cuantilos. Un ejemplo de ellos es la mediana,
donde se divide el conjunto en dos partes iguales: los valores inferiores a la mediana y los
superiores. Los cuartiles son valores que dividen el conjunto en cuartas partes. También existen
los deciles, que dividen el conjunto de datos en décimas, y los percentiles, que lo dividen en
Medidas de variabilidad:
localización, sobre la base de que entre más grande sea el grado de variación menor uniformidad
tendrán los datos y por lo tanto menor representatividad o confiabilidad del promedio de
tendencia central o localización por haber sido obtenido de datos dispersos. Si este valor es
pequeño (respecto a la unidad de medida) entonces hay una gran uniformidad entre los datos.
Cuando es cero quiere decir que todos los datos son iguales.
Hay básicamente dos tipos de medidas de dispersión: Medidas Absolutas y Medidas Relativas.
Las absolutas se caracterizan por ser números concretos, es decir, valores expresados en las mismas
Las medidas relativas de dispersión son valores abstractos, es decir, medidas adimensionales y
por lo tanto no expresadas en ninguna unidad específica, obviando así el inconveniente señalado
para las medidas absolutas. La principal medida es el coeficiente de variación (Mendoza &
Bautista, 2002).
- Amplitud: o recorrido; considera los valores extremos del grupo de datos y se define como la
diferencia entre el valor mayor y el menor del conjunto de datos. Se utiliza cuando se desea una
- Desviación media: emplea la suma de los valores absolutos de las diferencias de los datos y la
divide por el número de datos para obtener una medida de dispersión promedio o por
- Desviación estándar: o desviación típica; utiliza los cuadrados de las desviaciones e indica
medida de dispersión más utilizada en estadística descriptiva y analítica, se define por medio de
la ecuación (6):
(6)
∑ ( ̅)
√
Para el cálculo de la varianza se debe realizar según se esté considerando una muestra o toda
lugar de n, ya que, de acuerdo con la teoría de la estadística, al dividir por n-1 se obtiene una
mejor estimación poblacional. Para una población se utilizan las letras griegas σ para la varianza
dados en las mismas unidades o si la magnitud de los datos no son bastante similares. El
coeficiente de variación (CV) es un tipo de medida de dispersión relativa e indica la importancia
puede representar por la ecuación (8) o bien, si se representa por una muestra, se utiliza la
ecuación (9):
(8)
(9)
̅
Al dividir la desviación estándar entre la media aritmética, se eliminan las unidades y la
inclusión del promedio en el divisor, permite corregir el efecto que tienen la magnitud de los
agrupados, 2012).
“Para cualquier conjunto de datos (de una población o una muestra) y cualquier constante k mayor que 1,
el porcentaje de los datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de
por lo menos ”
El teorema de Chevyshev se aplica a cualquier tipo de datos, pero sólo indica el porcentaje
mínimo de datos entre determinados límites. Para casi todos los datos, el porcentaje real de datos
que cae entre los límites es mucho mayor al especificado por el teorema de Chebyshev. Para
distribuciones normales (o de campana), se puede asegurar que cerca del 68% de los valores caen
dentro de una desviación estándar de la media, es decir, ̅ , cerca del 95% se encuentra dentro de
dos desviaciones estándar de la media (̅ ) y cerca del 99,7% a tres. Estos resultados se basan en
una distribución normal, la cual será explicada más adelante, y se forman parte de la regla típica de
- Fenómenos determinísticos: son aquellos que tienen una sola manera de ocurrir y su
ocurrencia es una certeza. No hay incertidumbre acerca del resultado que ocurrirá cuando sea
- Fenómenos aleatorios: son aquellos que tienen más de una forma de ocurrir y no se tiene la
certeza de cuál manera es la que ocurrirá en un momento determinado, pero sí se tiene una idea
acerca de todos los resultados posibles que pueden ocurrir; es decir, sus resultados están
- Espacio muestral discreto: sus elementos resultan de hacer conteos y son subconjuntos de los
números enteros.
- Evento: es cualquier subconjunto obtenido del espacio muestra, por lo que es un resultado
particular de un experimento aleatorio. Se le representa por las primeras letras del alfabeto.
- Evento seguro: espacio muestral que puede ser considerado como un evento.
contiene todos los elementos que no están en A, por lo que ocurre cuando A no ocurre.
representa por A∪B y es el evento que contiene los elementos que están en A, B o en ambos; es
decir, el evento ocurre si al menos uno de los dos eventos ocurre. Se denota por la ecuación (10)
intersección se representa por A∩B y es el evento que contiene los elementos que están en A y B
al mismo tiempo, por lo que el evento ocurre cuando los eventos ocurren simultáneamente. Se
denota por la ecuación (11) y ocurre si ocurren todos los eventos Ai a la vez:
(11)
⋂
- Eventos excluyentes: son eventos que no tienen elementos en común; es decir, A∩B = ∅.
los dos eventos se tiene la totalidad del espacio muestra; es decir, Ay B son dos eventos
Probabilidad clásica:
La definición clásica de probabilidad requiere que el espacio muestra de todos los resultados
posibles sea finito y que los resultados del espacio muestra sean igualmente probables; por lo que si
A es el evento formado por n(A) resultados del espacio muestra y el número total de resultados
cuando dijo que “lo probable es aquello que ocurre diariamente”. Si se supone que se efectúa una
para otro número de repeticiones, f, en las que se presenta el suceso A, de forma tal que en las
restantes n – f no se presentará, se obtendrá una serie de frecuencias relativas para n1, n2, … :
(13)
Estas frecuencias relativas diferirán poco entre sí cuando las ni sean grandes, por lo que tenderán
de las frecuencias relativas para grandes valores de n, por lo que se puede postular la existencia de
un número P(A) que es el número al cual tiende fr, es decir, la frecuencia relativa del suceso en
estudio:
( ) (14)
Este número se llamará la probabilidad del suceso A en relación con el experimento aleatorio E.
puede esperar que, para grandes valores de n, la razón frecuencial observada sea
Por lo que se realiza una estimación del valor de una probabilidad desconocida por medio de un
estudio de la conducta de las frecuencias relativas del hecho o suceso correspondiente (Terán).
Probabilidad objetiva:
Es aquella que se determina tomando como base algún criterio experimental u objetivo ajeno al
sujeto decisor, como el cociente entre el número de casos favorables y el número de casos posibles o
Probabilidad subjetiva:
opinión personal o la intuición del individuo. Se asigna un valor de probabilidad a los sucesos,
- Espacio muestral (Ω): puede ser finito, infinito no numerable, infinito numerable, discreto o
continuo.
- Propiedades:
1. (∅)
2. La probabilidad del complementario de un suceso A es: ( ̅) ( )
5. Si dos sucesos no son incompatibles, la probabilidad de su unión debe calcularse por la regla
de la adición: ( ∪ ) ( ) ( ) ( )
( ) (⋃ ) ∑ ( )
(Huelva, 2008).
Tablas de contingencia:
mediante su distribución conjunta. Esta tabla es una tabla de doble entrada donde en cada
casilla figura el número de casos o individuos que poseen un nivel de uno de los factores o
número de modalidades o niveles de lo mismo. Tienen dos objetivos principales, que son:
entre los niveles de las variables objeto de estudio (Vicéns Otero & Medina Moral , 2005).
Probabilidad marginal:
conjuntas (Valdez y Alfaro, 2013). Es la probabilidad particular de una de las variables, dada
( ) ∑ ( ) (18)
Probabilidad conjunta:
Alfaro, 2013). Para una serie de n eventos, la probabilidad conjunta se describe por:
( ) ( | ) ( | ) ( )
Condición de independencia:
Las técnicas de conteo son usadas para enumerar eventos difíciles de cuantificar. Incluyen a
- Permutaciones: Es todo arreglo de elementos en donde interesa el lugar o posición que ocupa
cada uno de los elementos que constituyen dicho arreglo. La fórmula de permutaciones de r
(19)
( )
La ecuación (19) permite obtener todos aquellos arreglos en donde el orden es importante y
sólo se usen parte (r) de los n objetos con que se cuenta. No se pueden repetir objetos dentro del
ocupen los mismos dentro del arreglo. En una combinación interesa formar grupos y el
(20)
( )
De donde se puede observar que:
(21)
células de una cantidad de x1 objetos, x2 objetos, … y xk objetos. La fórmula que permite calcular
(22)
∏
La ecuación (22) sólo se puede usar cuando se reparten todos los objetos, no parte de ellos.
La esperanza matemática de una variable aleatoria discreta que puede tomar valores con
( ) ∑ ( ) ∈( ) (23)
(24)
( ) ∫ ( )
1. ( )
2. ( ) ( )
3. ( ) ( ) ( )
4. ( ) ( )
5. Si x e y son independientes: ( ) ( ) ( )
La esperanza de una variable aleatoria representa un valor medio poblacional. No es cierto que
observar resultados inferiores (lo cual sucede únicamente en variables simétricas). En general, la
el caso de variables aleatorias discretas, puede suceder que la esperanza no sea un valor
observable.
( ) ( ( )) (26)
(27)
( ) ( ) ( ( )) ∑ ( ) (∑ ( ))
Por lo que la varianza puede interpretarse como un momento de la distribución de probabilidad
Teorema de Bayes:
Sea δ un espacio muestal formado por los eventos A1, A2, A3, … , An mutuamente excluyentes,
luego, ∪ ∪ ∪ ∪ (Figura 9)
Figura 9. Ilustración de un espacio muestral δ formado por una serie de eventos. Fuente: (Luna Gándara, 2007).
Gándara, 2007).
Distribuciones de Probabilidad Discretas:
Es un modelo teórico que describe la forma en que varían los resultados de un experimento
aleatorio: da todas las probabilidades de todos los posibles resultados que podrían obtenerse
una variable aleatoria x, la que puede ser de dos tipos: variable aleatoria discreta y variable
aleatoria continua; ambos explicados con anterioridad. Estas variables generan dos tipos de
distribuciones de probabilidad:
asociadas a cada uno de los valores que toma x debe ser igual a 1.
mayores o iguales a cero: la función de densidad de probabilidad debe tomar sólo valores
mayores o iguales a cero, la cual sólo puede estar definida en los cuadrantes I y II. Además,
que toma x debe ser igual a 1: el área definida bajo la función de densidad de probabilidad
Distribución acumulada:
Para una variable aleatoria discreta x existe la probabilidad ( ) del evento y ésta depende
del valor que tenga x, por lo que será una función de x que se llama función de distribución
( ) ∑ ( ) (29)
La función de distribución acumulada se utiliza para cálculos de probabilidades con
Distribución Binomial:
Se caracteriza porque en los experimentos que tienen este tipo de distribución, siempre se
esperan dos tipos de resultados; denominados arbitrariamente “éxito” (que es lo que se espera que
ocurra) o “fracaso” (lo contrario del éxito). Así mismo, las probabilidades asociadas a cada uno de
estos resultados son constantes (no cambian). Además, cada uno de los ensayos o repeticiones del
experimento que tenga una distribución binomial, se pueden usar las siguientes fórmulas:
- Desviación estándar:
√ (31)
Donde:
Q = complemento de P.
(32)
( )
( )
Distribución de Poisson: λ
Se caracteriza por ser una forma límite de la distribución binomial que surge cuando se observa
un evento anormal después de un número grande de repeticiones. Se puede utilizar como una
y “muy buena” si y .
evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma
El concepto de evento anormal o poco frecuente debe ser entendido en el sentido de que la
probabilidad de observar k eventos decrece rápidamente a medida que k aumenta. Para que una
variable siga una distribución de Poisson deben cumplirse varias condiciones: en un intervalo muy
probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida que,
no depende de lo que ocurra en cualquier otro intervalo pequeño que no se solape con aquél.
unidad de tiempo o de espacio, por lo que también se suele hablar de λ como “la tasa de
observados en una población excede a la variación esperada por la Poisson, se está ante la
Sanidade).
(33)
( )
Donde λ es la media y la deviación estándar es √ .
Distribuciones de Probabilidad Continuas:
La distribución normal: μ, σ
por una variable de tipo continuo, denominada x, tal que . La función que define esta
x, se obtiene la distribución en cuestión, la cual posee forma de campana (de ahí que también se
conozca como campana de Gauss). Existe un número infinito de funciones de densidad normal,
Dentro de las características de esta distribución se tiene que la misma es simétrica con respecto
a su eje vertical y asintótica con respecto a su eje horizontal. Además, el área total bajo la curva es 1.
curva, si se suma a μ ± 2σ, el 95,44% de los datos estará en dichos límites, y si se suma a μ ± 3σ,
entonces el 99,74% de los datos caerá dentro de los límites. Estos números constituyen una forma
empírica de demostrar si los datos que se analizan tienen una distribución normal.
Estos valores se obtienen del cálculo de la ecuación (35) para valores de x, μ y σ conocidos.
(35)
( ) ∫ ( )
Por lo general, el cálculo de esta integral no es fácil, por lo que se utiliza un valor z, como en la
ecuación (36):
(36)
Este valor se busca en una tabla donde vienen áreas asociadas a dicho z y, haciendo uso de los
valores tabulados, se determina la probabilidad requerida (Figura 10) (Luna Gándara, 2007).
Figura 10. Ejemplo de distribución normal o curva gaussiana. Fuente: (Luna Gándara, 2007).
muy aproximada con la distribución normal; por lo general, cuando y P = P(éxito) no es muy
( ) ( ) (37)
Donde:
Bajo las condiciones descritas con anterioridad, la gráfica de la distribución binomial es muy
parecida a la distribución normal, por lo que es adecuado calcular probabilidades con la normal en
lugar de con la binomial, de una forma más rápida. Como se están evaluando probabilidades
asociadas a una variable discreta x, con una distribución que evalúa variable s de tipo continuo, es
necesario agregar un factor de corrección del tipo x ± ½ en la expresión de z (Luna Gándara, 2007).
Prueba de Hipótesis:
Hipótesis estadística:
Así es llamada la aserción o conjetura concerniente a una o más poblaciones. Las hipótesis son
utilizadas para la toma de decisiones basadas en datos existentes que pueden llegar a una
conclusión sobre cierto sistema. La falsedad o veracidad de la hipótesis nunca es conocida con
absoluta certeza; para poder tener certeza absoluta sobre es necesario examinar a la población
escogido al azar y se utiliza la información contenida en ese grupo para proveer evidencia que
apoyo o refute la hipótesis. En el caso de que la muestra sea inconsistente con la hipótesis
El hecho de que una hipótesis sea rechazada sólo implica que existe muy poca probabilidad de
que la información observada en la muestra donde la hipótesis sea verdadera (Walpole, Myers,
Hipótesis nula:
Se refiere a cualquier hipótesis que se desee probar. Es denotada como . La hipótesis nula
Hipótesis alternativa:
Es denotada como , y el rechazo de lleva a la aceptación de la hipótesis alternativa.
Generalmente, esta hipótesis representa la pregunta a ser respondida o la teoría a ser probada
Error de tipo I:
Este error se comete cuando se realiza el rechazo de la hipótesis nula cuando ésta es verdadera
significancia nace en la filosofía de que el riesgo máximo de cometer un error de tipo I debe ser
controlado, esto puede verse como el mayor error permitido a cometerse. A pesar de esto, este
acercamiento considera para estadísticos de prueba que sean cercanos a la región crítica (Walpole,
Este error se comente cuando no se realiza el rechazo de la hipótesis nula cuan ésta es falsa. La
probabilidad de cometer un error de tipo II, denotada por , es imposible de computarse a menos
que se tenga una hipótesis alternativa específica (Walpole, Myers, Myers, & Ye, 2012).
Poder estadístico:
El poder estadístico de una prueba es la probabilidad de rechazar la hipótesis nula dado que
una hipótesis alternativa específica es cierta. Éste es calculado como . El poder estadístico es
una medida más sucinta de qué tan sensible es la prueba para detectar diferencias entre medias
cualquiera de una distribución con media y varianza . Y se consideran las hipótesis para
una prueba de dos colas. Para esta prueba es conveniente estandarizar ̅ e involucrar formalmente
√
Si ⁄ ⁄ , la hipótesis nula no se rechaza (Walpole, Myers, Myers, & Ye, 2012).
Este modelo asume que los tamaños de ambas muestras son lo suficiente mente grandes para
que pueda sea aplicado el teorema del límite central. Si se desea que la prueba sea de una cola, se
correspondiente ya sea a una prueba de una cola o dos. La variable aleatoria apropiada en la cual el
criterio de decisión es la variable aleatoria binomial , a pesar de que puede utilizarse el estadístico
Se utiliza para probar la hipótesis de que dos proporciones o parámetros binomiales son iguales.
(̂ ̂) ( )
Los criterios para la aceptación y rechazo de la hipótesis nula son las mismas que la prueba
Se basa en qué tan buen ajuste existe entre la frecuencia de ocurrencia de observaciones en una
muestra observada y las frecuencias esperadas obtenidas de una distribución hipotética (Walpole,
Bibliografía
Badii, M., Castillo, J., Landeros J., & Cortez, K. (2007). Papel de la estadística en la investigación
calidad: https://sites.google.com/site/andreabarrerao/histograma
http://web.udl.es/Biomath/Bioestadistica/Dossiers/Temas%20especiales/Distribucions/Introduc
cion%20al%20concepto%20de%20esperanza%20y%20varianza.pdf
Briscoe, G. (s.f.). Pareto Analysis (the 80:20 rule). Recuperado el 30 de Noviembre de 2013, de Managers-
Net: http://www.managers-net.com/paretoanalysis.html
Universidad de Panamá.
de Chihuaha.
http://estadisticaeli.blogspot.com/
InfoVis.net: http://www.infovis.net/printMag.php?num=157&lang=1
Food and Agriculture Organization of the United Nations. (s.f.). Departamento de Pesca. Recuperado el
http://www.fao.org/docrep/005/x2465s/x2465s08.htm
Freund, J., & Simon, G. (1994). Estadística elemental. México: Prentice Hall Hispanoamericana, S.A.
posgrado/tutorial-de-estadistica/Modulos/Modulo02/CONCEPTOS.pdf
Introducción a la Econometría:
http://www.uhu.es/45110/Ficheros%20de%20datos/curso%202008%202009/Tema%2006.pdf
http://www.ucv.cl/web/estadistica/gr_grafcaja.htm
José Chacón. (2013). Una introducción a la Estadística Inferencial. Ingeniería en Industrias Agropecuarias.
http://www.bioingenieria.edu.ar/academica/catedras/introprob/descriptiva-teo.pdf
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
Tecnológico de Chihuahua.
Mendoza, H., & Bautista, G. (2002). Probabilidad y Estadística. Recuperado el 2 de Diciembre de 2013, de
Morales, E., & González, J. (23 de Enero de 2012). Probabilidad. Recuperado el 6 de Diciembre de 2013,
de Aprendizaje Computacional:
http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node64.html
Pérez Zendejas, E. (25 de Febrero de 2004). Definición de función de probabilidad y de distribución de una
Nacional:
http://www.sites.upiicsa.ipn.mx/polilibros/portal/Polilibros/P_terminados/Probabilidad/doc/U
nidad%202/2.4.htm#item0
Stevens Institute of Technology. (2007). Ejemplo de un Gráfico Lineal de Temperatura (°C) vs. Tiempo
http://www.ciese.org/curriculum/weatherproj2/es/popup/graficar2.shtml
Pedagógico: https://sites.google.com/site/623probabilidad/probabilidad-clasica-empirica-y-
subjetiva
Torres, M., & Salazar, F. (s.f.). Métodos de Recolección de Datos para una Investigación. Facultad de
Vicéns Otero , J., & Medina Moral , E. (2005). Análisis de Datos Cualitativos. Departamento de Economía
Villegas Alemán, A. (2012). Conceptos preliminares de Estadística. Nicoya, Guanacaste, Costa Rica:
Villegas Alemán, A. (2012). Cuantilos en datos no agrupados. Nicoya, Guanacaste, Costa Rica:
Villegas Alemán, A. (2012). Gráficos Estadísticos. Nicoya, Guanacaste, Costa Rica: Universidad
Autónoma de Centroamérica.
Villegas Alemán, A. (2012). Medidas de dispersión en datos no agrupados. Nicoya, Guanacaste, Costa Rica:
Villegas Alemán, A. (2012). Medidas de Posición en Datos no Agrupados. Nicoya, Guanacaste, Costa Rica:
Walpole, Myers, Myers, & Ye. (2012). Probability & Statistics for Engineers & Scientists (Novena ed.).
http://dxsp.sergas.es/ApliEdatos/Epidat/Ayuda/4-
Ayuda%20Distribuciones%20de%20probabilidad.pdf