Beruflich Dokumente
Kultur Dokumente
PDF generado usando el kit de herramientas de fuente abierta mwlib. Ver http://code.pediapress.com/ para mayor informacin. PDF generated at: Fri, 16 Mar 2012 14:17:20 UTC
Contenidos
Artculos
Prueba F de Fisher Distribucin F Anlisis de la varianza Distribucin Contraste de hiptesis Hiptesis nula Distribucin normal Distribucin de probabilidad Variable aleatoria Varianza Funcin de densidad de probabilidad Probabilidad Teora de la probabilidad Distribucin binomial R (lenguaje de programacin) Esperanza matemtica Teora de la medida Distribucin de probabilidad continua Distribucin exponencial Distribucin gamma Distribucin t de Student Distribucin de Poisson Desviacin estndar Intervalo de confianza Poblacin estadstica Muestra estadstica Estadstico muestral Tamao de la muestra Teorema del lmite central Ronald Fisher 1 1 3 6 9 14 15 33 35 40 43 45 50 52 55 59 61 64 66 68 69 72 76 80 83 84 86 88 91 93
Referencias
Fuentes y contribuyentes del artculo Fuentes de imagen, Licencias y contribuyentes 97 99
Licencias de artculos
Licencia 100
Prueba F de Fisher
Prueba F de Fisher
En estadstica se denomina prueba F (de Fisher) a cualquier prueba en la que el estadstico utilizado sigue una distribucin F si la hiptesis nula no puede ser rechazada. En estadstica aplicada se prueban muchas hiptesis mediante el test F, entre ellas: La hiptesis de que las medias de mltiples poblaciones normalmente distribuidas y con la misma desviacin estndar son iguales. Esta es, quizs, la ms conocida de las hiptesis verificada mediante el test F y el problema ms simple del anlisis de varianza. La hiptesis de que las desviaciones estndar de dos poblaciones normalmente distribuidas son iguales. En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos modelos de regresin, uno de los cuales restringe uno o ms de los coeficientes de regresin conforme a la hiptesis nula. El test entonces se basa en un cociente modificado de la suma de cuadrados de residuos de los dos modelos como sigue: Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo 0 restringe m coeficientes, el test F puede calcularse como
El valor resultante debe entonces compararse con la entrada correspondiente de la tabla de valores crticos.
Distribucin F
Fisher-Snedecor
Distribucin F
2
Funcin de densidad (pdf)
para
Moda
para
para
Usada en teora de probabilidad y estadstica, la distribucin F es una distribucin de probabilidad continua. Tambin se le conoce como distribucin F de Snedecor (por George Snedecor) o como distribucin F de Fisher-Snedecor. Una variable aleatoria de distribucin F se construye como el siguiente cociente:
donde U1 y U2 siguen una distribucin chi-cuadrado con d1 y d2 grados de libertad respectivamente, y U1 y U2 son estadsticamente independientes. La distribucin F aparece frecuentemente como la distribucin nula de una prueba estadstica, especialmente en el anlisis de varianza. Vase el test F. La funcin de densidad de una F(d1, d2) viene dada por
para todo nmero real x 0, donde d1 y d2 son enteros positivos, y B es la funcin beta. La funcin de distribucin es
Distribuciones relacionadas
es una distribucin ji-cuadrada cuando para .
Enlaces externos
Tabla de valores crticos de una distribucin F [1] Prueba de significacin mediante la distribucin F [2] Distribution Calculator [3] Calcula las probabilidades y valores crticos para las distribuciones normal, t, ji-cuadrada y F [4] Calcular la probabilidad de una distribucin F-Snedecor con R (lenguaje de programacin)
Distribucin F
Referencias
[1] [2] [3] [4] http:/ / www. itl. nist. gov/ div898/ handbook/ eda/ section3/ eda3673. htm http:/ / home. clara. net/ sisa/ signhlp. htm http:/ / www. vias. org/ simulations/ simusoft_distcalc. html http:/ / cajael. com/ mestadisticos/ T7DContinuas/ node17. php
Anlisis de la varianza
En estadstica, el anlisis de la varianza (ANOVA, ANalysis Of VAriance, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados, en el cual la varianza est particionada en ciertos componentes debidos a diferentes variables explicativas. Las tcnicas iniciales del anlisis de varianza fueron desarrolladas por el estadstico y genetista R. A. Fisher en los aos 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "anlisis de varianza de Fisher", debido al uso de la distribucin F de Fisher como parte del contraste de hiptesis.
Introduccin
El anlisis de la varianza parte de los conceptos de regresin lineal. El primer concepto fundamental es que todo valor observado puede expresarse mediante la siguiente funcin:
Donde Y sera el valor observado (variable dependiente), y X el valor que toma la variable independiente. sera una constante que en la recta de regresin equivale a la ordenada en el origen, es otra constante que equivale a la pendiente de la recta, y es una variable aleatoria que aade a la funcin cierto error que desva la puntuacin observada de la puntuacin pronosticada. Por tanto, a la funcin de pronstico la podemos llamar "Y prima":
Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas, ms el error aleatorio: (1.1) Sabiendo este concepto, podemos operar con esta ecuacin de la siguiente forma: 1) Restamos a ambos lados de la ecuacin (para mantener la igualdad) la media de la variable dependiente:
Por tanto...
Y reorganizando la ecuacin:
Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente igual que la media de las puntuaciones pronosticadas:
Por tanto:
Anlisis de la varianza Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:
Y desarrollamos el cuadrado:
Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por el nmero de casos (n), las llamamos Sumas de Cuadrados., excepto en el ltimo trmino, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en este caso es cero (por las propiedades de la regresin lineal, la covarianza entre el error y la variable independiente es cero). Por tanto:
O lo mismo que:
de un factor, que es el caso ms sencillo, la idea bsica del anlisis de la varianza es comparar la variacin total de un conjunto de muestras y descomponerla como:
Donde: es un nmero real relacionado con la varianza, que mide la variacin debida al "factor", "tratamiento" o tipo de situacin estudiado. es un nmero real relacionado con la varianza, que mide la variacin dentro de cada "factor", "tratamiento" o tipo de situacin. En el caso de que la diferencia debida al factor o tratamiento no sean estadsticamente significativa puede probarse que las varianzas muestrales son iguales:
Donde: es el nmero de situaciones diferentes o valores del factor se estn comparando. es el nmero de mediciones en cada situacin se hacen o nmero de valores disponibles para cada valor del factor. As lo que un simple test a partir de la F de Snedecor puede decidir si el factor o tratamiento es estadsticamente significativo.
Visin general
Existen tres clases conceptuales de estos modelos: 1. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podran diferir nicamente en sus medias. (Modelo 1) 2. El Modelo de efectos aleatorios asume que los datos describen una jerarqua de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarqua. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento slo tres de muchos ms mtodos posibles, el mtodo de enseanza es un factor aleatorio en el experimento. (Modelo 2) 3. El Modelo de efectos mixtos describen situaciones que ste puede tomar. Ejemplo: Si el mtodo de enseanza es analizado como un factor que puede influir donde estn presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
Anlisis de la varianza
Supuestos previos
El ANOVA parte de algunos supuestos que han de cumplirse: La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribucin de los residuales debe ser normal. Homocedasticidad: homogeneidad de las varianzas.
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un anlisis de regresin lineal)
El nmero de grados de libertad (gl) puede separarse de forma similar y corresponde con la forma en que la distribucin chi-cuadrado ( o Ji-cuadrada) describe la suma de cuadrados asociada.
Tipos de modelo
Modelo I: Efectos fijos
El modelo de efectos fijos de anlisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta slo a la media, permaneciendo la "variable respuesta" con una distribucin normal. Este modelo se supone cuando el investigador se interesa nicamente por los niveles del factor presentes en el experimento, por lo que cualquier variacin observada en las puntuaciones se deber al error experimental.
Pruebas de significacin
El anlisis de varianza lleva a la realizacin de pruebas de significacin estadstica, usando la denominada distribucin F de Snedecor.
Tablas ANOVA
Una vez que se han calculado las sumas de cuadrados, las medias cuadrticas, los grados de libertad y la F, se procede a elaborar una tabla que reuna la informacin, denominada "Tabla de Anlisis de varianza o ANOVA", que adopta la siguiente forma:
Anlisis de la varianza
Cuadrado medio
Intragrupo o Error
N-t
Total
N-1
Referencias
Bibliografa
M.R. Spiegel; J. Schiller; R. A. Srinivasan (2007). 9. Anlisis de la varianza. Probabilidad y Estadstica [Schaum's Outline of Theory and Problems of Probability and Statistics]. Schaum (2 edicin). Mxico D.F.: McGraw-Hill. pp.335-371. ISBN 978-970-10-4231-1. F. J. Tejedor Tejedor (1999). Anlisis de varianza. Schaum. Madrid: La Muralla S.A.. ISBN 84-7635-388-X.
Distribucin
Distribucin (ji-cuadrado)
Distribucin
7
Parmetros Dominio Funcin de densidad (pdf) grados de libertad
Media Mediana Moda Varianza Coeficiente de simetra Curtosis Entropa Funcin generadora de momentos (mgf) Funcin caracterstica aproximadamente if
for
En estadstica, la distribucin (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribucin de probabilidad continua con un parmetro que representa los grados de libertad de la variable aleatoria
donde aleatoria
son variables aleatorias normales independientes de media cero y varianza uno. El que la variable tenga esta distribucin se representa habitualmente as: .
Es conveniente tener en cuenta que la letra griega se transcribe al latn como chi[1] y se pronuncia en castellano como ji.[2][3]
Propiedades
Funcin de densidad
Su funcin de densidad es:
donde
es la funcin gamma.
Demostracin
Distribucin
8
si Z es tipo N(0,1) viene dada por
La funcin densidad de
donde
El valor esperado y la varianza de una variable aleatoria X con distribucin son, respectivamente, k y 2k.
consecuencia, cuando , la distribucin es una distribucin exponencial de media . Cuando k es suficientemente grande, como consecuencia del teorema central del lmite, puede aproximarse por una distribucin normal:
Aplicaciones
La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es la de la denominada prueba utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimacin de varianzas. Pero tambin est involucrada en el problema de estimar la media de una poblacin normalmente distribuida y en el problema de estimar la pendiente de una recta de regresin lineal, a travs de su papel en la distribucin t de Student. Aparece tambin en todos los problemas de anlisis de varianza por su relacin con la distribucin F de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes con distribucin .
Distribucin
Referencias
[1] Lectiones: Textos clasicos para aprender Latin I (http:/ / books. google. com/ books?id=ZQxvTp0CInUC& printsec=frontcover& hl=es#v=onepage& q=ch ph tomadas del griego& f=false) [2] Omniglot, greek alphabet (http:/ / www. omniglot. com/ writing/ greek. htm) [3] Omniglot, spanish alphabet (http:/ / www. omniglot. com/ writing/ spanish. htm)
Enlaces externos
(http://cajael.com/mestadisticos/T7DContinuas/node7.php)Calcular la probabilidad de una distribucin de Pearson con R (lenguaje de programacin)
Contraste de hiptesis
Dentro de la inferencia estadstica, un contraste de hiptesis (tambin denominado test de hiptesis o prueba de significacin) es un procedimiento para juzgar si una propiedad que se supone cumple una poblacin estadstica es compatible con lo observado en una muestra de dicha poblacin. Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy Neyman y Karl Pearson. Mediante esta teora, se aborda el problema estadstico considerando una hiptesis determinada alternativa cierto nmero de experimentos. Est fuertemente asociada a los considerados errores de tipo I y II en estadstica, que definen respectivamente, la posibilidad de tomar un suceso falso como verdadero, o uno verdadero como falso. Existen diversos mtodos para desarrollar dicho test, minimizando los errores de tipo I y II, y hallando por tanto con una determinada potencia, la hiptesis con mayor probabilidad de ser correcta. Los tipos ms importantes son los test centrados, de hiptesis y alternativa simple, aleatorizados, etc. Dentro de los tests no paramtricos, el ms extendido es probablemente el test de la U de Mann-Whitney. y una hiptesis , y se intenta dirimir cul de las dos es la hiptesis verdadera, tras aplicar el problema estadstico a un
Introduccin
Si sospechamos que una moneda ha sido trucada para que se produzcan ms caras que cruces al lanzarla al aire, podramos realizar 30 lanzamientos, tomando nota del nmero de caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o ms, consideraramos que el resultado es poco compatible con la hiptesis de que la moneda no est trucada, y concluiramos que las observaciones contradicen dicha hiptesis. La aplicacin de clculos probabilsticos permite determinar a partir de qu valor debemos rechazar la hiptesis garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hiptesis pueden clasificarse en dos grupos, segn: 1. Especifiquen un valor concreto o un intervalo para los parmetros del modelo. 2. Determinen el tipo de distribucin de probabilidad que ha generado los datos. Un ejemplo del primer grupo es la hiptesis de que la media de una variable es 10, y del segundo que la distribucin de probabilidad es la distribucin normal. Aunque la metodologa para realizar el contraste de hiptesis es anloga en ambos casos, distinguir ambos tipos de hiptesis es importante puesto que muchos problemas de contraste de hiptesis respecto a un parmetro son, en realidad, problemas de estimacin, que tienen una respuesta complementaria dando un intervalo de confianza (o conjunto de intervalos de confianza) para dicho parmetro. Sin embargo, las hiptesis respecto a la forma de la distribucin se suelen utilizar para validar un modelo estadstico para un fenmeno aleatorio que se est estudiando.
Contraste de hiptesis
10
probada, aunque puede ser rechazada por los datos. Por ejemplo, la hiptesis de que dos poblaciones tienen la misma media puede ser rechazada fcilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad lo suficientemente pequea para que no pueda ser detectada, aunque la muestra sea muy grande. A partir de una muestra de la poblacin en estudio, se extrae un estadstico (esto es, una valor que es funcin de la muestra) cuya distribucin de probabilidad est relacionada con la hiptesis en estudio y sea conocida. Se toma entonces el conjunto de valores que es ms improbable bajo la hiptesis como regin de rechazo, esto es, el conjunto de valores para el que consideraremos que, si el valor del estadstico obtenido entra dentro de l, rechazaremos la hiptesis. La probabilidad de que se obtenga un valor del estadstico que entre en la regin de rechazo an siendo cierta la hiptesis puede calcularse. De esta manera, se puede escoger dicha regin de tal forma que la probabilidad de cometer este error sea suficientemente pequea. Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la poblacin es el conjunto de los treinta lanzamientos a realizar, el estadstico escogido es el nmero total de caras obtenidas, y la regin de rechazo est constituida por los nmeros totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir que la moneda est trucada a pesar de que no lo est es igual a la probabilidad binomial de tener 25 "xitos" o ms en una serie de 30 ensayos de Bernoulli con probabilidad de "xito" 0,5 en cada uno, entonces: 0,0002, pues existe la posibilidad, aunque poco probable, que la muestra nos d ms de 25 caras sin haber sido la moneda trucada.
Procedimientos de prueba
Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza Ejemplo Una prueba de : p = .10 contra : p < .10, podra estar basada en el examen de una muestra aleatoria de es verdadera, E(X) = np = 200(.10) = 20, mientras, es verdadera. Un valor de x ligeramente debajo de as que es razonable rechazar solo si x es de no ser rechazada si si x15 y no rechazar n = 200 objetos. Representamos con X el nmero de objetos defectuosos de la muestra, una variable aleatoria binomial; x representa el valor observado de X. si podemos esperar menos de 20 objetos defectuosos si 20 no contradice de manera contundente a .
considerablemente menor que 20. Un procedimiento de prueba es rechazar x= 16, 17,, 199 o 200. Un procedimiento de prueba se especifica por lo siguiente:
otra forma. En este caso, la regin de rechazo esta formada por x = 0, 1, 2, , y 15.
1. Un estadstico de prueba: una funcin de los datos muestrales en los cuales se basa la decisin de rechazar o no rechazar . 2. Una regin de rechazo, el conjunto de todos los valores del estadstico de prueba para los cuales rechazada. Entonces, la hiptesis nula ser rechazada si y solo si el valor observado o calculado del estadstico de prueba se ubica en la regin de rechazo ser
Contraste de hiptesis En el mejor de los casos podran desarrollarse procedimientos de prueba para los cuales ningn tipo de error es posible. Pero esto puede alcanzarse solo si una decisin se basa en un examen de toda la poblacin, lo que casi nunca es prctico. La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad en el muestreo puede resultar una muestra no representativa. Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequea. La eleccin de un valor particular de corte de la regin de rechazo fija las probabilidades de errores tipo I y II. Estas probabilidades de error son representadas por y , respectivamente.
11
Si por ejemplo deseamos comprobar la hiptesis de que dos distribuciones tienen la misma media, estamos implcitamente considerando como hiptesis alternativa ambas poblaciones tienen distinta media. Podemos, sin embargo considerar casos en los que no es la simple negacin de . Supongamos por ejemplo que sospechamos que en un juego de azar con un dado, este est trucado para obtener 6. Nuestra hiptesis nula podra ser el dado no est trucado que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la hiptesis alternativa el dado ha sido trucado a favor del 6. Cabra realizar otras hiptesis, pero, a los efectos del estudio que se pretende realizar, no se consideran relevantes. Un test de hiptesis se entiende, en el enfoque moderno, como una funcin de la muestra, corrientemente basada en un estadstico. Supongamos que se tiene una muestra de una poblacin en estudio y que se han formulado hiptesis sobre un parmetro Supongamos que se dispone de un estadstico relacionado con la distribucin estadstica de la poblacin. cuya distribucin con respecto a , se conoce.
Supongamos, tambin, que las hiptesis nula y alternativa tienen la formulacin siguiente:
Un contraste, prueba o test para dichas hiptesis sera una funcin de la muestra de la siguiente forma:
significa que debemos rechazar la hiptesis nula, (o que no hay evidencia estadstica contra ). A
(aceptar
) y
, que
esencia, para construir el test deseado, basta con escoger el estadstico del contraste
de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da
Contraste de hiptesis
12
Errores en el contraste
Una vez realizado el contraste de hiptesis, se habr optado por una de las dos hiptesis, o , y la decisin escogida coincidir o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el siguiente cuadro:
es cierta Se escogi Se escogi No hay error Error de tipo I es cierta Error de tipo II No hay error
Si la probabilidad de cometer un error de tipo I est unvocamente determinada, su valor se suele denotar por la letra griega , y en las mismas condiciones, se denota por la probabilidad de cometer el error de tipo II, esto es:
En este caso, se denomina Potencia del contraste al valor 1-, esto es, a la probabilidad de escoger es cierta .
cuando sta
Cuando es necesario disear un contraste de hiptesis, sera deseable hacerlo de tal manera que las probabilidades de ambos tipos de error fueran tan pequeas como fuera posible. Sin embargo, con una muestra de tamao prefijado, disminuir la probabilidad del error de tipo I, , conduce a incrementar la probabilidad del error de tipo II, . Usualmente, se disean los contrastes de tal manera que la probabilidad sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones ms relajadas o ms estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir , probabilidad de error de tipo II, es aumentar el tamao muestral, lo que en la prctica conlleva un incremento de los costes del estudio que se quiere realizar.
Contraste ms potente
El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de tipo I, , es preferible. Si se trata de contrastar dos hiptesis sencillas sobre un parmetro desconocido, , del tipo:
Se trata de escoger entre todos los contrastes posibles con prefijado aquel que tiene mayor potencia, esto es, menor probabilidad de incurrir en el error de tipo II. En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de mxima potencia y determina cmo construirlo.
donde
determinadas, sino que tomarn diferentes valores segn los distintos valores posibles de . En este caso se dice que un contraste tiene tamao si
Contraste de hiptesis esto es, si la mxima probabilidad de cometer un error de tipo I cuando la hiptesis nula es cierta es . En estas circunstancias, se puede considerar como una funcin de , puesto que para cada posible valor de en la hiptesis alternativa se tendra una probabilidad distinta de cometer un error de tipo II. Se define entonces
13
esto es, la probabilidad de discriminar que la hiptesis alternativa es cierta para cada valor posible de dentro de los valores posibles de esta misma hiptesis. Se dice que un contraste es uniformemente ms potente de tamao cuando, para todo valor es
mayor o igual que el de cualquier otro contraste del mismo tamao. En resumen, se trata de un contraste que garantiza la mxima potencia para todos los valores de en la hiptesis alternativa. Es claro que el caso del contraste uniformemente ms potente para hiptesis compuestas exige el cumplimiento de condiciones ms exigentes que en el caso del contraste ms potente para hiptesis simples. Por ello, no existe un equivalente al Lema de Neyman-Pearson para el caso general. Sin embargo, s existen muchas condiciones en las que, cumplindose determinadas propiedades de las distribuciones de probabilidad implicadas y para ciertos tipos de hiptesis, se puede extender el Lema para obtener el contraste uniformemente ms potente del tamao que se desee.
Enlaces externos
Inferencia estadstica, apuntes del Departamento de Matemticas de la Universidad de La Corua [1] HESTADIS - Clculo del contraste de hiptesis para la media con varianza poblacional conocida (gratuito) [2] Carlos Reynoso - Atolladeros del pensamiento aleatorio: Batallas en torno de la prueba estadstica. [3]
Referencias
[1] http:/ / www. udc. es/ dep/ mate/ estadistica2/ sec1_3. html [2] http:/ / www. vaxasoftware. com/ soft_edu/ hestadis. html [3] http:/ / carlosreynoso. com. ar/ atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica
Hiptesis nula
14
Hiptesis nula
En estadstica, una hiptesis nula es una hiptesis construida para anular o refutar, con el objetivo de apoyar una hiptesis alternativa. Cuando se la utiliza, la hiptesis nula se presume verdadera hasta que una prueba estadstica en la forma de una prueba emprica de la hiptesis indique lo contrario.
Ejemplos
Hiptesis nula para la distribucin ji-cuadrado: Si este material gentico segrega en proporciones mendelianas, no habr diferencias entre las frecuencias observadas (Oi) y las frecuencias esperadas (Ei). Hiptesis nula para la distribucin t de Student: Si la humedad no influye sobre el nmero de huevos por desove, no habr diferencias entre las medias de esta variable para cada regin. Plantea la nula diferencia entre el valor observado y el especificado. O entre el muestral respecto al poblacional.
Enlaces externos
Carlos Reynoso: Atolladeros del pensamiento aleatorio - Batallas en torno de la prueba estadstica de la hiptesis nula en ciencias sociales [1]
Referencias
[1] http:/ / carlosreynoso. com. ar/ atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica/
Distribucin normal
15
Distribucin normal
Distribucin normal
Media Mediana Moda Varianza Coeficiente de simetra Curtosis Entropa Funcin generadora de momentos (mgf) 0 0
Distribucin normal
16
Funcin caracterstica
En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece aproximada en fenmenos reales. La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto de un determinado parmetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribucin radica en que permite modelar numerosos fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observacin se obtiene como la suma de unas pocas causas independientes. De hecho, la estadstica es un modelo matemtico que slo permite describir un fenmeno, sin explicacin alguna. Para la explicacin causal es preciso el diseo experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido como mtodo correlacional. La distribucin normal tambin es importante por su relacin con la estimacin por mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son: caracteres morfolgicos de individuos como la estatura; caracteres fisiolgicos como el efecto de un frmaco; caracteres sociolgicos como el consumo de cierto producto por un mismo grupo de individuos; caracteres psicolgicos como el cociente intelectual; nivel de ruido en telecomunicaciones; errores cometidos al medir ciertas magnitudes; etc.
La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por ejemplo, la distribucin muestral de las medias muestrales es aproximadamente normal, cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal.[1] Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin subyacente a una lista de datos resumidos en trminos de media muestral y varianza. La distribucin normal es la ms extendida en estadstica y muchos tests estadsticos estn basados en una supuesta "normalidad". En probabilidad, la distribucin normal aparece como el lmite de varias distribuciones de probabilidad continuas y discretas.
Distribucin normal
17
Historia
La distribucin normal fue presentada por primera vez por Abraham de Moivre en un artculo del ao 1733,[2] que fue reimpreso en la segunda edicin de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximacin de la distribucin binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teora analtica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace. Laplace us la distribucin normal en el anlisis de errores de experimentos. El importante mtodo de mnimos cuadrados fue introducido por Legendre en 1805. Gauss, que afirmaba haber usado el mtodo desde 1794, lo justific rigurosamente en 1809 asumiendo una distribucin normal de los errores. El nombre de Gauss se ha asociado a esta distribucin porque la us con profusin cuando analizaba datos astronmicos[3] y algunos autores le atribuyen un descubrimiento independiente del de De Moivre.[4]Esta atribucin del nombre de la distribucin a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stigler.
El nombre de "campana" viene de Esprit Jouffret que us el trmino "bell surface" (superficie campana) por primera vez en 1872 para una distribucin normal bivariante de componentes independientes. El nombre de "distribucin normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[citarequerida] A pesar de esta terminologa, otras distribuciones de probabilidad podran ser ms apropiadas en determinados contextos; vase la discusin sobre ocurrencia, ms abajo.
Definicin formal
Hay varios modos de definir formalmente una distribucin de probabilidad. La forma ms visual es mediante su funcin de densidad. De forma equivalente, tambin pueden darse para su definicin la funcin de distribucin, los momentos, la funcin caracterstica y la funcin generatriz de momentos, entre otros.
Funcin de densidad
Se dice que una variable aleatoria continua X sigue una distribucin normal de parmetros y y se denota X~N(, ) si su funcin de densidad est dada por:
donde (mu) es la media y (sigma) es la desviacin estndar (2 es la varianza).[5] Se llama distribucin normal "estndar" a aqulla en la que sus parmetros toman los valores = 0 y = 1. En este caso la funcin de densidad tiene la siguiente expresin:
Distribucin normal Su grfica se muestra a la derecha y con frecuencia se usan ...tablas para el clculo de los valores de su distribucin.
18
Funcin de distribucin
La funcin de distribucin de la distribucin normal est definida como sigue:
Esta funcin de distribucin puede expresarse en trminos de una funcin especial llamada funcin error de la siguiente forma:
y es referida, a veces, como simplemente funcin Q, especialmente en textos de ingeniera. Esto representa la cola de probabilidad de la distribucin gaussiana. Tambin se usan ocasionalmente otras definiciones de la funcin Q, las cuales son todas ellas transformaciones simples de .[8] La inversa de la funcin de distribucin de la normal estndar (funcin cuantil) puede expresarse en trminos de la inversa de la funcin de error:
Esta funcin cuantil se llama a veces la funcin probit. No hay una primitiva elemental para la funcin probit. Esto no quiere decir meramente que no se conoce, sino que se ha probado la inexistencia de tal funcin. Existen varios mtodos exactos para aproximar la funcin cuantil mediante la distribucin normal (vase funcin cuantil).
Distribucin normal Los valores (x) pueden aproximarse con mucha precisin por distintos mtodos, tales como integracin numrica, series de Taylor, series asintticas y fracciones continuas. Lmite inferior y superior estrictos para la funcin de distribucin Para grandes valores de x la funcin de distribucin de la normal estndar est muy cerca de 0. Los lmites elementales es muy prxima a 1 y
19
en trminos de la densidad
son tiles.
Resolviendo para
Funciones generadoras
Funcin generadora de momentos La funcin generadora de momentos se define como la esperanza de e(tX). Para una distribucin normal, la funcin generadora de momentos es:
como puede comprobarse completando el cuadrado en el exponente. Funcin caracterstica La funcin caracterstica se define como la esperanza de eitX, donde i es la unidad imaginaria. De este modo, la funcin caracterstica se obtiene reemplazando t por it en la funcin generadora de momentos. Para una distribucin normal, la funcin caracterstica es[9]
Distribucin normal
20
Propiedades
Algunas propiedades de la distribucin normal son: 1. Es simtrica respecto de su media, ; 2. La moda y la mediana son ambas iguales a la media, ; 3. Los puntos de inflexin de la curva se dan para x = y x = +. 4. Distribucin de probabilidad en un entorno de la media: 1. en el intervalo [ - , + ] se encuentra comprendida, aproximadamente, el 68,26% de la distribucin; 2. en el intervalo [ - 2, + 2] se encuentra, aproximadamente, el 95,44% de la distribucin;
Distribucin de probabilidad alrededor de la media en una distribucin N(, ).
3. por su parte, en el intervalo [ -3, + 3] se encuentra comprendida, aproximadamente, el 99,74% de la distribucin. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prcticamente la totalidad de la distribucin se encuentre a tres desviaciones tpicas de la media justifica los lmites de las tablas empleadas habitualmente en la normal estndar. 5. Si X ~ N(, 2) y a y b son nmeros reales, entonces (aX + b) ~ N(a+b, a22). 6. Si X ~ N(x, x2) e Y ~ N(y, y2) son variables aleatorias normales independientes, entonces: Su suma est normalmente distribuida con U = X + Y ~ N(x + y, x2 + y2) (demostracin). Recprocamente, si dos variables aleatorias independientes tienen una suma normalmente distribuida, deben ser normales (Teorema de Crmer). Su diferencia est normalmente distribuida con Si las varianzas de X e Y son iguales, entonces U y V son independientes entre s. La divergencia de Kullback-Leibler, 7. Si entonces: Su producto e son variables aleatorias independientes normalmente distribuidas, dada por .
es una funcin de Bessel modificada de segundo tipo. . De este modo la sigue una
Su cociente sigue una distribucin de Cauchy con 8. Si distribucin de Cauchy es un tipo especial de distribucin cociente. son variables normales estndar independientes, entonces
distribucin con n grados de libertad. 9. Si son variables normales estndar independientes, entonces la media muestral y la varianza muestral son independientes. Esta propiedad caracteriza a las distribuciones normales y contribuye a explicar por qu el test-F no es robusto respecto a la no-normalidad).
Distribucin normal
21
La transformacin de una distribucin X ~ N(, ) en una N(0, 1) se llama normalizacin, estandarizacin o tipificacin de la variable X. Una consecuencia importante de esto es que la funcin de distribucin de una distribucin normal es, por consiguiente,
A la inversa, si
~ y varianza
, entonces .
La distribucin normal estndar est tabulada (habitualmente en la forma de el valor de la funcin de distribucin ) y las otras distribuciones normales pueden obtenerse como transformaciones simples, como se describe ms arriba, de la distribucin estndar. De este modo se pueden usar los valores tabulados de la funcin de distribucin normal estndar para encontrar valores de la funcin de distribucin de cualquier otra distribucin normal.
Momentos
Los primeros momentos de la distribucin normal son:
Nmero 0 1 2 3 4 5 6 7 8 0 0 0 0 0 0 0 0 0 1 Momento Momento central Cumulante 1 0
Todos los cumulantes de la distribucin normal, ms all del segundo, son cero. Los momentos centrales de orden superior (2k con =0) vienen dados por la frmula
Distribucin normal
22
Divisibilidad infinita
Las normales tienen una distribucin de probabilidad infinitamente divisible: Para una distribucin normal X de media y varianza 20, es posible encontrar n variables aleatorias independientes {X1,...,Xn} cada una con distribucin normal de media /n y varianza 2/n dado que la suma X1+ ...+ Xn de estas n variables aleatorias tenga esta especfica distribucin normal (para verificarlo, sese la funcin caracterstica de convolucin y la induccin matemtica).
Distribucin normal
23
Estabilidad
Las distribuciones normales son estrictamente estables.
donde erf es la funcin error. Con 12 decimales, los valores para los puntos 1-, 2-, hasta 6- son:
La siguiente tabla proporciona la relacin inversa de mltiples correspondientes a unos pocos valores usados con frecuencia para el rea bajo la campana de Gauss. Estos valores son tiles para determinar intervalos de confianza para los niveles especificados basados en una curva normalmente distribuida (o estimadores asintticamente normales):
0,80 0,90 0,95 0,98 0,99 0,995 0,998 0,999 0,9999 0,99999
1,28155 1,64485 1,95996 2,32635 2,57583 2,80703 3,09023 3,29052 3,8906 4,4172
donde el valor a la izquierda de la tabla es la proporcin de valores que caern en el intervalo dado y n es un mltiplo de la desviacin tpica que determina la anchura de el intervalo.
Distribucin normal
24
donde X e Y son variables gaussianas reales e independientes con igual varianza la variable conjunta es entonces
. La funcin de distribucin de
Como
Distribuciones relacionadas
es una distribucin de Rayleigh si son dos distribuciones normales independientes. es una distribucin con grados de libertad si donde para donde y
y son independientes. es una distribucin de Cauchy si son dos distribuciones normales independientes. es una distribucin log-normal si y
para . entonces .
Relacin con una distribucin estable: si Distribucin normal truncada. si dar lugar a una variable aleatoria de media
y por encima de
es la funcin de
densidad de una variable normal estndar. Si es una variable aleatoria normalmente distribuida e doblada.
, entonces
Distribucin normal campana asigna grados relativos basados en una distribucin normal de resultados.
25
Tests de normalidad
Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con una distribucin normal. La hiptesis nula es, en estos casos, si el conjunto de datos es similar a una distribucin normal, por lo que un P-valor suficientemente pequeo indica datos no normales. Prueba de Kolmogrov-Smirnov Test de Lilliefors Test de AndersonDarling Test de RyanJoiner Test de ShapiroWilk Normal probability plot (rankit plot) Test de JarqueBera Test omnibs de Spiegelhalter
Estimacin de parmetros
Estimacin de parmetros de mxima verosimilitud
Vase tambin: Mxima verosimilitud
Supngase que son independientes y cada una est normalmente distribuida con media y varianza 2 > 0. En trminos estadsticos los valores observados de estas n variables aleatorias constituyen una "muestra de tamao n de una poblacin normalmente distribuida. Se desea estimar la media poblacional y la desviacin tpica poblacional , basndose en las valores observados de esta muestra. La funcin de densidad conjunta de estas n variables aleatorias independientes es
con alguna constante C > 0 (de la cual, en general, se permitira incluso que dependiera de X1, ..., Xn, aunque desapareciera con las derivadas parciales de la funcin de log-verosimilitud respecto a los parmetros tenidos en cuenta, vase ms abajo). En el mtodo de mxima verosimilitud, los valores de y que maximizan la funcin de verosimilitud se toman como estimadores de los parmetros poblacionales y . Habitualmente en la maximizacin de una funcin de dos variables, se podran considerar derivadas parciales. Pero aqu se explota el hecho de que el valor de que maximiza la funcin de verosimilitud con fijo no depende de . No obstante, encontramos que ese valor de , entonces se sustituye por en la funcin de verosimilitud y finalmente encontramos el valor de que maximiza la expresin resultante. Es evidente que la funcin de verosimilitud es una funcin decreciente de la suma
Distribucin normal
26
Esta es la estimacin de mxima verosimilitud de basada en las n observaciones X1, ..., Xn. Cuando sustituimos esta estimacin por en la funcin de verosimilitud, obtenemos
Se conviene en denotar la "log-funcin de verosimilitud", esto es, el logaritmo de la funcin de verosimilitud, con una minscula , y tenemos
entonces
o sea igual a esa cantidad, o mayor que esa cantidad. (Si hay solamente una observacin, lo que significa que n = 1, o si X1 = ... = Xn, lo cual slo ocurre con probabilidad cero, entonces por esta frmula, refleja el hecho de que en estos casos la funcin de verosimilitud es ilimitada cuando decrece hasta cero.) Consecuentemente esta media de cuadrados de residuos es el estimador de mxima verosimilitud de 2, y su raz cuadrada es el estimador de mxima verosimilitud de basado en las n observaciones. Este estimador es sesgado, pero tiene un menor error medio al cuadrado que el habitual estimador insesgado, que es n/(n1) veces este estimador.
Distribucin normal Sorprendente generalizacin La derivada del estimador de mxima verosimilitud de la matriz de covarianza de una distribucin normal multivariante es despreciable. Involucra el teorema espectral y la razn por la que puede ser mejor para ver un escalar como la traza de una matriz 11 que como un mero escalar. Vase estimacin de la covarianza de matrices. Estimacin insesgada de parmetros El estimador poblacional. El estimador de mxima verosimilitud de la varianza es insesgado si asumimos que la media de la poblacin es conocida a priori, pero en la prctica esto no ocurre. Cuando disponemos de una muestra y no sabemos nada de la media o la varianza de la poblacin de la que se ha extrado, como se asuma en la derivada de mxima verosimilitud de arriba, entonces el estimador de mxima verosimilitud de la varianza es sesgado. Un estimador insesgado de la varianza 2 es la cuasi varianza muestral: de mxima verosimilitud de la media poblacional , es un estimador insesgado de la media
27
que sigue una distribucin Gamma cuando las Xi son normales independientes e idnticamente distribuidas:
con media
y varianza
La estimacin de mxima verosimilitud de la desviacin tpica es la raz cuadrada de la estimacin de mxima verosimilitud de la varianza. No obstante, ni sta, ni la raz cuadrada de la cuasivarianza muestral proporcionan un estimador insesgado para la desviacin tpica (vase estimacin insesgada de la desviacin tpica para una frmula particular para la distribucin normal.
Incidencia
Las distribuciones aproximadamente normales aparecen por doquier, como queda explicado por el teorema central del lmite. Cuando en un fenmeno se sospecha la presencia de un gran nmero de pequeas causas actuando de forma aditiva e independiente es razonable pensar que las observaciones sern "normales". Hay mtodos estadsticos para probar empricamente esta asuncin, por ejemplo, el test de Kolmogorov-Smirnov. Hay causas que pueden actuar de forma multiplicativa (ms que aditiva). En este caso, la asuncin de normalidad no est justificada y es el logaritmo de la variable en cuestin el que estara normalmente distribuido. La distribucin de las variables directamente observadas en este caso se denomina log-normal. Finalmente, si hay una simple influencia externa que tiene un gran efecto en la variable en consideracin, la asuncin de normalidad no est tampoco justificada. Esto es cierto incluso si, cuando la variable externa se mantiene constante, las distribuciones marginales resultantes son, en efecto, normales. La distribucin completa ser una superposicin de variables normales, que no es en general normal. Ello est relacionado con la teora de errores (vase ms abajo). A continuacin se muestran una lista de situaciones que estaran, aproximadamente, normalmente distribuidas. Ms abajo puede encontrarse una discusin detallada de cada una de ellas: En problemas de recuento, donde el teorema central del lmite incluye una aproximacin de discreta a continua y donde las distribuciones infinitamente divisibles y descomponibles estn involucradas, tales como: variables aleatorias binomiales, asociadas con preguntas s/no; variables aleatorias de Poisson, asociadas con eventos raros; En medidas fisiolgicas de especmenes biolgicos:
Distribucin normal El logaritmo de las medidas del tamao de tejidos vivos (longitud, altura, superficie de piel, peso); La longitud de apndices inertes (pelo, garras, rabos, dientes) de especmenes biolgicos en la direccin del crecimento; Otras medidas fisiolgicas podran estar normalmente distribuidas, aunque no hay razn para esperarlo a priori; Se asume con frecuencia que los errores de medida estn normalmente distribuidos y cualquier desviacin de la normalidad se considera una cuestin que debera explicarse; Variables financieras, en el modelo Black-Scholes: Cambios en el logaritmo de Cambios en el logaritmo de tasas de cambio, ndices de precios, ndices de existencias de mercado; estas variables se comportan como el inters compuesto, no como el inters simple, por tanto, son multiplicativas; Mientras que el modelo Black-Scholes presupone normalidad, en realidad estas variables exhiben colas pesadas, como puede verse en crash de las existencias de mercado; Otras variables financieras podran estar normalmente distribuidas, pero no hay razn para esperarlo a priori; Intensidad de la luz: La intensidad de la luz lser est normalmente distribuida; La luz trmica tiene una distribucin de Bose-Einstein en escalas de tiempo muy breves y una distribucin normal en grandes escalas de tiempo debido al teorema central del lmite. Es relevante para la biolga y la economa el hecho de que los sistemas complejos tienden a mostrar la ley de potencias ms que normal.
28
Recuento de fotones
La intensidad de la luz de una sola fuente vara con el tiempo, as como las fluctuaciones trmicas que pueden observarse si la luz se analiza a una resolucin suficientemente alta. La mecnica cuntica interpreta las medidas de la intensidad de la luz como un recuento de fotones, donde la asuncin natural es usar la distribucin de Poisson. Cuando la intensidad de la luz se integra a lo largo de grandes periodos de tiempo mayores que el tiempo de coherencia, la aproximacin Poisson - Normal es apropiada.
Medida de errores
La normalidad es la asuncin central de la teora matemtica de errores. De forma similar en el ajuste de modelos estadstico, un indicador de la bondad del ajuste es que el error residual (as es como se llaman los errores en esta circunstancia) sea independiente y normalmente distribuido. La asuncin es que cualquier desviacin de la normalidad necesita ser explicada. En ese sentido, en ambos, ajuste de modelos y teora de errores, la normalidad es la nica observacin que no necesita ser explicada, sino que es esperada. No obstante, si los datos originales no estn normalmente distribuidos (por ejemplo, si siguen una distribucin de Cauchy, entonces los residuos tampoco estarn normalmente distribuidos. Este hecho es ignorado habitualmente en la prctica. Las medidas repetidas de la misma cantidad se espera que cedan el paso a resultados que estn agrupados entorno a un valor particular. Si todas las fuentes principales de errores se han tomado en cuenta, se asume que el error que queda debe ser el resultado de un gran nmero de muy pequeos y aditivos efectos y, por consiguiente, normal. Las desviaciones de la normalidad se interpretan como indicaciones de errores sistemticos que no han sido tomados en cuenta. Puede debatirse si esta asuncin es vlida. Una famosa observacin atribuida a Gabriel Lippmann dice:[citarequerida] Todo el mundo cree en la ley normal de los errores: los matemticos, porque piensan que es un hecho experimental; y los experimentadores, porque suponen que es un teorema matemtico Otra fuente podra ser Henri Poincar [10].
Distribucin normal
29
Variables financieras
Ya en 1900 Louis Bachelier propuso representar los precios de cambio usando la distribucin normal. Esta aproximacin se ha modificado desde entonces ligeramente. A causa de la naturaleza multiplicativa del inters compuesto, los indicadores financieros como valores de mercado y precios de las materias primas exhiben un "comportamiento multiplicativo". Como tales, sus cambios peridicos (por ejemplo, cambios anuales) no son normales, sino lognormales. Esta es todava la hiptesis ms comnmente aceptada en economa. No obstante, en realidad las variables financieras exhiben colas pesadas y as, la asuncin de normalidad infravalora la probabilidad de eventos extremos como quiebras financieras. Se han sugerido correcciones a este modelo por parte de matemticos como Benot Mandelbrot, quien observ que los cambios en el logaritmo durante breves periodos de tiempo (como un da) se aproximan bien por distribuciones que no tienen una varianza finita y, por consiguiente, el teorema central del lmite no puede aplicarse. Ms an, la suma de muchos de tales cambios sigue una distribucin de log-Levy.
El modelo normal de movimiento de activos no incluye movimientos extremos tales como quiebras financieras.
Distribucin normal
30
Ecuacin de difusin
La funcin de densidad de la distribucin normal est estrechamente relacionada con la ecuacin de difusin (homognea e istropa) y, por tanto, tambin con la ecuacin de calor. Esta ecuacin diferencial parcial describe el tiempo de evolucin de una funcin de densidad bajo difusin. En particular, la funcin de densidad de masa
Si la densidad de masa para un tiempo t=0 viene dada por la delta de Dirac, lo cual significa, esencialemente que toda la masa est inicialmente concentrada en un punto, entonces la funcin de densidad de masa en el tiempo t tendr la forma de la funcin de densidad de la normal, con varianza creciendo linealmente con t. Esta conexin no es coincidencia: la difusin se debe a un movimiento Browniano que queda descrito matemticamente por un proceso de Wiener, y tal proceso en un tiempo t tambin resultar normal con varianza creciendo linealmente con t'. Ms generalmente, si la densidad de masa inicial viene dada por una funcin (x), entonces la densidad de masa en un tiempo t vendr dada por la convolucin de y una funcin de densidad normal.
Esta formulacin aparece porque la distribucin con dos grados de libertad (vase la propiedad 4, ms arriba) es una variable aleatoria exponencial fcilmente generada (la cual corresponde a la cantidad lnU en estas ecuaciones). As, un ngulo elegido uniformemente alrededor de un crculo va la variable aleatoria V y un radio elegido para ser exponencial se transforman entonces en coordenadas x e y normalmente distribuidas. Un mtodo mucho ms rpido que la transformacin de Box-Muller, pero que sigue siendo exacto es el llamado algoritmo Zigurat, desarrollado por George Marsaglia. En alrededor del 97% de los casos usa slo dos nmeros aleatorios, un entero aleatorio y un uniforme aleatorio, una multiplicacin y un test-si . Slo un 3% de los casos donde la combinacin de estos dos cae fuera del "corazn del zigurat", un tipo de rechazo muestral usando logaritmos, exponenciales y nmeros aleatorios ms uniformes deberan ser empleados. Hay tambin alguna investigacin sobre la conexin entre la rpida transformacin de Hadamard y la distribucin normal, en virtud de que la transformacin emplea slo adicin y sustraccin y por el teorema central del lmite los
Distribucin normal nmeros aleatorios de casi cualquier distribucin sern transformados en la distribucin normal. En esta visin se pueden combinar una serie de transformaciones de Hadamard con permutaciones aleatorias para devolver conjuntos de datos aleatorios normalmente distribuidos.
31
y las constantes son b0 = 0.2316419, b1 = 0.319381530, b2 = 0.356563782, b3 = 1.781477937, b4 = 1.821255978, b5 = 1.330274429. La Biblioteca Cientfica GNU calcula valores de la funcin de distribucin normal estndar usando aproximaciones por funciones racionales a trozos. Otro mtodo de aproximacin usa polinomios de tercer grado en intervalos.[13] El artculo sobre el lenguaje de programacin bc proporciona un ejemplo de cmo computar la funcin de distribucin en GNU bc. Para una discusin ms detallada sobre cmo calcular la distribucin normal, vase la seccin 3.4.1C. de The Art of Computer Programming (El arte de la programacin por ordenador), de Knuth.
Referencias
[1] Es una consecuencia del Teorema Central del Lmite [2] Abraham de Moivre, "Approximatio ad Summam Terminorum Binomii (a+b)n in Seriem expansi" (impreso el 12 de noviembre de 1733 en Londres para una edicin privada). Este panfleto se reimprimi en: (1) Richard C. Archibald (1926) A rare pamphlet of Moivre and some of his discoveries, Isis, vol. 8, pginas 671-683; (2) Helen M. Walker, De Moivre on the law of normal probability en David Eugene Smith, A Source Book in Mathematics [Nueva York, Nueva York: McGraw-Hill, 1929; reimpresin: Nueva York, Nueva York: Dover, 1959], vol. 2, pginas 566-575.; (3) Abraham De Moivre, The Doctrine of Chances (2 ed.) [Londres: H. Woodfall, 1738; reimpresin: Londres: Cass, 1967], pginas 235-243; (3 ed.) [Londres: A Millar, 1756; reimpresin: Nueva York, Nueva York: Chelsea, 1967], pginas 243-254; (4) Florence N. David, Games, Gods and Gambling: A History of Probability and Statistical Ideas [Londres: Griffin, 1962], Apndice 5, pginas 254-267. [3] Havil, 2003 [4] Wussing, Hans (marzo de 1998). Leccin 10 (http:/ / books. google. es/ books?id=IG3_b5Xm8PMC). Lecciones de Historia de las Matemticas (1 (castellano) edicin). Siglo XXI de Espaa Editores, S.A.. pp.190. ISBN 84-323-0966-4. . "La distribucin normal y sus aplicaciones a la teora de errores se asocia a menudo con el nombre de Gauss, quien la descubri -igual que Laplace- independientemente; no obstante ya haba sido estudiada por de Moivre [5] Weisstein, Eric W. Normal Distribution (http:/ / mathworld. wolfram. com/ NormalDistribution. html) (en ingls). MathWorld. Wolfram Research. Consultado el 18 de marzode 2009. [6] La funcin Q (http:/ / cnx. org/ content/ m11537/ latest/ ) [7] http:/ / www. eng. tau. ac. il/ ~jo/ academic/ Q. pdf [8] Weisstein, Eric W. Normal Distribution Function (http:/ / mathworld. wolfram. com/ NormalDistributionFunction. html) (en ingls). MathWorld. Wolfram Research. [9] M.A. Sanders. Characteristic function of the univariate normal distribution (http:/ / www. planetmathematics. com/ CharNormal. pdf). Consultado el 06-03-2009. [10] http:/ / en. wikiquote. org/ wiki/ Henri_Poincar#Misattributed [11] Johnson NL, Kotz S, Balakrishnan N. (1995) Continuous Univariate Distributions Volume 2, Wiley. Equation(26.48) [12] http:/ / www. math. sfu. ca/ ~cbm/ aands/ page_932. htm [13] Andy Salter. B-Spline curves (http:/ / www. doc. ic. ac. uk/ ~dfg/ AndysSplineTutorial/ BSplines. html). Consultado el 05-12-2008.
Distribucin normal
32
Enlaces externos
reas bajo la curva normal (http://www.digitalreview.com.ar/distribucionnormal/) Tabla conteniendo los valores de la funcin normal Calculadora de probabilidades en una distribucin Normal (http://www.ugr.es/~jsalinas/normal.htm). Permite hacer clculos directos e inversos. (http://www.foro.resuelveproblemas.com/Matematicas-La-distribucin-normal) Demostracin de la distribucin normal Tabla de la distribucin normal (http://www.vaxasoftware.com/doc_edu/mat/dnormal.pdf) Tabla de la distribucin normal en formato PDF Se puede usar software y un programa de computadora para el ajuste de una distribucin de probabilidad, incluyendo la normal, a una serie de datos: Easy fit (http://www.mathwave.com/articles/distribution_fitting.html), "data analysis & simulation" MathWorks Benelux (http://www.mathworks.nl/products/statistics/demos.html?file=/products/demos/ shipping/stats/cfitdfitdemo.html) ModelRisk (http://www.vosesoftware.com/), "risk modelling software" Ricci distributions, fitting distrubutions with R (http://cran.r-project.org/doc/contrib/Ricci-distributions-en. pdf) , Vito Ricci, 2005 Risksolver, automatically fit distributions and parameters to samples (http://www.solver.com/risksolver8.htm) StatSoft distribution fitting (http://www.statsoft.com/textbook/distribution-fitting/) CumFreq (http://www.waterlog.info/cumfreq.htm) , libre sin costo, incluye la distribucin normal, la lognormal, raz-normal, cuadrado-normal, e intervalos de confianza a base de la distribucin binomial Calculadora Distribucin normal (http://www.stud.feec.vutbr.cz/~xvapen02/vypocty/no. php?language=espanol) (http://cajael.com/mestadisticos/T7DContinuas/node3.php) Calcular la probabilidad de una distribucion normal con R (lenguaje de programacin)
Distribucin de probabilidad
33
Distribucin de probabilidad
En teora de la probabilidad y estadstica, la distribucin de probabilidad de una variable aleatoria es una funcin que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribucin de probabilidad est definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los nmeros reales, la distribucin de probabilidad est completamente especificada por la funcin de distribucin, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.
y se escribe, simplemente,
Propiedades
Como consecuencia casi inmediata de la definicin, la funcin de distribucin: Es una funcin continua por la derecha. Es una funcin montona no decreciente. Adems, cumple
tal que
, los sucesos
son
y finalmente
conoceremos completamente la distribucin de probabilidad de la variable. Para realizar clculos es ms cmodo conocer la distribucin de probabilidad, y sin embargo para ver una representacin grfica de la probabilidad es ms prctico el uso de la funcin de densidad.
Distribucin de probabilidad
34
Y, tal como corresponde a la definicin de distribucin de probabilidad, esta expresin representa la suma de todas las probabilidades desde hasta el valor .
Distribucin binomial.
35
Enlaces externos
Wikimedia Commons alberga contenido multimedia sobre Distribuciones de probabilidad. Commons Wikilibros: Estadstica
Variable aleatoria
Una variable es aleatoria si su valor est determinado por el azar. En gran nmero de experimentos aleatorios es necesario, para su tratamiento matemtico, cuantificar los resultados de modo que se asigne un nmero real a cada uno de los resultados posibles del experimento. De este modo se establece una relacin funcional entre elementos del espacio muestral asociado al experimento y nmeros reales. En probabilidad y estadstica, una variable aleatoria o variable estocstica es una variable cuyos valores se obtienen de mediciones en algn tipo de experimento aleatorio. Formalmente, una variable aleatoria es una funcin, que asigna eventos (p.e., los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc.) a nmeros reales (p.e., su suma). Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento an no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medicin incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribucin de probabilidad se usa para describir la probabilidad de que se den los diferentes valores. Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lgicos, funciones... El trmino elemento aleatorio se utiliza para englobar todo ese tipo de conceptos relacionados. Un concepto relacionado es el de proceso estocstico, un conjunto de variables aleatorias ordenadas (habitualmente por orden o tiempo). Una variable aleatoria (v.a.) X es una funcin real definida en el espacio muestral, , asociado a un experimento aleatorio.[1][2]
, es decir, al conjunto de
los valores reales que sta puede tomar, segn la aplicacin X. Dicho de otro modo, el rango de una v.a. es el recorrido de la funcin por la que sta queda definida:
Variable aleatoria
36
Definicin formal
La definicin formal de variable aleatoria requiere ciertos conocimientos profundos de matemtica (en concreto de teora de la medida). Es la siguiente:[3][4] Dado un espacio de probabilidad y un espacio medible , una aplicacin es una
variable aleatoria si es una aplicacin -medible. En la mayora de los casos se toma como espacio medible de llegada el formado por los nmeros reales junto con la -lgebra de Borel (el generado por la topologa usual de ), quedando pues la definicin de esta manera: Dado un espacio de probabilidad donde es la -lgebra boreliana. una variable aleatoria real es cualquier funcin -medible
Ejemplo
Supongamos que se lanzan dos monedas al aire. El espacio muestral, esto es, el conjunto de resultados elementales posibles asociado al experimento, es , donde (c representa "sale cara" y x, "sale cruz"). Podemos asignar entonces a cada suceso elemental del experimento el nmero de caras obtenidas. De este modo se definira la variable aleatoria X como la funcin
dada por
Variable aleatoria
37
2. Es continua por la derecha. 3. Es montona no decreciente. La distribucin de probabilidad de una v.a. describe tericamente la forma en que varan los resultados de un experimento aleatorio. Intuitivamente se tratara de una lista de los resultados posibles de un experimento con las probabilidades que se esperaran ver asociadas con cada resultado.
Variable aleatoria
38
La funcin de densidad de una v.a. determina la concentracin de probabilidad alrededor de los valores de una variable aleatoria continua.
sea una funcin medible de Lebesgue. El mismo procedimiento que permite ir de un espacio de puede ser utilizado para obtener la distribucin de
probabilidad acumulada de
Si la funcin g es invertible, es decir g-1 existe, y es montona creciente, entonces la anterior relacin puede ser extendida para obtener
y, trabajando de nuevo bajo las mismas hiptesis de invertibilidad de g y asumiendo adems diferenciabilidad, podemos hallar la relacin entre las funciones de densidad de probabilidad al diferenciar ambos trminos respecto de y, obteniendo . Si g no es invertible pero cada y tiene un nmero finito de races, entonces la relacin previa con la funcin de densidad de probabilidad puede generalizarse como
Ejemplo
Sea X una variable aleatoria real continua y sea Y = X2. Si y < 0, entonces P(X2 = y) = 0, por lo tanto
Si y = 0, entonces
por lo tanto
Variable aleatoria
39
Esperanza
La esperanza matemtica (o simplemente esperanza) o valor esperado de una v.a. es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Si todos los sucesos son de igual probabilidad la esperanza es la media aritmtica. Para una variable aleatoria discreta con valores posibles funcin de probabilidad la esperanza se calcula como: y sus probabilidades representadas por la
Para una variable aleatoria continua la esperanza se calcula mediante la integral de todos los valores y la funcin de densidad :
o La esperanza tambin se suele simbolizar con El concepto de esperanza se asocia comnmente en los juegos de azar al de beneficio medio o beneficio esperado a largo plazo.
Varianza
La varianza es una medida de dispersin de una variable aleatoria como la esperanza de la transformacin o bien : respecto a su esperanza . Se define
Referencias
[1] http:/ / www. hrc. es/ bioest/ estadis_21. html Definicin de variable aleatoria. Esta definicin no es en absoluto rigurosa, ya que no define una variable aleatoria, sino cualquier funcin real. Es de remarcar que en la referencia no se dice en ningn momento que eso sea una definicin. Sin embargo, en la mayora de las aplicaciones prcticas, es suficiente. [2] La definicin rigurosa de variable aleatoria exige dotar a [3] [4] [5] [6] de estructura de espacio medible e imponer a X la condicin de ser funcin medible (vase la definicin formal de variable aleatoria, en este mismo artculo). http:/ / planetmath. org/ encyclopedia/ DiscreteRandomVariable. html http:/ / mathworld. wolfram. com/ RandomVariable. html Vase conjunto finito para una definicin ms rigurosa En experimentos reales la continuidad de una variable es rarsima, ya que la escasa precisin de los instrumentos de medida obliga a un conjunto discreto de valores posibles.
Variable aleatoria
40
Bibliografa
Pea Snchez de Rivera, Daniel (2008). Fundamentos de Estadstica (1 edicin). Alianza Editorial. pp.688. ISBN 9788420683805. Ropero Moriones, Eva (2009). Manual de estadstica empresarial (1 edicin). Delta Publicaciones. pp.200. ISBN 9788492453214.
Enlaces externos
Wikimedia Commons alberga contenido multimedia sobre Variable aleatoriaCommons.
Varianza
En teora de probabilidad, la varianza (que suele representarse como ) de una variable aleatoria es una medida de dispersin definida como la esperanza del cuadrado de la desviacin de dicha variable respecto a su media. Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviacin estndar, es la raz cuadrada de la varianza, es una medida de dispersin alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mnimo 0. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin ms robustas. El trmino varianza fue acuado por Ronald Fisher en un artculo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance.
Definicin
Dada una variable aleatoria X con media = E(X), se define su varianza, Var(X) (tambin representada como simplemente ), como
2
o,
Si una distribucin no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su ndice k satisface 1 < k 2.
Varianza
41
Caso continuo
Si la variable aleatoria X es continua con funcin de densidad f(x), entonces
donde
Caso discreto
Si la variable aleatoria X es discreta con pesos x1p1,...,xnpn, entonces
donde .
Ejemplos
Distribucin exponencial
La distribucin exponencial de parmetro es una distribucin continua con soporte en el intervalo [0,) y funcin de densidad Tiene media = 1. Por lo tanto, su varianza es:
Es decir, 2 = 2.
Dado perfecto
Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3,5. Por lo tanto, su varianza es:
Propiedades de la varianza
Algunas propiedades de la varianza son: siendo a y b nmeros reales cualesquiera. De esta propiedad se deduce que la varianza de una constante es cero, es decir, , donde Cov(X,Y) es la covarianza de X e Y. , donde Cov(X,Y) es la covarianza de X e Y.
Varianza
42
Varianza muestral
En muchas situaciones es preciso estimar la varianza de una poblacin a partir de una muestra. Si se toma una muestra con reemplazamiento de n valores de ella, de entre todos los estimadores posibles de la varianza de la poblacin de partida, existen dos de uso corriente:
A los dos (cuando est dividido por n y cuando lo est por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la poblacin y el segundo es un estimador insesgado de la varianza de la poblacin. De hecho,
mientras que
condiciones necesarias para la ley de los grandes nmeros, s es un estimador consistente de Ms an, cuando las muestras siguen una distribucin normal, por el teorema de Cochran, chi-cuadrado:
Varianza
43
Enlaces externos
[1]Simulacin de la varianza de una variable discreta con R (lenguaje de programacin)
Referencias
[1] http:/ / cajael. com/ mestadisticos/ T1EDescriptiva/ node6. php
Definicin
Funcin de densidad de probabilidad para la distribucin normal. Una funcin de densidad de probabilidad (FDP) es una funcin matemtica que caracteriza el comportamiento probable de una poblacin. Es una funcin f(x) que especifica la posibilidad relativa de que una variable aleatoria continua X tome un valor cercano a x, y se define como la probabilidad de que X tome un valor entre x y x+dx, dividido por dx, donde dx es un nmero infinitesimalmente pequeo. La mayora de las funciones de densidad de probabilidad requieren uno o ms parmetros para especificarlas totalmente.
La probabilidad de que una variable aleatoria continua X est ubicada entre los valores a y b est dada por el intervalo de la FDP, f(x), comprendido en el rango entre a y b. < = a b Pr(a x b) f (x)dx La FDP es la derivada (cuando existe) de la funcin de distribucin: f x dF x dx ( ) = ( ) En situaciones prcticas, la FDP utilizada se elige entre un nmero relativamente pequeo de FDP comunes, y la labor estadstica principal consiste en estimar sus parmetros. Por lo tanto, a los efectos de los inventarios, es necesario saber qu FDP se ha utilizado e indicarlo en la documentacin de evaluacin de la incertidumbre. La definicin formal de la funcin de densidad requiere de conceptos de la teora de la medida. Si una variable aleatoria X sigue una funcin de probabilidad X*P su densidad con respecto a una medida de referencia es la derivada de RadonNikodym
para cada conjunto medible A. Hay que advertir que la funcin de densidad no es propiamente nica: dos funciones distintas pueden representar la misma distribucin de probabilidad si son distintas nicamente en un conjunto de medida nula. Adems, que puede haber distribuciones de probabilidad que carezcan de funcin de densidad: sucede cuando, sin ser discretas,
Funcin de densidad de probabilidad concentran su probabilidad en conjuntos de medida nula; as sucede con la distribucin de Cantor cuando se toma la de Lebesgue como medida de referencia. Cuando, como ocurre normalmente en las aplicaciones, X es una variable aleatoria real y es la medida de Lebesgue, la funcin de densidad es una funcin tal que
44
Intuitivamente, se puede pensar que (x)dx es la probabilidad de que X asuma valores en el intervalo infinitesimal [x,x+dx].
Propiedades
De las propiedades de la funcin de distribucin se siguen las siguientes propiedades de la fdp (a veces visto como pdf [1] del ingls): para toda . El rea total encerrada bajo la curva es igual a 1:
La probabilidad de que
en ese intervalo o lo que es lo mismo, la integral definida en dicho intervalo. La grfica f(x) se conoce a veces como curva de densidad.
Enlaces externos
[2] Simulacin de la obtencin de la probabilidad en un intervalo a partir de la funcin de densidad de una variable continua con R (lenguaje de programacin)
Referencias
[1] http:/ / en. wikipedia. org/ wiki/ Probability_density_function [2] http:/ / cajael. com/ mestadisticos/ T3VAleatorias/ node2. php
Probabilidad
45
Probabilidad
La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teora de la probabilidad se usa extensamente en reas como la estadstica, la fsica, la matemtica, la ciencia y la filosofa para sacar conclusiones sobre la probabilidad discreta de sucesos potenciales y la mecnica subyacente discreta de sistemas complejos.
Historia
El diccionario de la Real Academia Espaola define azar como una casualidad, un caso fortuito, y afirma que la expresin al azar significa sin orden.[1] La idea de Probabilidad est ntimamente ligada a la idea de azar y nos ayuda a comprender nuestras posibilidades de ganar un juego de azar o analizar las encuestas. Pierre-Simon Laplace afirm: "Es notable que una ciencia que comenz con consideraciones sobre juegos de azar haya llegado a el objeto ms importante del conocimiento humano". Comprender y estudiar el azar es indispensable, porque la probabilidad es un soporte necesario para tomar decisiones en cualquier mbito.[2] Segn Amanda Dure, "Antes de la mitad del siglo XVII, trmino 'probable' (en latn probable) significaba aprobable, y se aplicaba en ese sentido, unvocamente, a la opinin y a la accin. Una accin u opinin probable era una que las personas sensatas emprenderan o mantendran, en las circunstancias."[3] Aparte de algunas consideraciones elementales hechas por Girolamo Cardano en el siglo XVI, la doctrina de las probabilidades data de la correspondencia de Pierre de Fermat y Blaise Pascal (1654). Christiaan Huygens (1657) le dio el tratamiento cientfico conocido ms temprano al concepto. Ars Conjectandi (pstumo, 1713) de Jakob Bernoulli y Doctrine of Chances (1718) de Abraham de Moivre trataron el tema como una rama de las matemticas. Vase El surgimiento de la probabilidad (The Emergence of Probability) de Ian Hacking para una historia de los inicios del desarrollo del propio concepto de probabilidad matemtica. La teora de errores puede trazarse atrs en el tiempo hasta Opera Miscellanea (pstumo, 1722) de Roger Cotes, pero una memoria preparada por Thomas Simpson en 1755 (impresa en 1756) aplic por primera vez la teora para la discusin de errores de observacin. La reimpresin (1757) de esta memoria expone los axiomas de que los errores positivos y negativos son igualmente probables, y que hay ciertos lmites asignables dentro de los cuales se supone que caen todos los errores; se discuten los errores continuos y se da una curva de la probabilidad. Pierre-Simon Laplace (1774) hizo el primer intento para deducir una regla para la combinacin de observaciones a partir de los principios de la teora de las probabilidades. Represent la ley de la probabilidad de error con una curva , siendo cualquier error e y su probabilidad, y expuso tres propiedades de esta curva: 1. es simtrica al eje ; 2. el eje es una asntota, siendo la probabilidad del error igual a 0; 3. la superficie cerrada es 1, haciendo cierta la existencia de un error. Dedujo una frmula para la media de tres observaciones. Tambin obtuvo (1781) una frmula para la ley de facilidad de error (un trmino debido a Lagrange, 1774), pero una que llevaba a ecuaciones inmanejables. Daniel Bernoulli (1778) introdujo el principio del mximo producto de las probabilidades de un sistema de errores concurrentes. El mtodo de mnimos cuadrados se debe a Adrien-Marie Legendre (1805), que lo introdujo en su Nouvelles mthodes pour la dtermination des orbites des comtes (Nuevos mtodos para la determinacin de las rbitas de los cometas). Ignorando la contribucin de Legendre, un escritor irlands estadounidense, Robert Adrain, editor de "The Analyst" (1808), dedujo por primera vez la ley de facilidad de error,
Probabilidad siendo y constantes que dependen de la precisin de la observacin. Expuso dos demostraciones, siendo la
46
segunda esencialmente la misma de John Herschel (1850). Gauss expuso la primera demostracin que parece que se conoci en Europa (la tercera despus de la de Adrain) en 1809. Demostraciones adicionales se expusieron por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W. F. Donkin (1844, 1856) y Morgan Crofton (1870). Otros personajes que contribuyeron fueron Ellis (1844), De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La frmula de Peters (1856) para , el error probable de una nica observacin, es bien conocida. En el siglo XIX, los autores de la teora general incluan a Laplace, Sylvestre Lacroix (1816), Littrow (1833), Adolphe Quetelet (1853), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion, y Karl Pearson. Augustus De Morgan y George Boole mejoraron la exposicin de la teora. En 1930 Andri Kolmogorov desarroll la base axiomtica de la probabilidad utilizando teora de la medida. En la parte geomtrica (vase geometra integral) los colaboradores de The Educational Times fueron influyentes (Miller, Crofton, McColl, Wolstenholme, Watson y Artemas Martin).
Vase tambin: Estadstica
Teora
La probabilidad constituye un importante parmetro en la determinacin de las diversas casualidades obtenidas tras una serie de eventos esperados dentro de un rango estadstico. Existen diversas formas como mtodo abstracto, como la teora Dempster-Shafer y la teora de la relatividad numrica, esta ltima con un alto grado de aceptacin si se toma en cuenta que disminuye considerablemente las posibilidades hasta un nivel mnimo ya que somete a todas las antiguas reglas a una simple ley de relatividad.[citarequerida] La probabilidad de un evento se denota con la letra p y se expresa en trminos de una fraccin y no en porcentajes, por lo que el valor de p cae entre 0 y 1. Por otra parte, la probabilidad de que un evento "no ocurra" equivale a 1 menos el valor de p y se denota con la letra q:
Los tres mtodos para calcular las probabilidades son la regla de la adicin, la regla de la multiplicacin y la distribucin binomial.
Regla de la adicin
La regla de la adicin o regla de la suma establece que la probabilidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo. P(A o B) = P(A) U P(B) = P(A) + P(B) si A y B son mutuamente excluyente. P(A o B) = P(A) + P(B) P(A y B) si A y B son no excluyentes. Siendo: P(A) = probabilidad de ocurrencia del evento A. P(B) = probabilidad de ocurrencia del evento B. P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B.
Probabilidad
47
Regla de la multiplicacin
La regla de la multiplicacin establece que la probabilidad de ocurrencia de dos o ms eventos estadsticamente independientes es igual al producto de sus probabilidades individuales. P(A y B) = P(A B) = P(A)P(B) si A y B son independientes. P(A y B) = P(A B) = P(A)P(B|A) si A y B son dependientes
Distribucin binomial
La probabilidad de ocurrencia de una combinacin especfica de eventos independientes y mutuamente excluyentes se determina con la distribucin binomial, que es aquella donde hay solo dos posibilidades, tales como masculino/femenino o si/no. 1. Hay dos resultados posibles mutuamente excluyentes en cada ensayo u observacin. 2. La serie de ensayos u observaciones constituyen eventos independientes. 3. La probabilidad de xito permanece constante de ensayo a ensayo, es decir el proceso es estacionario. Para aplicar esta distribucin al calculo de la probabilidad de obtener un nmero dado de xitos en una serie de experimentos en un proceso de Bermnoulli, se requieren tres valores: el nmero designado de xitos (m), el nmero de ensayos y observaciones (n); y la probabilidad de xito en cada ensayo (p). Entonces la probabilidad de que ocurran m xitos en un experimento de n ensayos es: P (x = m) = (nCm)(Pm)(1P)nm Siendo: nCm el nmero total de combinaciones posibles de m elementos en un conjunto de n elementos. En otras palabras P(x = m) = [n!/(m!(nm)!)](pm)(1p)nm Ejemplo. La probabilidad de que un alumno apruebe la asignatura Clculo de Probabilidades es de 0,15. Si en un semestre intensivo se inscriben 15 alumnos Cul es la probabilidad de que aprueben 10 de ellos? P(x = 10) = 15C10(0,15)10(0,85)5 = 10!/(10!(1510)!)(0,15)10(0,85)5 = 7,68 * 106 Generalmente existe un inters en la probabilidad acumulada de "m o ms " xitos o "m o menos" xitos en n ensayos. En tal caso debemos tomar en cuenta que: P(x < m) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) +....+ P(x = m 1) P(x > m) = P(x = m+ 1) + P(x = m+ 2) + P(x = m+3) +....+ P(x = n) P(x m) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) +....+ P(x = m) P(x m) = P(x = m) + P(x = m+1) + P(x = m+2) +....+ P(x = n) Supongamos que del ejemplo anterior se desea saber la probabilidad de que aprueben: a. al menos 5 b. mas de 12 a. la probabilidad de que aprueben al menos 5 es: P(x 5) es decir, que: 1 - P(x < 5) = 1 - [P(x = 0)+P(x = 1)+P(x = 2)+P(x = 3)+P(x = 4)] = 1 - [0,0874 + 0,2312 + 0,2856 + 0,2184 + 0,1156] = 0,0618 Nota: Al menos, a lo menos y por lo menos son locuciones adverbiales sinnimas. Ejemplo: La entrada al cine por lo menos tendr un costo de 10 soles (como mnimo podra costar 10 soles o ms). b. la probabilidad de que aprueben mas de 12 es P(x > 12) es decir, que: P(x > 12) = P(x = 13)+P(x = 14)+P(x = 15) P(x > 12) = 1,47 *109 +3,722 *1011 +4,38 *1013 = 1,507 *109 La esperanza matemtica en una distribucin binomial puede expresarse como: E(x) = np = 15(0,15)=2,25 Y la varianza del nmero esperado de xitos se puede calcular directamente: Var(x) = np(1p)= 15(0,15)(1-0,15)=1,9125
Probabilidad
48
Aplicaciones
Dos aplicaciones principales de la teora de la probabilidad en el da a da son en el anlisis de riesgo y en el comercio de los mercados de materias primas. Los gobiernos normalmente aplican mtodos probabilsticos en regulacin ambiental donde se les llama "anlisis de vas de dispersin", y a menudo miden el bienestar usando mtodos que son estocsticos por naturaleza, y escogen qu proyectos emprender basndose en anlisis estadsticos de su probable efecto en la poblacin como un conjunto. No es correcto decir que la estadstica est incluida en el propio modelado, ya que tpicamente los anlisis de riesgo son para una nica vez y por lo tanto requieren ms modelos de probabilidad fundamentales, por ej. "la probabilidad de otro 11-S". Una ley de nmeros pequeos tiende a aplicarse a todas aquellas elecciones y percepciones del efecto de estas elecciones, lo que hace de las medidas probabilsticas un tema poltico. Un buen ejemplo es el efecto de la probabilidad percibida de cualquier conflicto generalizado sobre los precios del petrleo en Oriente Medio - que producen un efecto domin en la economa en conjunto. Un clculo por un mercado de materias primas en que la guerra es ms probable en contra de menos probable probablemente enva los precios hacia arriba o hacia abajo e indica a otros comerciantes esa opinin. Por consiguiente, las probabilidades no se calculan independientemente y tampoco son necesariamente muy racionales. La teora de las finanzas conductuales surgi para describir el efecto de este pensamiento de grupo en el precio, en la poltica, y en la paz y en los conflictos. Se puede decir razonablemente que el descubrimiento de mtodos rigurosos para calcular y combinar los clculos de probabilidad ha tenido un profundo efecto en la sociedad moderna. Por consiguiente, puede ser de alguna importancia para la mayora de los ciudadanos entender cmo se calculan los pronsticos y las probabilidades, y cmo contribuyen a la reputacin y a las decisiones, especialmente en una democracia. Otra aplicacin significativa de la teora de la probabilidad en el da a da es en la fiabilidad. Muchos bienes de consumo, como los automviles y la electrnica de consumo, utilizan la teora de la fiabilidad en el diseo del producto para reducir la probabilidad de avera. La probabilidad de avera tambin est estrechamente relacionada con la garanta del producto. Se puede decir que no existe una cosa llamada probabilidad. Tambin se puede decir que la probabilidad es la medida de nuestro grado de incertidumbre, o esto es, el grado de nuestra ignorancia dada una situacin. Por consiguiente, puede haber una probabilidad de 1 entre 52 de que la primera carta en un baraja sea la J de diamantes. Sin embargo, si uno mira la primera carta y la reemplaza, entonces la probabilidad es o bien 100% 0%, y la eleccin correcta puede ser hecha con precisin por el que ve la carta. La fsica moderna proporciona ejemplos importantes de situaciones determinsticas donde slo la descripcin probabilstica es factible debido a informacin incompleta y la complejidad de un sistema as como ejemplos de fenmenos realmente aleatorios. En un universo determinista, basado en los conceptos newtonianos, no hay probabilidad si se conocen todas las condiciones. En el caso de una ruleta, si la fuerza de la mano y el periodo de esta fuerza es conocido, entonces el nmero donde la bola parar ser seguro. Naturalmente, esto tambin supone el conocimiento de la inercia y la friccin de la ruleta, el peso, lisura y redondez de la bola, las variaciones en la velocidad de la mano durante el movimiento y as sucesivamente. Una descripcin probabilstica puede entonces ser ms prctica que la mecnica newtoniana para analizar el modelo de las salidas de lanzamientos repetidos de la ruleta. Los fsicos se encuentran con la misma situacin en la teora cintica de los gases, donde el sistema determinstico en principio, es tan complejo (con el nmero de molculas tpicamente del orden de magnitud de la constante de Avogadro ) que slo la descripcin estadstica de sus propiedades es viable. La mecnica cuntica, debido al principio de indeterminacin de Heisenberg, slo puede ser descrita actualmente a travs de distribuciones de probabilidad, lo que le da una gran importancia a las descripciones probabilsticas. Algunos cientficos hablan de la expulsin del paraso.[citarequerida] Otros no se conforman con la prdida del determinismo. Albert Einstein coment estupendamente en una carta a Max Born: Jedenfalls bin ich berzeugt, da der Alte nicht wrfelt. (Estoy convencido de que Dios no tira el dado). No obstante hoy en da no existe un medio
Probabilidad mejor para describir la fsica cuntica si no es a travs de la teora de la probabilidad. Mucha gente hoy en da confunde el hecho de que la mecnica cuntica se describe a travs de distribuciones de probabilidad con la suposicin de que es por ello un proceso aleatorio, cuando la mecnica cuntica es probabilstica no por el hecho de que siga procesos aleatorios sino por el hecho de no poder determinar con precisin sus parmetros fundamentales, lo que imposibilita la creacin de un sistema de ecuaciones determinista.
49
Investigacin biomdica
Vase tambin: Muestreo en estadstica
La mayora de las investigaciones biomdicas utilizan muestras de probabilidad, es decir, aquellas que el investigador pueda especificar la probabilidad de cualquier elemento en la poblacin que investiga. Las muestras de probabilidad permiten usar estadsticas inferenciales, aquellas que permiten hacer inferencias a partir de datos. Por otra parte, las muestras no probabilsticas solo permiten usarse estadsticas descriptivas, aquellas que solo permiten describir, organizar y resumir datos. Se utilizan cuatro tipos de muestras probabilsticas: muestras aleatorias simples, muestras aleatorias estratificadas, muestra por conglomerados y muestras sistemticas.
Referencias
[1] azar (http:/ / buscon. rae. es/ draeI/ SrvltConsulta?TIPO_BUS=3& LEMA=azar), Diccionario de la lengua espaola (vigsima segunda edicin), Real Academia Espaola, 2001, . [2] Historia de la Probabilidad (http:/ / www. estadisticaparatodos. es/ historia/ histo_proba. html). estadisticaparatodos.es. [3] Jeffrey, R.C., Probability and the Art of Judgment, Cambridge University Press. (1992). pp. 54-55. ISBN 0-521-39459-7
Enlaces externos
Wikilibros Wikilibros alberga un libro o manual sobre Probabilidades. Edwin Thompson Jaynes. Probability Theory: The Logic of Science. Preprint: Washington University, (1996). HTML (http://omega.albany.edu:8008/JaynesBook.html) y PDF (http://bayes.wustl.edu/etj/prob/book. pdf) (en ingls)
Teora de la probabilidad
50
Teora de la probabilidad
La teora de la probabilidad es la parte de las matemticas que estudia los fenmenos aleatorios estocsticos. Estos deben contraponerse a los fenmenos determinsticos, los cuales son resultados nicos y/o previsibles de experimentos realizados bajo las mismas condiciones determinadas, por ejemplo, si se calienta agua a 100 grados Celsius a nivel del mar se obtendr vapor. Los fenmenos aleatorios, por el contrario, son aquellos que se obtienen como resultado de experimentos realizados, otra vez, bajo las mismas condiciones determinadas pero como resultado posible poseen un conjunto de alternativas, por ejemplo, el lanzamiento de un dado o de una moneda. Muchos fenmenos naturales son aleatorios, pero existen algunos como el lanzamiento de un dado, donde el fenmeno no se repite en las mismas condiciones, debido a que la caractersticas del material hace que no exista una simetra del mismo, as las repeticiones no garantizan una probabilidad definida. En los procesos reales que se modelizan mediante distribuciones de probabilidad corresponden a modelos complejos donde no se conocen a priori todos los parmetros que intervienen; sta es una de las razones por las cuales la estadstica, que busca determinar estos parmetros, no se reduce inmediatamente a la teora de la probabilidad en s. En 1933, el matemtico sovitico Andri Kolmogrov propuso un sistema de axiomas para la teora de la probabilidad, basado en la teora de conjuntos y en la teora de la medida, desarrollada pocos aos antes por Lebesgue, Borel y Frechet entre otros. Esta aproximacin axiomtica que generaliza el marco clsico de la probabilidad, la cual obedece a la regla de clculo de casos favorables sobre casos posibles, permiti la rigorizacin de muchos argumentos ya utilizados, as como el estudio de problemas fuera de los marcos clsicos. Actualmente, la teora de la probabilidad encuentra aplicacin en las ms variadas ramas del conocimiento, como puede ser la fsica (donde corresponde mencionar el desarrollo de las difusiones y el movimiento Browniano), o las finanzas (donde destaca el modelo de Black y Scholes para la valuacin de acciones).
Teora de la probabilidad
51
La probabilidad es un nmero (valor) que varia entre 0 y 1. Cuando el evento es imposible se dice que su probabilidad es 0, si el evento es cierto y siempre tiene que ocurrir su probabilidad es 1. La probabilidad de no ocurrencia de un evento est dada por q, donde:
Sabemos que p es la probabilidad de que ocurra un evento y q es la probabilidad de que no ocurra, entonces p + q = 1 Simblicamente el espacio de resultados, que normalmente se denota por resultados que son posibles. Los resultados, que se denota por , es el espacio que consiste en todos los . , etctera, son elementos del espacio
Probabilidad discreta
Este tipo de probabilidad, es aquel que puede tomar slo ciertos valores diferentes que son el resultado de la cuenta de alguna caracterstica de inters.
Probabilidad continua
Una variable aleatoria es una funcin medible
Funcin de densidad
La funcin de densidad, o densidad de probabilidad de una variable aleatoria, es una funcin a partir de la cual se obtiene la probabilidad de cada valor que toma la variable. Su integral en el caso de variables aleatorias continuas es la distribucin de probabilidad. En el caso de variables aleatorias discretas la distribucin de probabilidad se obtiene a travs del sumatorio de la funcin de densidad.
Bibliografa
Spiegel, Murray. 1970. Estadstica, McGraw-Hill, Mxico. Olav Kallenberg, Probabilistic Symmetries and Invariance Principles. Springer-Verlag, New York (2005). 510 pp. ISBN 0-387-25115-4 Kallenberg, O., Foundations of Modern Probability, 2nd ed. Springer Series in Statistics. (2002). 650 pp. ISBN 0-387-95313-2
Teora de la probabilidad
52
Enlaces externos
Wikimedia Commons alberga contenido multimedia sobre Teora de la probabilidad. Commons
Distribucin binomial
Distribucin binomial
Funcin de probabilidad
Funcin de distribucin de probabilidad Parmetros nmero de ensayos (entero) probabilidad de xito (real) Dominio Funcin de probabilidad (fp)
Funcin de distribucin (cdf) Media Mediana Moda Varianza Coeficiente de simetra Uno de [1]
Distribucin binomial
53
Curtosis
En estadstica, la distribucin binomial es una distribucin de probabilidad discreta que mide el nmero de xitos en una secuencia de n ensayos de Bernoulli independientes entre s, con una probabilidad fija p de ocurrencia del xito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotmico, esto es, slo son posibles dos resultados. A uno de estos se denomina xito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribucin binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado nmero de xitos. Para n = 1, la binomial se convierte, de hecho, en una distribucin de Bernoulli. Para representar que una variable aleatoria X sigue una distribucin binomial de parmetros n y p, se escribe:
Ejemplos
Las siguientes situaciones son ejemplos de experimentos que pueden modelizarse por esta distribucin: Se lanza un dado diez veces y se cuenta el nmero X de treses obtenidos: entonces X ~ B(10, 1/6) Se lanza una moneda dos veces y se cuenta el nmero X de caras obtenidas: entonces X ~ B(2, 1/2) Una partcula se mueve unidimensionalmente con probabilidad q de moverse de aqui para all y 1-q de moverse de all para ac
Experimento binomial
Existen muchas situaciones en las que se presenta una experiencia binomial. Cada uno de los experimentos es independiente de los restantes (la probabilidad del resultado de un experimento no depende del resultado del resto). El resultado de cada experimento ha de admitir slo dos categoras (a las que se denomina xito y fracaso). Las probabilidades de ambas posibilidades han de ser constantes en todos los experimentos (se denotan como p y q o p y 1-p). Se designa por X a la variable que mide el nmero de xitos que se han producido en los n experimentos. Cuando se dan estas circunstancias, se dice que la variable X sigue una distribucin de probabilidad binomial, y se denota B(n,p).
Distribucin binomial
54
Caractersticas analticas
Su funcin de probabilidad es
Ejemplo
Supongamos que se lanza un dado 50 veces y queremos la probabilidad de que el nmero 3 salga 20 veces. En este caso tenemos una X ~ B(50, 1/6) y la probabilidad sera P(X=20):
Propiedades
Por ltimo, se cumple que cuando n es muy grande (usualmente se exige que
Propiedades reproductivas
Dadas n variables binomiales independientes, de parmetros ni (i = 1,..., n) y binomial, de parmetros n1+... + nn, y , es decir, , su suma es tambin una variable
Referencias
[1] Hamza, K. (1995). The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statist. Probab. Lett. 23 2125.
Enlaces externos
Calculadora Distribucin binomial (http://www.stud.feec.vutbr.cz/~xvapen02/vypocty/bi. php?language=espanol) (http://cajael.com/mestadisticos/T6DDiscretas/node2.php) Clculo de la probabilidad de una distribucin binomial con R (lenguaje de programacin)
R (lenguaje de programacin)
55
R (lenguaje de programacin)
R
Desarrollador R Development Core Team [1] www.r-project.org Informacin general ltima versin estable 2.14.2 29 de febrero de 2012 Gnero Sistema operativo Licencia En espaol Software matemtico Multiplataforma GPL
R es un lenguaje y entorno de programacin para anlisis estadstico y grfico. Se trata de un proyecto de software libre, resultado de la implementacin GNU del premiado lenguaje S. R y S-Plus -versin comercial de S- son, probablemente, los dos lenguajes ms utilizados en investigacin por la comunidad estadstica, siendo adems muy populares en el campo de la investigacin biomdica, la bioinformtica y las matemticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades especficas de clculo o grfico. R se distribuye bajo la licencia GNU GPL y est disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.
Historia
Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadstica de la Universidad de Auckland en 1993.[2] Su desarrollo actual es responsabilidad del R Development Core Team. A continuacin se enumeran algunos hitos en el desarrollo de R: Versin 0.16: Es la ltima versin alfa desarrollada esencialmente por Ihaka y Gentleman, que incluye gran parte de las caractersticas descritas en el "White Book". La lista de correo comenz su andadura el 1 de abril de 1997. Versin 0.49 del 23 de abril de 1997: Es la versin ms antigua de la que se conserva el cdigo (que todava compila en algunas plataformas UNIX). En esta fecha arranc tambin CRAN con tres espejos que albergaban 12 paquetes. Poco despus aparecieron las versiones alfa para Windows y Mac OS. Versin 0.60 del 5 de diciembre de 1997: R se integra oficialmente en el Proyecto GNU. El cdigo se versiona a travs de CVS. Versin 1.0.0 del 29 de febrero de 2000: Los desarrolladores lo consideran suficientemente estable para su uso en produccin.[3] Versin 1.4.0: Se introducen los mtodos S4 y aparece la primera versin para Mac OS X. Versin 2.0.0: Introduce el lazy loading, que permite una carga rpida de datos con un coste de memoria mnimo.
R (lenguaje de programacin) Versin 2.1.0: Aparece el soporte para UTF-8 y comienzan los esfuerzos de internacionalizacin para distintos idiomas. Versin 2.9.0: El paquete 'Matrix' se incluye en la distribucin bsica de R.
56
Caractersticas
R proporciona un amplio abanico de herramientas estadsticas (modelos lineales y no lineales, tests estadsticos, anlisis de series temporales, algoritmos de clasificacin y agrupamiento, etc.) y grficas. Al igual que S, se trata de un lenguaje de programacin, lo que permite que los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran parte de las funciones de R estn escritas en el mismo R, aunque para algoritmos computacionalmente exigentes es posible desarrollar bibliotecas en C, C++ o Fortran que se cargan dinmicamente. Los usuarios ms avanzados pueden tambin manipular los objetos de R directamente desde cdigo desarrollado en C. R tambin puede extenderse a travs de paquetes desarrollados por su comunidad de usuarios. R hereda de S su orientacin a objetos. La tarea de extender R se ve facilitada por su permisiva poltica de lexical scoping.[4] Adems, R puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilizacin desde lenguajes de programacin interpretados como Perl y Python. Otra de las caractersticas de R es su capacidad grfica, que permite generar grficos con alta calidad. R posee su propio formato para la documentacin basado en LaTeX. R tambin puede usarse como herramienta de clculo numrico, campo en el que puede ser tan eficaz como otras herramientas especficas tales como GNU Octave y su versin comercial, MATLAB.[5] Se ha desarrollado una interfaz, RWeka[6] para interactuar con Weka que permite leer y escribir ficheros en el formato arff y enriquecer R con los algoritmos de minera de datos de dicha plataforma.
Extensiones y paquetes
R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden publicar paquetes que extienden su configuracin bsica. Existe un repositorio oficial de paquetes [7] cuyo nmero super en otoo de 2009 la cifra de los 2000. Dado el enorme nmero de nuevos paquetes, stos se han organizado en vistas (o temas) [8], que permiten agruparlos segn su naturaleza y funcin. Por ejemplo, hay grupos de paquetes relacionados con estadstica bayesiana, econometra, series temporales, etc. Para facilitar el desarrollo de nuevos paquetes, se ha puesto a servicio de la comunidad una forja de desarrollo [9] que facilita las tareas relativas a dicho proceso.
R (lenguaje de programacin)
57
Proyectos relacionados
Bioconductor, un conjunto de paquetes para el anlisis de datos en genmica. Rmetrics, orientado al anlisis de los mercados financieros y la valoracin de instrumentos de inversin.
Herramientas de productividad
Existen diversas interfaces que facilitan el trabajo con R.
Interfaces grficas
JGR o Java GUI for R, una terminal de R multiplataforma basada en Java R Commander (Rcmdr), una interfaz grfica multiplataforma basada en tcltk RExcel, que permite usar R y Rcmdr desde Microsoft Excel rggobi, una interfaz a GGobi para visualizacin RKWard, basado en KDE Sage Statistical Lab nexusBPM, una herramienta de automatizacin
Rstudio
Editores e IDEs
Entre los editores de texto e IDEs con soporte para R se cuentan: Bluefish,[10] Crimson Editor, ConTEXT, Eclipse,[11] Emacs (Emacs Speaks Statistics), Geany, jEdit,[12] Kate,[13] RStudio,[14] RKWard,[15] Syn, TextMate, Tinn-R, Vim, gedit, SciTE, WinEdt (R Package RWinEdt) y notepad++.[16] Sweave es un procesador de documentos que puede ejecutar cdigo de R incrustado en cdigo de LaTeX y para insertar cdigo, resultados y grficos en el documento escrito en LaTeX. LyX puede usarse para crear y compilar documentos desarrollados en Sweave. El paquete odfWeave es similar, generando documentos en el formato OpenDocument (ODF); extensiones en estado experimental tambin permiten generar documentos del tipo presentacin u hoja de clculo.
Lenguajes de script
La funcionalidad de R puede ser invocada desde cdigo desarrollado en otros lenguajes de script tales como Python (mediante RPy[17]) y Perl (mediante Statistics::R[18]). Tambin pueden desarrollarse scripts en R directamente usando littler[19] o Rscript, que forma parte de la distribucin bsica de R desde la versin 2.5.0.
Alternativas comerciales
S-Plus SPSS [20] Minitab SAS Statistica
R (lenguaje de programacin)
58
Enlaces externos
Wikimedia Commons alberga contenido multimedia sobre R (lenguaje de programacin). Commons Pgina oficial [1] The R Reference Manual - Base Package [21], R Development Core Team. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) Coleccin de paquetes en CRAN (Comprehensive R Archive Network) [22] R-Wiki [23] Interfaz Web para R [24] R Graph Gallery [25], una coleccin de grficos creados con R. Proyecto R UCA [26], Universidad de Cdiz
Documentacin en espaol
R para Principiantes [27], la versin en espaol de R for Beginners, traducido por Jorge A. Ahumada (PDF). Versin en espaol de An Introduction to R [28] por Andrs Gonzlez y Silvia Gonzlez (PDF). Estadstica Bsica con R y R-Commander [29] (libro libre) Grficos Estadsticos con R [30] por Juan Carlos Correa y Nelfi Gonzlez (PDF). Cartas sobre Estadstica de la Revista Argentina de Bioingeniera [31] por Marcelo R. Risk (PDF).
Introduccin al uso y programacin del sistema estadstico R [32] por Ramn Daz-Uriarte, transparencias preparadas para un curso de 16 horas sobre R, dirigido principalmente a bilogos y especialistas en bioinformtica (PDF). Lista de correo R-help-es en espaol [33] Lista de correo oficial de R en espaol.
Referencias
[1] http:/ / www. r-project. org/ [2] A Brief History (http:/ / cran. r-project. org/ doc/ html/ interface98-paper/ paper_2. html) R : Past and Future History, Ross Ihaka, Statistics Department, The University of Auckland, Auckland, New Zealand, available from the CRAN website [3] Peter Dalgaard. R-1.0.0 is released (https:/ / stat. ethz. ch/ pipermail/ r-announce/ 2000/ 000127. html). Consultado el 06-06-2009. [4] Jackman, Simon (Spring 2003). R For the Political Methodologist (http:/ / polmeth. wustl. edu/ tpm/ tpm_v11_n2. pdf) (PDF). The Political Methodologist (Political Methodology Section, American Political Science Association) 11 (1): pp.2022. . [5] Speed comparison of various number crunching packages (version 2) (http:/ / www. sciviews. org/ benchmark). SciView. Consultado el 03-11-2007. [6] RWeka: An R Interface to Weka. R package version 0.3-17 (http:/ / CRAN. R-project. org/ package=RWeka). Kurt Hornik, Achim Zeileis, Torsten Hothorn and Christian Buchta. Consultado el 2009. [7] http:/ / www. cran. r-project. org/ web/ packages [8] http:/ / www. cran. r-project. org/ web/ views [9] http:/ / r-forge. r-project. org [10] Customizable syntax highlighting based on Perl Compatible regular expressions, with subpattern support and default patterns for..R, tenth bullet point, Bluefish Features (http:/ / bluefish. openoffice. nl/ features. html), Bluefish website, retrieved 9 July 2008. [11] Stephan Wahlbrink. StatET: Eclipse based IDE for R (http:/ / www. walware. de/ goto/ statet). Consultado el 26-09-2009. [12] Jose Claudio Faria. R syntax (http:/ / community. jedit. org/ ?q=node/ view/ 2339). Consultado el 03-11-2007. [13] Syntax Highlighting (http:/ / kate-editor. org/ downloads/ syntax_highlighting). Kate Development Team. Consultado el 09-07-2008. [14] Integrated Development Environment (IDE) for R (http:/ / www. rstudio. org/ ). RStudio, Inc.. Consultado el 03-16-2012. [15] Pgina proyecto RKWard (http:/ / rkward. sourceforge. net/ ). [16] NppToR: R in Notepad++ (http:/ / sourceforge. net/ projects/ npptor/ ) [17] RPy home page (http:/ / rpy. sourceforge. net) [18] Statistics::R page on [[CPAN (http:/ / search. cpan. org/ ~gmpassos/ Statistics-R-0. 02/ lib/ Statistics/ R. pm)]] [19] littler web site (http:/ / dirk. eddelbuettel. com/ code/ littler. html) [20] http:/ / www. insightful. com/ products/ splus/ default. asp [21] http:/ / www. network-theory. co. uk/ R/ base/ [22] http:/ / www. cran. r-project. org/ [23] http:/ / wiki. r-project. org [24] http:/ / www. math. montana. edu/ Rweb/
R (lenguaje de programacin)
[25] [26] [27] [28] [29] [30] [31] [32] [33] http:/ / addictedtor. free. fr/ graphiques/ http:/ / knuth. uca. es/ R/ http:/ / cran. r-project. org/ doc/ contrib/ rdebuts_es. pdf http:/ / cran. r-project. org/ doc/ contrib/ R-intro-1. 1. 0-espanol. 1. pdf http:/ / knuth. uca. es/ moodle/ course/ view. php?id=37 http:/ / cran. r-project. org/ doc/ contrib/ grafi3. pdf http:/ / cran. r-project. org/ doc/ contrib/ Risk-Cartas-sobre-Estadistica. pdf http:/ / cran. r-project. org/ doc/ contrib/ curso-R. Diaz-Uriarte. pdf https:/ / stat. ethz. ch/ mailman/ listinfo/ r-help-es
59
Esperanza matemtica
En estadstica la esperanza matemtica (tambin llamada esperanza, valor esperado, media poblacional o media) de una variable aleatoria , es el nmero que formaliza la idea de valor medio de un fenmeno aleatorio. Cuando la variable aleatoria es discreta, la esperanza es igual a la suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso. Por lo tanto, representa la cantidad media que se "espera" como resultado de un experimento aleatorio cuando la probabilidad de cada suceso se mantiene constante y el experimento se repite un elevado nmero de veces. Cabe decir que el valor que toma la esperanza matemtica en algunos casos puede no ser "esperado" en el sentido ms general de la palabra - el valor de la esperanza puede ser improbable o incluso imposible. Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de 6 caras es 3,5. Podemos hacer el clculo
y cabe destacar que 3,5 no es un valor posible al rodar el dado. En este caso, en el que todos los sucesos son de igual probabilidad, la esperanza es igual a la media aritmtica. Una aplicacin comn de la esperanza matemtica es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un solo nmero paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos apostado y recuperamos la apuesta, as que recibimos 36 veces lo que hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza matemtica del beneficio para apostar a un solo nmero es:
que es -0,0526 aproximadamente. Por lo tanto uno esperara, en media, perder unos 5 cntimos por cada euro que apuesta, y el valor esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas, un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama un "juego justo". Nota: El primer parntesis es la "esperanza" de perder tu apuesta de $1, por eso es negativo el valor. El segundo parntesis es la esperanza matemtica de ganar los $35. La esperanza matemtica del beneficio es el valor esperado a ganar menos el valor esperado a perder.
Esperanza matemtica
60
Definicin
Para una variable aleatoria discreta con valores posibles funcin de probabilidad la esperanza se calcula como: y sus probabilidades representadas por la
Para una variable aleatoria absolutamente continua, la esperanza se calcula mediante la integral de todos los valores y la funcin de densidad :
La definicin general de esperanza se basa, como toda la teora de la probabilidad, en el marco de la teora de la medida y se define como la siguiente integral:
La esperanza tambin se suele simbolizar con Las esperanzas para se llaman momentos de orden . Ms importantes son los momentos
centrados . No todas las variables aleatorias tienen un valor esperado. Por ejemplo, la distribucin de Cauchy no lo tiene.
Propiedades
La esperanza es un operador lineal, ya que:
donde
Teora de la medida
61
Teora de la medida
En matemticas, una medida es una funcin que asigna un nmero real positivo o cero, interpretable como un "tamao", un "rea", un "volumen", o una "probabilidad", a los subconjuntos de un conjunto dado. El concepto es importante para el anlisis matemtico, la geometra y para la teora de la probabilidad. A menudo, el ambicioso objetivo de asignar una medida a todo subconjunto del conjunto base se revela inalcanzable. Solo ser posible, o interesante en algunos casos, asignar medida a ciertas familias de subconjuntos, a los que llamaremos medibles. Las condiciones de consistencia que deben cumplir los miembros de estas familias quedan encapsuladas en el concepto auxiliar de -lgebra. La teora de la medida es una rama del anlisis real que investiga las -lgebras, las medidas, funciones medibles e integrales. Es de importancia central en probabilidad y en estadstica.
Definiciones formales
Formalmente, una medida es una funcin definida en una -lgebra sobre un conjunto X con valores en el intervalo real extendido [0, ], que verifica: La medida del conjunto vaco es cero: ( ) = 0.
Una medida aplica ciertos subconjuntos (pertenecientes a una -lgebra) en valores del intervalo [0, ].
Si E1, E2, E3, ... una sucesin contable de conjuntos disjuntos dos a dos de la -lgebra y E es su unin, entonces (E) es igual a la suma de las medidas de los Ek; esto es,
La terna (X, , ) se denomina espacio de medida, y los elementos de se denominan conjuntos medibles.
Propiedades
Varias propiedades pueden deducirse directamente de la definicin.
Monotona
es montona: si y son dos conjunto medibles, con , entonces .
Uniones contables
Si E1, E2, E3, ... es una sucesin contable de conjuntos medibles, su unin ser tambin medible (por la definicin de -lgebra), y
Teora de la medida
62
Intersecciones contables
Si E1, E2, E3, ...es una sucesin contable de conjuntos medibles, y En+1 En para todo n, entonces la interseccin de los conjuntos En es medible (de nuevo, por la definicin de -lgebra); ms an, si al menos uno de los En tiene medida finita, entonces
Esta igualdad no es necesariamente cierta si ninguno de los En no tiene medida finita; por ejemplo, para cada n N, tmese
Todos estos conjuntos tienen medida infinita, de modo que el lmite al lado derecho de la igualdad es ; sin embargo, su interseccin es vaca y por lo tanto tiene medida 0.
Medidas sigma-finitas
Un espacio de medida (X, , ) se dice finito si (X) es un nmero real finito (en lugar de ). Y se dice -finito (ledo sigma finito) si X es la unin contable de conjuntos medibles de medida finita. Un conjunto en un espacio de medida tiene medida -finita si es una unin contable de conjuntos de medida finita. Por ejemplo, los nmeros reales con la medida de Lebesgue estndar forman un espacio -finito pero no finito. Considrese el intervalo cerrado [k, k+1] para cada entero k; hay una cantidad contable de tales intervalos, cada uno tiene medida 1, y su unin es la recta real completa. Alternativamente, tmense los nmeros reales con la medida de conteo, que asigna a cada conjunto finito de nmeros reales el nmero de puntos en el conjunto. Este espacio de medida no es -finito, ya que cada conjunto de medida finita contiene finitos puntos, y se necesitara una cantidad no contable de ellos para cubrir la recta entera. Los espacios de medida -finita tienen algunas propiedades convenientes; as, la -finitud puede ser comparada a la separabilidad de los espacios topolgicos.
Completitud
Un conjunto medible S es llamado un conjunto nulo si (S) = 0, y conjunto despreciable si est propiamente contenido en uno nulo. La medida se dice completa si todo conjunto despreciable es medible (y por lo tanto, nulo tambin). Una medida puede extenderse a una completa considerando la -lgebra de conjuntos T X que difieren de un conjunto medible S en un conjunto despreciable; esto es, tal que la diferencia simtrica T S est contenida en un conjunto nulo. En tal caso se define (T) = (S).
Ejemplos
A continuacin se listan algunos ejemplos importantes de medidas. La medida de conteo se define por (S) = nmero de elementos en S, si S es finito; o en caso contario. La medida de Lebesgue es la nica medida completa, invariante por translaciones, sobre una -lgebra sobre R que contenga a los intervalos, y tal que ([0,1]) = 1. La medida de ngulo circular, que es invariante por rotaciones. La medida de Haar para un grupo topolgico localmente compacto es una generalizacin de la medida de Lebesgue y tiene una propiedad de unicidad similar. La medida cero es la definida mediante (S) = 0 para todo S. La medida exterior de Hausdorff-Besicovitch se usa en geometra fractal para medir el df-contenido de un conjunto fractal de dimensin df.
Teora de la medida Todo espacio de probabilidad da lugar a una medida que toma el valor 1 sobre todo el espacio (y por tanto toma todos sus valores en el intervalo unitario [0,1]). Tal medida es denominada medida de probabilidad. Otras medidas notables son las de Borel, Jordan, y Radon.
63
Contraejemplos
Contrariamente a lo que podra esperarse, no todos los conjuntos del espacio eucldeo son medibles; algunos ejemplos de estos conjuntos contraintuitivos son el conjunto de Vitali, y los que aparecen en las paradojas de Hausdorff y Banach-Tarski.
Generalizaciones
Para ciertos propsitos, es til tener una "medida" cuyos valores no se restrinjan a los reales no negativos y el infinito. Por ejemplo, una funcin de conjunto numerable aditiva con valores en los nmeros reales (con signo) se llama medida con signo, mientras que tal tipo de funcin con valores en los nmeros complejos se llama medida compleja. Una medida que tome valores en un espacio de Banach se llama medida espectral; son usadas a menudo en anlisis funcional en el teorema espectral. Para distinguir las medidas usuales, con valores positivos, de las generalizaciones, se habla de medidas positivas. Otra generalizacin es la medida finitamente aditiva. Es igual que una medida, salvo que en lugar de requerir aditividad contable, slo se necesita aditividad finita. Histricamente, esta definicin se us inicialmente, pero no result ser tan til. En general, las medidas finitamente aditivas estn conectadas con nociones como los lmites de Banach, el dual de L, y la compactificacin de Stone-ech. Todas stas estn conectadas de alguna forma con el axioma de eleccin. El interesante resultado en geometra integral conocido como teorema de Hadwiger establece que el espacio de funciones de conjunto invariantes por translaciones, finitamente aditivas, no necesariamente no negativas definidas sobre las uniones finitas de conjuntos compactos y convexos en Rn consiste (salvo mltiplos escalares) en una "medida" que es "homognea de grado k" para cada k = 0, 1, 2, ..., n, y combinaciones lineales de esas "medidas". "Homognea de grado k" significa que "re-escalar" cualquier conjunto por un factor c > 0 multiplica la "medida" del conjunto por un factor ck. La que es homognea de grado n es el volumen ordinario n-dimensional. La homognea de grado n-1 es el "volumen de superficie". La homognea de grado 1 es una funcin misteriosa llamada "anchura media" (en ingls, "mean width"), un mal nombre. La homognea de grado 0 es la caracterstica de Euler.
64
Mientras que en una distribucin de probabilidad discreta un suceso con probabilidad cero es imposible, no se da el caso en una variable aleatoria continua. Por ejemplo, si se mide la anchura de una hoja de roble, el resultado 3,5 cm es posible, pero tiene probabilidad cero porque hay infinitos valores posibles entre 3 cm y 4 cm. Cada uno de esos valores individuales tiene probabilidad cero, aunque la probabilidad de ese intervalo no lo es. Esta aparente paradoja se resuelve por el hecho de que la probabilidad de que X tome algn valor en un conjunto infinito como un intervalo, no puede calcularse mediante la adicin simple de probabilidades de valores individuales. Formalmente, cada valor tiene una probabilidad infinitesimal que estadsticamente equivale a cero. Existe una definicin alternativa ms rigurosa en la que el trmino "distribucin de probabilidad continua" se reserva a distribuciones que tienen funcin de densidad de probabilidad. Estas funciones se llaman, con ms precisin, variables aleatorias absolutamente continuas (vase el Teorema de Radon-Nikodym). Para una variable aleatoria X absolutamente continua es equivalente decir que la probabilidad P[X = a] = 0 para todo nmero real a, en virtud de que hay un incontables conjuntos de medida de Lebesgue cero (por ejemplo, el conjunto de Cantor). Una variable aleatoria con la distribucin de Cantor es continua de acuerdo con la primera definicin, pero segn la segunda, no es absolutamente continua. Tampoco es discreta, ni una media ponderada de variables discretas y absolutamente continuas. En aplicaciones prcticas, las variables aleatorias a menudo ofrece una distribucin discreta o absolutamente continua, aunque tambin aparezcan de forma natural mezclas de los dos tipos.
Definicin
Para una variable continua hay infinitos valores posibles de la variable y entre cada dos de ellos se pueden definir infinitos valores ms. En estas condiciones no es posible deducir la probabilidad de un valor puntual de la variable; como se puede hacer en el caso de va discretas, pero es posible calcular la probabilidad acumulada hasta un cierto valor (funcin de distribucin de probabilidad), y se puede analizar como cambia la probabilidad acumulada en cada punto (estos cambios no son probabilidades sino otro concepto: la funcin de densidad. En el caso de variable continua la distribucin de probabilidad es la integral de la funcin de densidad, por lo que tenemos entonces que:
65
Sea
una va continua, una distribucin de probabilidad o funcin de densidad de probabilidad (FDP) de tal que, para cualesquiera dos nmeros y siendo .
es
una funcin
La grfica de intervalo
tome un valor en el
es el rea bajo la curva de la funcin de densidad; as, la funcin mide concentracin de probabilidad y
alrededor de los valores de una variable aleatoria continua. rea bajo la curva de entre Para que 1. 2. sea una FDP ( 0 para toda .
Ya que la probabilidad es siempre un nmero positivo, la FDP es una funcin no decreciente que cumple: 1. 2. . Es decir, la probabilidad de todo el espacio muestral es 1. . Es decir, la probabilidad del suceso nulo es cero. a , como la de la distribucin normal.
Distribuciones continuas
Las distribuciones de variable continua ms importantes son las siguientes: Distribucin Beta Distribucin exponencial Distribucin F Distribucin Gamma Distribucin ji cuadrado Distribucin normal Distribucin t de Student
Enlaces externos.
Wikimedia Commons alberga contenido multimedia sobre Distribuciones de probabilidad. Commons
Distribucin exponencial
66
Distribucin exponencial
Distribucin exponencial
Funcin de distribucin de probabilidad Parmetros Dominio Funcin de densidad (pdf) Funcin de distribucin (cdf) Media Mediana Moda Varianza Coeficiente de simetra Curtosis Entropa Funcin generadora de momentos (mgf)
Funcin caracterstica
En estadstica la distribucin exponencial es una distribucin de probabilidad continua con un parmetro cuya funcin de densidad es:
Donde
representa el nmero e.
El valor esperado y la varianza de una variable aleatoria X con distribucin exponencial son:
Distribucin exponencial
67
La distribucin exponencial es un caso particular de distribucin gamma con k = 1. Adems la suma de variables aleatorias que siguen una misma distribucin exponencial es una variable aleatoria expresable en trminos de la distribucin gamma.
Ejemplo
Ejemplos para la distribucin exponencial es la distribucin de la longitud de los intervalos de variable continua que transcuren entre la ocurrencia de dos sucesos "raros", que se distribuyen segn la distribucin de Poisson.
Relaciones
La suma de variables aleatorias independientes de distribucin exponencial con parmetro es una variable aleatoria de distribucin gamma.
Software
Se puede usar software y un programa de computadora para el ajuste de una distribucin de probabilidad, incluyendo la exponencial, a una serie de datos: Easy fit [1], "data analysis & simulation" MathWorks Benelux [2] ModelRisk [3], "risk modelling software" Ricci distributions, fitting distrubutions with R [4] , Vito Ricci, 2005 Risksolver, automatically fit distributions and parameters to samples [5] StatSoft distribution fitting [6] CumFreq [7] , libre sin costo, incluye intervalos de confianza a base de la distribucin binomial
Distribucin exponencial
68
Enlaces externos
Calculadora Distribucin exponencial [8] [9]Calcular la probabilidad de una distribucin exponencial con R (lenguaje de programacin)
Referencias
[1] [2] [3] [4] [5] [6] [7] [8] [9] http:/ / www. mathwave. com/ articles/ distribution_fitting. html http:/ / www. mathworks. nl/ products/ statistics/ demos. html?file=/ products/ demos/ shipping/ stats/ cfitdfitdemo. html http:/ / www. vosesoftware. com/ http:/ / cran. r-project. org/ doc/ contrib/ Ricci-distributions-en. pdf http:/ / www. solver. com/ risksolver8. htm http:/ / www. statsoft. com/ textbook/ distribution-fitting/ http:/ / www. waterlog. info/ cumfreq. htm http:/ / www. stud. feec. vutbr. cz/ ~xvapen02/ vypocty/ ex. php?language=espanol http:/ / cajael. com/ mestadisticos/ T7DContinuas/ node20. php
Distribucin gamma
En estadstica la distribucin gamma es una distribucin de probabilidad continua con dos parmetros y cuya funcin de densidad para valores es
Aqu
es el nmero e y la aquella es
). En este caso - por ejemplo para describir un proceso de Poisson - se llaman la distribicin distribucin Erlang con un parmetro . El valor esperado y la varianza de una variable aleatoria X de distribucin gamma son
Relaciones
El tiempo hasta que el suceso nmero parmetro . ocurre en un Proceso de Poisson de intensidad es una variable aleatoria con distribucin gamma. Eso es la suma de variables aleatorias independientes de distribucin exponencial con
Enlaces externos
http://mathworld.wolfram.com/GammaDistribution.html [1] Calcular la probabilidad de una distribucin Gamma con R (lenguaje de programacin)
Distribucin gamma
69
Referencias
[1] http:/ / cajael. com/ mestadisticos/ T7DContinuas/ node29. php
Distribucin t de Student
Distribucin t de Student
Funcin de distribucin de probabilidad Parmetros Dominio Funcin de densidad (pdf) grados de libertad (real)
para
Distribucin t de Student
70
Entropa
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una muestra.
Caracterizacin
La distribucin t de Student es la distribucin de probabilidad del cociente
donde Z tiene una distribucin normal de media nula y varianza 1 V tiene una distribucin ji-cuadrado con grados de libertad Z y V son independientes Si es una constante no nula, el cociente central con parmetro de no-centralidad . es una variable aleatoria que sigue la distribucin t de Student no
sigue una distribucin normal de media 0 y varianza 1. Sin embargo, dado que la desviacin estndar no siempre es conocida de antemano, Gosset estudi un cociente relacionado,
donde
Distribucin t de Student
71
donde
es igual a n 1.
La distribucin de T se llama ahora la distribucin-t de Student. El parmetro representa el nmero de grados de libertad. La distribucin depende de , pero no de o , lo cual es muy importante en la prctica.
Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye tambin normalmente, la distribucin t puede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero. para efectos prcticos el valor esperado y la varianza son: E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3
Historia
La distribucin de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fbrica de cerveza, Guinness, que prohiba a sus empleados la publicacin de artculos cientficos debido a una difusin previa de secretos industriales. De ah que Gosset publicase sus resultados bajo el seudnimo de Student.[1]
Referencias
[1] Walpole, Roland; Myers, Raymond y Ye, Keying (2002). Probability and Statistics for Engineers and Scientists. Pearson Education.
Enlaces externos
Tabla de distribucin de T de Student (http://tablas-estadisticas.blogspot.com/2010/06/t-de-student.html) Prueba t de Student en la UPTC de Colombia (http://virtual.uptc.edu.co/ova/estadistica/docs/libros/tstudent. pdf) Tabla distribucin t de Student Distribucin t-Student: Puntos porcentuales para probabilidad superior (http://www.vaxasoftware.com/ doc_edu/mat.html) (http://cajael.com/mestadisticos/T7DContinuas/node11.php) Calcular la probabilidad de una distribucin t-Student con R (lenguaje de programacin)
Distribucin de Poisson
72
Distribucin de Poisson
Distribucin De Poisson
El eje horizontal es el ndice k. La funcin solamente est definida en valores enteros de k. Las lneas que conectan los puntos son solo guas para el ojo y no indican continuidad. Funcin de probabilidad
El eje horizontal es el ndice k. Funcin de distribucin de probabilidad Parmetros Dominio Funcin de probabilidad (fp)
Funcin de distribucin (cdf) incompleta) Media Mediana Moda Varianza Coeficiente de simetra Curtosis
(dnde
es la Funcin gamma
Distribucin de Poisson
73
Entropa
En teora de probabilidad y estadstica, la distribucin de Poisson es una distribucin de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado nmero de eventos durante cierto periodo de tiempo. Fue descubierta por Simon-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilit des jugements en matires criminelles et matire civile (Investigacin sobre la probabilidad de los juicios en materias criminales y civiles).
Propiedades
La funcin de masa de la distribucin de Poisson es
donde k es el nmero de ocurrencias del evento o fenmeno (la funcin nos da la probabilidad de que el evento suceda precisamente k veces). es un parmetro positivo que representa el nmero de veces que se espera que ocurra el fenmeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribucin de Poisson con = 104 = 40. e es la base de los logaritmos naturales (e = 2,71828 ...) Tanto el valor esperado como la varianza de una variable aleatoria con distribucin de Poisson son iguales a . Los momentos de orden superior son polinomios de Touchard en cuyos coeficientes tienen una interpretacin combinatorio. De hecho, cuando el valor esperado de la distribucin de Poisson es 1, entonces segn la frmula de Dobinski, el n-simo momento iguala al nmero de particiones de tamao n. La moda de una variable aleatoria de distribucin de Poisson con un no entero es igual a enteros menores que (los smbolos modas son y 1. La funcin generadora de momentos de la distribucin de Poisson con valor esperado es , el mayor de los representan la funcin parte entera). Cuando es un entero positivo, las
Las variables aleatorias de Poisson tienen la propiedad de ser infinitamente divisibles. La divergencia Kullback-Leibler desde una variable aleatoria de Poisson de parmetro 0 a otra de parmetro es
Distribucin de Poisson
74
Distribucin binomial
La distribucin de Poisson es el caso lmite de la distribucin binomial. De hecho, si los parmetros n y distribucin binomial tienden a infinito y a cero de manera que lmite obtenida es de Poisson. de una se mantenga constante, la distribucin
Aproximacin normal
Como consecuencia del teorema central del lmite, para valores grandes de puede aproximarse por otra normal dado que el cociente , una variable aleatoria de Poisson X
Distribucin exponencial
Supngase que para cada valor t > 0, que representa el tiempo, el nmero de sucesos de cierto fenmeno aleatorio sigue una distribucin de Poisson de parmetro t. Entonces, los tiempos discurridos entre dos sucesos sucesivos sigue la distribucin exponencial.
Ejemplos
Si el 2% de los libros encuadernados en cierto taller tiene encuadernacin defectuosa, para obtener la probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas usamos la distribucin de Poisson. En este caso concreto, k es 5 y , , el valor esperado de libros defectuosos es el 2% de 400, es decir, 8. Por lo tanto, la probabilidad buscada es
Este problema tambin podra resolverse recurriendo a una distribucin binomial de parmetros k = 5, n = 400 y =0,02.
Distribucin de Poisson
75
Procesos de Poisson
La distribucin de Poisson se aplica a varios fenmenos discretos de la naturaleza (esto es, aquellos fenmenos que ocurren 0, 1, 2, 3,... veces durante un periodo definido de tiempo o en un rea determinada) cuando la probabilidad de ocurrencia del fenmeno es constante en el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la distribucin de Poisson incluyen: El nmero de autos que pasan a travs de un cierto punto en una ruta (suficientemente distantes de los semforos) durante un periodo definido de tiempo. El nmero de errores de ortografa que uno comete al escribir una nica pgina. El nmero de llamadas telefnicas en una central telefnica por minuto. El nmero de servidores web accedidos por minuto. El nmero de animales muertos encontrados por unidad de longitud de ruta. El nmero de mutaciones de determinada cadena de ADN despus de cierta cantidad de radiacin. El nmero de ncleos atmicos inestables que decayeron en un determinado perodo El nmero de estrellas en un determinado volumen de espacio. La distribucin de receptores visuales en la retina del ojo humano. La inventiva [1] de un inventor a lo largo de su carrera.
Enlaces externos
Distribucin de Poisson Puntual [2] Distribucin de Poisson Acumulada [3] Calculadora Distribucin de Poisson [4] Clculo de la probabilidad de una distribucin de Poisson [5] usando R
Referencias
[1] [2] [3] [4] [5] http:/ / www. leaonline. com/ doi/ pdfplus/ 10. 1207/ s15326934crj1103_3 http:/ / tablas-estadisticas. blogspot. com/ 2010/ 06/ poisson-puntual. html http:/ / tablas-estadisticas. blogspot. com/ 2010/ 06/ poisson-acumulada. html http:/ / www. stud. feec. vutbr. cz/ ~xvapen02/ vypocty/ po. php?language=espanol http:/ / cajael. com/ mestadisticos/ T6DDiscretas/ node7. php
Desviacin estndar
76
Desviacin estndar
La desviacin estndar o desviacin tpica (denotada con el smbolo ) es una medida de centralizacin o dispersin para variables de razn (ratio o cociente) y de intervalo, de gran utilidad en la estadstica descriptiva. Se define como la raz cuadrada de la varianza. Junto con este valor, la desviacin tpica es una medida (cuadrtica) que informa de la media de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades que la variable. Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer tambin la desviacin que presentan los datos en su distribucin respecto de la media aritmtica de dicha distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.
Formulacin Muestral
La varianza representa la media aritmtica de las desviaciones con respecto a la media que son elevadas al cuadrado. Si atendemos a la coleccin completa de datos (la poblacin en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atencin slo a una muestra de la poblacin, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuacin donde nos explican mejor el texto. Expresin de la varianza muestral:
demostracin:
podemos observar que como (sumamos n veces 1 y luego dividimos por n) y como
obtenemos
Desviacin estndar
77
donde
es el valor medio de
El trmino desviacin estndar fue incorporado a la estadstica por Karl Pearson en 1894. Por la formulacin de la varianza podemos pasar a obtener la desviacin estndar, tomando la raz cuadrada positiva de la varianza. As, si efectuamos la raz de la varianza muestral, obtenemos la desviacin tpica muestral; y si por el contrario, efectuamos la raz sobre la varianza poblacional, obtendremos la desviacin tpica poblacional. Expresin de la desviacin estndar muestral:
con a como
y s como
Adems se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda.
Interpretacin y aplicacin
La desviacin estndar es una medida del grado de dispersin de los datos con respecto al valor promedio. Dicho de otra manera, la desviacin estndar es simplemente el "promedio" o variacin esperada con respecto a la media aritmtica. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estndar muestrales son 8,08; 5,77 y 1,15 respectivamente. La tercera muestra tiene una desviacin mucho menor que las otras dos porque sus valores estn ms cerca de 7. La desviacin estndar puede ser interpretada como una medida de incertidumbre. La desviacin estndar de un grupo repetido de medidas nos da la precisin de stas. Cuando se va a determinar si un grupo de medidas est de acuerdo con el modelo terico, la desviacin estndar de esas medidas es de vital importancia: si la media de las medidas est demasiado alejada de la prediccin (con la distancia medida en desviaciones estndar), entonces consideramos que las medidas contradicen la teora. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sera razonable esperar que ocurrieran si el modelo terico fuera correcto. La desviacin estndar es uno de tres parmetros de ubicacin central; muestra la agrupacin de los datos alrededor de un valor central (la media o promedio).
Desviacin estndar
78
Desglose
La desviacin estndar (DS/DE), tambin llamada desviacin tpica, es una medida de dispersin usada en estadstica que nos dice cunto tienden a alejarse los valores concretos del promedio en una distribucin. De hecho, especficamente, la desviacin estndar es "el promedio del cuadrado de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, . La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el valor de cada dato. Distribucin de probabilidad continua Es posible calcular la desviacin estndar de una variable aleatoria continua como la raz cuadrada de la integral
donde
As la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin. Aunque esta frmula es correcta, en la prctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Correccin de Bessel)
Tambin hay otra funcin ms sencilla de realizar y con menos riesgo de tener equivocaciones :
Ejemplo
Aqu se muestra cmo calcular la desviacin estndar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de nios: { 4, 1, 11, 13, 2, 7 } 1. Calcular el promedio o media aritmtica . En este caso, N = 6 porque hay seis datos: .
Desviacin estndar i = nmero de datos para sacar desviacin estndar Sustituyendo N por 6
79
Sustituyendo N - 1 por 5; ( 6 - 1 )
Sustituyendo
por 6,33
Enlaces externos
[1]Simulacin de la desviacin tipica de una variable discreta con R (lenguaje de programacin)
Referencias
[1] http:/ / cajael. com/ mestadisticos/ T1EDescriptiva/ node7. php
Intervalo de confianza
80
Intervalo de confianza
En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parmetro Las lneas verticales representan 50 construcciones diferentes de intervalos de poblacional. La probabilidad de xito en la confianza para la estimacin del valor . estimacin se representa con 1 - y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo.[1] El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error. Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente una distribucin normal. Tambin pueden construirse intervalos de confianza con la desigualdad de Chebyshov. En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1, 2] tal que P[1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de .
Ejemplos
Intervalo de confianza para la media de una poblacin
De una poblacin de media y desviacin tpica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media ( con la media poblacional:[2] ). Se puede demostrar que la media de todas las medias muestrales coincide
Pero adems, si el tamao de las muestras es lo suficientemente grande,[3] la distribucin de medias muestrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin tpica dada por la siguiente expresin: . Esto se representa como sigue: . Si estandarizamos, se sigue que:
En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 z z2] = 1 - , donde (1 - )100 es el porcentaje deseado (vase el uso de las tablas en una distribucin normal). Se desea obtener una expresin tal que En esta distribucin normal de medias se puede calcular el intervalo de confianza donde se encontrar la media poblacional si slo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamar (debido a que es el error que se
Intervalo de confianza cometer, un trmino opuesto). Para ello se necesita calcular el punto junto con su "opuesto en la distribucin" muestra en la siguiente imagen: o, mejor dicho, su versin estandarizada o valor crtico
81
As:
Obsrvese que el intervalo de confianza viene dado por la media muestral por el error estndar Si no se conoce .
y 2,576
Intervalo de confianza
82
En la demostracin de estas frmulas estn involucrados el Teorema Central del Lmite y la aproximacin de una binomial por una normal.[6]
Referencias
[1] Rius Daz, Francisca (octubre de 1997). 8.2. Estimacin confidencial (http:/ / www. bioestadistica. uma. es/ libro/ node100. htm). Bioestadstica. Mtodos y aplicaciones (http:/ / www. bioestadistica. uma. es/ libro/ html. htm). Mlaga: Universidad de Mlaga. ISBN 84-7496-653-1. . Consultado el 07-04-2009. [2] Es una consecuencia del Teorema Central del Lmite. [3] En la prctica se considera normal la distribucin si n > 30. [4] Sotomayor Velasco, Gabriel; Wisniewski, Piotr Marian (2001). 10.2. Intervalos de confianza para medias (http:/ / books. google. es/ books?id=0VYkub0HvJwC). Probabilidad y estadstica para ingeniera y ciencias. Cengage Learning Editores. p.230. ISBN 970686136X. . Consultado el 20-04-2009. [5] Vanse en las tablas de la normal tipificada las entradas correspondientes a los valores 0,95 y 0,99 [6] Rius Daz, Francisca (octubre de 1997). 8.6.2. Intervalo para una proporcin (http:/ / www. bioestadistica. uma. es/ libro/ node108. htm). Bioestadstica. Mtodos y aplicaciones (http:/ / www. bioestadistica. uma. es/ libro/ html. htm). Mlaga: Universidad de Mlaga. ISBN 84-7496-653-1. . Consultado el 24-04-2009.
Fisher, R. A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh (p. 32). Freund, J. E. (1962). Mathematical Statistics. Prentice Hall, Englewood Cliffs, NJ (pp. 227-228). Hacking, I. (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge. Keeping, E. S. (1962). Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ. Kiefer, J. (1977). Journal of the American Statistical Association, 72, 789-827. Neyman, J. (1937). Philosophical Transactions of the Royal Society of London A, 236, 333-380. Robinson, G. K. (1975). Biometrika, 62, 151-161. Zar, J. H. (1984). Biostatistical Analysis. Prentice Hall International, New Jersey. pp. 43-45.
Poblacin estadstica
83
Poblacin estadstica
Poblacin estadstica, en estadstica, tambin llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones.
Poblacin en epidemiologa
En epidemiologa una poblacin es un conjunto de sujetos o individuos con determinadas caractersticas demogrficas, de la que se obtiene la muestra o participantes en un estudio epidemiolgico a la que se quiere extrapolar los resultados de dicho estudio (inferencia estadstica).
Poblacin
El nmero de elementos o sujetos que componen una poblacin estadstica es igual o mayor que el nmero de elementos que se obtienen de ella en una muestra (n).
Tipos de poblacin
Existen distintos tipos de poblaciones que son: Poblacin base: es el grupo de personas designadas por las siguientes caractersticas: personales, geogrficas o temporales, que son elegibles para participar en el estudio. Poblacin muestreada: es la poblacin base con criterios de viabilidad o posibilidad de realizarse el muestreo. Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la poblacin muestreada y accesible. El nmero de muestras que se puede obtener de una poblacin es una o mayor de una. Poblacin diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificacin caracterstica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido.
envases de coca-cola
Sobrepoblacin ptimo de poblacin Padrn
Enlaces externos
Revisiones del padrn municipal de Andaluca JUBA [1]
Referencias
[1] http:/ / www. juntadeandalucia. es/ iea/ padron/ revpad. htm
Muestra estadstica
84
Muestra estadstica
En estadstica una muestra estadstica (tambin llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una poblacin estadstica. Las muestras se obtienen con la intencin de inferir propiedades de la totalidad de la poblacin, para lo cual deben ser representativas de la misma. Para cumplir esta caracterstica la inclusin de sujetos en la muestra debe seguir una tcnica de muestreo. En tales casos, puede obtenerse una informacin similar a la de un estudio exhaustivo con mayor rapidez y menor coste (vanse las ventajas de la eleccin de una muestra, ms abajo). Por otra parte, en ocasiones, el muestreo puede ser ms exacto que el estudio de toda la poblacin porque el manejo de un menor nmero de datos provoca tambin menos errores en su manipulacin. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados. El nmero de sujetos que componen la muestra suele ser inferior que el de la poblacin, pero suficiente para que la estimacin de los parmetros determinados tenga un nivel de confianza adecuado. Para que el tamao de la muestra sea idneo es preciso recurrir a su clculo.
Estimacin
Una estimacin es cualquier tcnica para conocer un valor aproximado de un parmetro referido a la poblacin, a partir de los estadsticos muestrales calculados a partir de los elementos de la muestra.
Nivel de confianza
El nivel de confianza de una aseveracin basada en la inferencia estadstica es una medida de la bondad de la estimacin realizada a partir de estadsticos muestrales.
Ejemplo
La descripcin de una muestra, y los resultados obtenidos sobre ella, puede ser del tipo mostrado en el siguiente ejemplo:
Dimensin de la poblacin: ej. 222.222 habitantes Probabilidad del evento: Nivel de confianza: Desviacin tolerada: Tamao de la muestra: ej. Hombre o Mujer 50% ej. 96% ej. 5% ej. 270 Resultado ej. X
Muestra estadstica La poblacin a investigar tiene 222.222 habitantes y queremos saber cuntos son hombres o mujeres. Estimamos en un 50% para cada sexo y para el propsito del estudio es suficiente un 90% de seguridad con un nivel entre 90 - 5 y 90 + 5. Generamos una tabla de 270 nmeros al azar entre 1 y 222.222 y en un censo numerado comprobamos el gnero para los seleccionados.
85
Referencias
[1] Samuel S. Wilks, Mathematical Statistics, John Wiley, 1962, Section 8.1
Estadstico muestral
86
Estadstico muestral
En estadstica un estadstico (muestral) es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo de estimar o inferir caractersticas de una poblacin o modelo estadstico. Ms formalmente un estadstico es una funcin medible T que, dada una muestra estadstica de valores , les asigna un nmero, , que sirve para estimar determinado parmetro de la distribucin de la que procede la muestra. As, por ejemplo, la media de los valores de una muestra (media muestral) sirve para estimar la media de la poblacin de la que se ha extrado la misma; la varianza muestral podra usarse para estimar la varianza poblacional, etc.[1] Esto se denomina como realizar una estimacin puntual.
Ejemplos
Tipos de variables estadsticas. Variable cuantitativa Discreta:variables que pueden tomar valores enteros, n de hijos, n de sillas de una sala. etc. Continua:variable que toma valores no enteros Ejemplo: Estatura exacta, promedio de notas, etc. Variable cualitativa Ordinal o Derivada : Son aquellas que existe un orden intuitivo;por ejemplo nivel de educacin (bsico, medio, superior) Nominal:Corresponde a aquellas en las cuales no existe un orden intuitivo; por ejemplo: estado civil,el sexo, etc.
Media muestral
Si se tiene una muestra estadstica de valores para una variable aleatoria X con distribucin de probabilidad F(x,) (donde es un conjunto de parmetros de la distribucin) se define la media muestral n-sima como:
Varianza muestral
De forma anloga a la Media Muestral y utilizando los mismos elementos que en la misma, la definicin de Varianza es la siguiente:
Momentos muestrales
Con las mismas notaciones usadas a la media y varianza muestral se define el estadstico momento muestral no centrado como:
Ntese que m1 es precisamente la media muestral. Anlogamente se define el estadstico momento muestral centrado como:
Estadstico muestral que guarda las siguientes relaciones con estadsticos previamente definidos:
87
Propiedades
Suficiencia El concepto de estadstico suficiente fue introducido por Fisher en 1922, y como originalmente indic, un estadstico es suficiente para los objetivos de la inferencia estadstica si contiene, en cierto sentido, toda la informacin acerca de la funcin de distribucin a partir de la cual se ha generado la muestra. Formalmente si que un cierto estadstico condicionada de no depende de es una muestra de una variable aleatoria cuya distribucin de probabilidad , entonces se dice
Aplicaciones
Estimacin puntual
La estimacin puntual consiste en utilizar el valor de un estadstico, denominado estimador, para calcular el valor de un parmetro desconocido de una poblacin. Por ejemplo, cuando usamos la media muestral para estimar la media de una poblacin, o la proporcin de una muestra para estimar el parmetro de una distribucin binomial. Una estimacin puntual de algn parmetro de una poblacin es un solo valor obtenido a partir de un estadstico.
Contraste de hiptesis
Test t-Student Es un test que permite decidir si dos variables aleatorias normales (gausianas) y con la misma varianza tienen medias diferentes. Dada la ubicuidad de la distribucin normal o gausiana el test puede aplicarse en numerosos contextos, para comprobar si la modificacin en las condiciones de un proceso (humano o natural) esencialmente aleatorio producen una elevacin o disminucin de la media poblacional. El test opera decidiendo si una diferencia en la media muestral entre dos muestras es estadsticamente significativa, y entonces poder afirmar que las dos muestras corresponden a distribuciones de probabilidad de media poblacional distinta, o por el contrario afirmar que la diferencia de medias puede deberse a oscilaciones estadsticas azarosas. La eficacia del test aumenta con el nmero de datos del que constan las dos muestras, en concreto del nmero de grados de libertad conjunto de las dos muestras, este nmero viene dado por (siendo Ni el tamao muestral, es decir, el nmero de datos en cada muestra i). La prueba consiste en examinar el estadstico t obtenido a partir de la dos muestras como:
Y este valor se compara con un valor de referencia basado en el nmero de grados de libertad y el nivel de significacin. Dicho valor de referencia se obtiene a partir de la distribucin t de Student. Al comparar las 2 medias, frecuentemente siempre se supone que el nivel de signigicacin sea menor que 0,05.
Vase tambin: Distribucin t de Student
Estadstico muestral test F-Snedecor estas son de regresion r=(25(1404)-(183)(185))/(((25(1395)-(183)^2 (25(1427)-(185)^2)) r=1245/((34875-33489)(35675-34225)) r=1245/((1386)(1450)) r=1245/1417.638882 r= 0.878220833
88
Referencias
[1] Casas Snchez, Jose M.; Manzano Arrondo, Vicente; Zamora Sanz, Ana Isabel; (1997). 1.3. Parmetros poblacionales y estadsticos muestrales (http:/ / books. google. es/ books?id=ly-EjOkkL9UC& printsec=frontcover& dq=inferencia+ estadstica& as_brr=3#PPA32,M1). Inferencia Estadstica (http:/ / books. google. es/ books?id=ly-EjOkkL9UC) (2, ilustrada edicin). Ramn Areces. p.32. ISBN 848004263X. . Consultado el 14/04/2009.
'Introduccin a la Estadstica Econmica y Empresarial. Teora y Prctica.' de Fco. Javier Martn-Pliego Lpez, Editorial Thomson, 2007 (Madrid). 'Manual de Estadstica Empresarial con ejercicios resueltos' de Eva Ropero, Mara Eleftheriou, Luana Gava y Eva Romero. Editorial Delta Publicaciones. 2008 (Madrid).
Tamao de la muestra
En estadstica el tamao de la muestra es el nmero de sujetos que componen la muestra extrada de una poblacin, necesarios para que los datos obtenidos sean representativos de la poblacin.
Tamao de la muestra
Los valores k ms utilizados y sus niveles de confianza son: k Nivel de confianza 1,15 75% 1,28 80% 1,44 85% 1,65 90% 95% 1,96 2 95,5% 2,58 99%
89
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la frmula k=1,96) e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la poblacin y el que obtendramos si preguntramos al total de ella. Ejemplos:
Ejemplo 1: si los resultados de una encuesta dicen que 100 personas compraran un producto y tenemos un error muestral del 5% comprarn entre 95 y 105 personas. Ejemplo 2: si hacemos una encuesta de satisfaccin a los empleados con un error muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarn. Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje real de votos estar en el intervalo 52-58% (55% +/- 3%).
p: proporcin de individuos que poseen en la poblacin la caracterstica de estudio. Este dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opcin ms segura. q: proporcin de individuos que no poseen esa caracterstica, es decir, es 1-p. n: tamao de la muestra (nmero de encuestas que vamos a hacer). Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de mayor confianza o est ms libre de error necesariamente; antes es preciso minimizar la principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamao de la muestra suele utilizarse la siguiente frmula: Otra frmula para calcular el tamao de la muestra es: n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) Donde: n = el tamao de la muestra. N = tamao de la poblacin. = Desviacin estndar de la poblacin, que generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relacin al 95% de confianza equivale a 1,96 (como ms usual) o en relacin al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador. e = Lmite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que vara entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador. La frmula anterior se obtiene de la frmula para calcular la estimacin del intervalo de confianza para la media: X -Z /n ((N-n)/(N-1))X +Z /n ((N-n)/(N-1)) En donde el error es: e=Z /n ((N-n)/(N-1)) Elevando al cuadrado el error se tiene: (e)^2=(Z /n ((N-n)/(N-1)))^2 e^2=Z^2 ^2/n (N-n)/(N-1) Multiplicando fracciones: e^2=(Z^2 ^2 (N-n))/n(N-1) Eliminando denominadores: e^2 n(N-1)=Z^2 ^2 (N-n) Eliminando parntesis: e^2 nN-e^2 n=Z^2 ^2 N-Z^2 ^2 n Transponiendo n a la izquierda: e^2 nN-e^2 n+Z^2 ^2 n=Z^2 ^2 N Factor comn de n: n(e^2 N-e^2+Z^2 ^2 )=Z^2 ^2 N Despejando n:
Tamao de la muestra n=(Z^2 ^2 N)/(e^2 N-e^2+Z^2 ^2 ) Ordenando se obtiene la frmula para calcular el tamao de la muestra: n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) Ejemplo ilustrativo: Calcular el tamao de la muestra de una poblacin de 500 elementos con un nivel de confianza del 99% Solucin: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los dems valores se tomar =0,5, y e = 0,05. Reemplazando valores en la frmula se obtiene: n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) n=(5000,5^2 2,58^2)/((500-1) (0,05)^2+0,5^22,58^2 )=832,05/2,9116=285,77=286
90
Estimacin de parmetros
La estimacin de parmetros consiste en el clculo aproximado del valor de un parmetro en la poblacin, utilizando la inferencia estadstica, a partir de los valores observados en la muestra estudiada. Para el clculo del tamao de la muestra en una estimacin de parmetros son necesarios los conceptos de Intervalo de confianza, variabilidad del parmetro, error, nivel de confianza, valor crtico y valor (vase estimacin por intervalos). Estimacin de una proporcin Los datos que tenemos que incluir en la frmula para calcular el nmero de sujetos necesarios de la muestra (N) son: 1. Z/2: valor de Z correspondiente al riesgo fijado. El riesgo fijado suele ser 0,05 y Z/2 de 1,96. 2. P: Valor de la proporcin que se supone existe en la poblacin. 3. i: Precisin con que se desea estimar el parmetro ( es la amplitud del intervalo de confianza). Estimacin de una media Los datos que tenemos que incluir en la frmula para calcular el nmero de sujetos necesarios en la muestra (N) son: 1. Z/2: valor de Z correspondiente al riesgo fijado. El riesgo fijado suele ser 0,05 y Z/2 de 1,96. 2. 3. : Varianza de la distribucin de la variable cuantitativa que se supone que existe en la poblacin. : Precisin con que se desea estimar el parmetro ( es la amplitud del intervalo de confianza). yo lo dije asi....
Contraste de hiptesis
Para conocer el tamao de la muestra en un estudio de investigacin en el que queremos conocer las diferencias existentes entre dos hiptesis, debemos conocer previamente: error tipo I y tipo II: Hay que establecer el riesgo de cometer un error de tipo I que se est dispuesto a aceptar. Normalmente de forma arbitraria se acepta un riesgo del 5%. Adems hay que establecer el riesgo que se acepta de cometer un error tipo II, que suele ser entre el 5 y el 20%. Si la hiptesis es unilateral o bilateral: El planteamiento de una hiptesis bilateral o "de dos colas" requiere mayor tamao muestral. Definir la Magnitud de la diferencia efecto o asociacin que se desea detectar: A mayores diferencias preestablecidas en el planteamiento de la hiptesis, menor tamao muestral, y a menor diferencia, mayor espacio muestral. Conocer la variabilidad del criterio de evaluacin en la poblacin.
Tamao de la muestra Comparacin de dos proporciones Para calcular el nmero de sujetos necesarios en cada una de las muestras (n), debemos prefijar: 1,96 = Valor Z correspondiente al riesgo deseado 1,96 = Valor Z correspondiente al riesgo deseado, si es de dos colas. 0,13 = Valor de la proporcin en el grupo de referencia, placebo, control o tratamiento habitual. 0,44 = Valor de la proporcin en el grupo del nuevo tratamiento, intervencin o tcnica. 0,29 = Media de las dos proporciones y .
91
Coeficiente de correlacin La asociacin entre dos variables cuantitativas necesita normalmente la utilizacin del coeficiente de correlacin r de Pearson. Equivalencia de dos intervenciones Portal:Matemtica. Contenido relacionado con Matemtica.
Definicin
Sea la funcin de densidad de la distribucin normal definida como[1]
, a la distribucin se le
conoce como normal estndar. Se define Sn como la suma de n variables aleatorias, independientes, idnticamente distribuidas, y con una media y varianza 2 finitas (20): de manera que, la media de Sn es n y la varianza n2, dado que son variables aleatorias independientes. Con tal de hacer ms fcil la comprensin del teorema y su posterior uso, se hace una estandarizacin de Sn como
para que la media de la nueva variable sea igual a 0 y la desviacin estndar sea igual a 1. As, las variables Zn convergern en distribucin a la distribucin normal estndar N(0,1), cuando n tienda a infinito. Como consecuencia, si (z) es la funcin de distribucin de N(0,1), para cada nmero real z:
92
Enunciado formal
De manera formal, normalizada y compacta el enunciado del teorema es:[3]
Teorema del lmite central: Sea , , ..., un conjunto de variables aleatorias, independientes e idnticamente distribuidas con
Entonces .
puesto que son equivalentes, as como encontrarlo en versiones no normalizadas como puede ser:[4][5]
Teorema (del lmite central): Sea ,
2
, ...,
una distribucin con media y varianza 0. Entonces, si n es suficientemente grande, la variable aleatoria
Nota: es importante remarcar que este teorema no dice nada acerca de la distribucin de de media y varianza.
[4]
, excepto la existencia
Propiedades
El teorema del lmite central garantiza una distribucin normal cuando n es suficientemente grande. Existen diferentes versiones del teorema, en funcin de las condiciones utilizadas para asegurar la convergencia. Una de las ms simples establece que es suficiente que las variables que se suman sean independientes, idnticamente distribuidas, con valor esperado y varianza finitas. La aproximacin entre las dos distribuciones es, en general, mayor en el centro de las mismas que en sus extremos o colas, motivo por el cual se prefiere el nombre "teorema del lmite central" ("central" califica al lmite, ms que al teorema). Este teorema, perteneciente a la teora de la probabilidad, encuentra aplicacin en muchos campos relacionados, tales como la inferencia estadstica o la teora de renovacin.
Referencias
[1] Filmus, Yuval (Enero/Febrero 2010) (en ingls). Two Proofs of the Central Limit Theorem (http:/ / www. cs. toronto. edu/ ~yuvalf/ CLT. pdf). pp.1-3. . Consultado el 13-12-2010. [2] Grinstead, Charles M.; Snell, J. Laurie (1997). 9. Central Limit Theorem (http:/ / www. dartmouth. edu/ ~chance/ teaching_aids/ books_articles/ probability_book/ Chapter9. pdf) (en ingls, PDF). Introduction to Probability (http:/ / books. google. es/ books?id=14oq4uWGCkwC) (2 edicin). AMS Bookstore. pp.325-360. ISBN 0821807498. . Consultado el 15/04/2009. [3] Charles Stanton. Central limit theorem (http:/ / www. math. csusb. edu/ faculty/ stanton/ probstat/ clt. html) (en ingls). Probability and Statistics Demos (http:/ / www. math. csusb. edu/ faculty/ stanton/ ). Consultado el 13 de diciembre de 2010. [4] Wasserman, Larry. 5. Convergence of Random Variables (en ingls). All of Statistics. Springer. p.77. ISBN 0-387-40272-1. [5] *Weisstein, Eric W. Central Limit Theorem (http:/ / mathworld. wolfram. com/ CentralLimitTheorem. html) (en ingls). MathWorld. Wolfram Research.
Blaiotta, Jimena; Delieutraz, Pablo (30 de julio de 2004). Teorema central del lmite (https://www.u-cursos. cl/ingenieria/2009/2/MA3401/1/material_docente/bajar?id_material=260765) (en castellano) (PDF).
Teorema del lmite central Consultado el 15 de diciembre de 2010. Behar Gutirrez, Roberto; Grima Cintas, Pere (2004) (en castellano). 55 respuestas a dudas tpicas de Estadstica. Madrid: Ediciones Daz de Santos, S.A. pp.187-189. ISBN 84-7978-643-4.
93
Enlaces externos
Wikimedia Commons alberga contenido multimedia sobre Teorema del lmite central. Commons
Ronald Fisher
Ronald Aylmer Fisher, (n. Londres, 17 de febrero de 1890 m. Adelaida, 29 de julio de 1962) cientfico, matemtico, estadstico, bilogo evolutivo y genetista ingls. Fisher realiz muchos avances en la estadstica, siendo una de sus ms importantes contribuciones, la inferencia estadstica creada por l en 1920.
Biografa acadmica
Fisher naci en East Finchley, Londres. En 1909 la escasez de sus recursos econmicos y su extraordinaria capacidad acadmica le valieron una beca para cubrir su estancia en el Gonville and Caius College de la Universidad de Cambridge, donde obtuvo su graduacin en matemticas en 1913. Dos aos antes, se haba convertido en uno de los fundadores ms activos de la Sociedad de Eugenesia de la Universidad de Cambridge, junto con John Maynard Keynes, R. C. Punnett y Horace Darwin, hijo de Charles Darwin.
Ronald Aylmer Fisher.
Durante la guerra, Fisher atraves momentos de extrema caresta econmica. A pesar de las dificultades, comenz a escribir reseas de libros para la Eugenic Review e increment gradualmente su inters en el trabajo gentico y estadstico. Public varios artculos sobre biometra, incluyendo el clebre The Correlation Between Relatives on the Supposition of Mendelian Inheritance, que inaugur la fundacin de la llamada gentica biomtrica e introdujo la metodologa del anlisis de varianza, considerablemente superior a la de la correlacin. El artculo mostraba que la herencia de rasgos, mensurables por valores reales, los valores de variables continuas, era consistente con los principios mendelianos.
Estadstica
En 1919 Fisher empez a trabajar en la Rothamsted Experimental Station (Harpenden, Hertfordshire, Inglaterra). All comenz el estudio de una extensa coleccin de datos, cuyos resultados fueron publicados bajo el ttulo general de Studies in Crop Variation. Durante los siguientes siete aos, se dedic al estudio pionero de los principios del diseo de experimentos (The Design of Experiments, 1935), elabor sus trabajos sobre el anlisis de varianza y comenz a prestar una atencin especial a las ventajas metodolgicas de la computacin de datos (Statistical Methods for Research Workers, 1925). Su respuesta al problema estadstico de los investigadores en biologa y agronoma fue introducir y desarrollar ideas originales en el campo de la inferencia estadstica y en el de diseo de
Ronald Fisher experimentos. Por ejemplo, descubri la utilidad del uso de los cuadrados latinos para mejorar significativamente los mtodos agrcolas, cuando se hallaba investigando la eficacia de los fertilizantes en el rendimiento de las cosechas e intentando que la calidad de la tierra no fuese un factor indeseable que influyese en el rendimiento de la cosecha.[1]
94
Eugenesia
Fisher fue un ardiente promotor de la eugenesia, que estimul y guio gran parte de su trabajo en gentica humana. Su libro The Genetical Theory of Natural Selection consisti en una sntesis de la literatura ya publicada al respecto, introduciendo tambin nuevas ideas sobre la seleccin sexual, el mimetismo y la evolucin de la dominancia. Un tercio de la obra estaba dedicado a la aplicacin de estas ideas al ser humano. Fisher atribua el declive y la cada de las civilizaciones al hecho de que se haba alcanzado un momento histrico en el que haba comenzado a decaer la fertilidad de las clases altas. Utilizando los datos del censo de 1911 para Gran Bretaa, Fisher mostraba la relacin inversa entre fertilidad y clase social. La causa, en su opinin, radicaba en el incremento del estatus social de las familias que no eran capaces de producir mucha descendencia, pero que haban crecido por las ventajas econmicas asociadas a tener un nmero reducido de hijos. Para superar esta "lacra", Fisher propona que las ventajas econmicas de las que disfrutaban las familas pequeas, desaparecieran por medio de subsidios estatales. Entre 1929 y 1934 Fisher particip muy activamente en la campaa emprendida por la Eugenics Society a favor de la aprobacin de una ley que permitiese la esterilizacin en base a criterios eugnicos, una esterilizacin voluntaria y positiva que nunca se aplicase como castigo. En 1929 fue admitido en la Royal Society. El reconocimiento hizo crecer su fama y se convirti en un investigador docente de prestigio internacional. En 1933 abandon Rothamsted para ocupar la ctedra de Eugenesia en la University College London. En 1939, con el inicio de la guerra, la ctedra fue disuelta y se exili a Rothamsted. En 1943, despus de atravesar una larga crisis econmica y personal, ocup la Ctedra de Gentica en Cambridge. Sus trabajos sobre el cromosoma del ratn culminaron en 1949 con la publicacin de The Theory of Inbreeding. En 1947 fund junto con Cyril Darlington la revista Heredity: An International Journal of Genetics. Despus de retirarse de Cambridge en 1957 se integr como investigador senior en el CSIRO en Adelaida, Australia. Muri de cncer de colon en 1962.
Ronald Fisher
95
Referencias
[1] Tony Crilly (2011). 50 cosas que hay que saber sobre matemticas. Ed. Ariel. ISBN 978-987-1496-09-9.
Box, Joan Fisher (1978) R. A. Fisher: The Life of a Scientist, New York: Wiley, ISBN 0-471-09300-9. David Howie, "Interpreting Probability: Controversies and Developments in the Early Twentieth Century" (Cambridge University Press, 2002) Salsburg, David (2002) The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, ISBN 0-8050-7134-2
Bibliografa
Seleccin de artculos
Disponibles en University of Adelaide website (http://www.library.adelaide.edu.au/digitised/fisher): "Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population." Biometrika, 10: 507-521. (1915) "The correlation between relatives on the supposition of Mendelian inheritance" Trans. Roy. Soc. Edinb., 52: 399-433. (1918). "On the mathematical foundations of theoretical statistics]" Philosophical Transactions of the Royal Society, A, 222: 309-368. (1922) "On the dominance ratio. Proc. Roy. Soc. Edinb., 42: 321-341. (1922) "On a distribution yielding the error functions of several well known statistics" Proc. Int. Cong. Math., Toronto, 2: 805-813. (1924) "Theory of statistical estimation" Proceedings of the Cambridge Philosophical Society, 22: 700-725 (1925) "Applications of Student's distribution" Metron, 5: 90-104 (1925) "The arrangement of field experiments" J. Min. Agric. G. Br., 33: 503-513. (1926) "The general sampling distribution of the multiple correlation coefficient" Proceedings of Royal Society, A, 121: 654-673 (1928) "Two new properties of mathematical likelihood" Proceedings of Royal Society, A, 144: 285-307 (1934)
Libros
La lista completa de las publicaciones se encuentra disponible en University of Adelaide website (http:/ / www. library.adelaide.edu.au/digitised/fisher): Statistical Methods for Research Workers (1925) ISBN 0-05-002170-2. The Genetical Theory of Natural Selection (1930) ISBN 0-19-850440-3. Cap. 1 online (http://www.blackwellpublishing.com/ridley/classictexts/fisher1.asp) Cap. 6 online (http://www.blackwellpublishing.com/ridley/classictexts/fisher2.asp) The design of experiments (1935) ISBN 0-02-844690-9, ISBN B0000CKL1X The use of multiple measurements in taxonomic problems (in Annals of Eugenics 7/1936) Statistical tables for biological, agricultural and medical research (1938, coautor:Frank Yates) The theory of inbreeding (1949) ISBN 0-12-257550-4, ISBN 0-05-000873-0 Contributions to mathematical statistics (1950) ISBN B0000CHSZU. Statistical methods and statistical inference (1956) ISBN 0-02-844740-9 Collected Papers of R.A. Fisher (1971-1974). 5 vol. University of Adelaide.
Ronald Fisher
96
Biografas
Box, Joan Fisher (1978) R. A. Fisher: The Life of a Scientist, New York: Wiley, ISBN 0-471-09300-9. Preface (http://www-groups.dcs.st-and.ac.uk/~history/Extras/Fisher_Life.html) Frank Yates & Kenneth Mather (1963) Ronald Aylmer Fisher. Biographical Memoirs of Fellows of the Royal Society of London 9:91-120 Available on University of Adelaide website (http://digital.library.adelaide.edu. au/coll/special//fisher/fisherbiog.pdf)
Enlaces externos
Wikiquote alberga frases clebres de o sobre Ronald Fisher. Wikiquote Una gua de R. A. Fisher, por John Aldrich (http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/ rafreader.htm) Sobre la contribucin de Fisher al lenguaje de la Estadstica (http://members.aol.com/jeff570/mathword.html) Bibliografa, biografa y 2 volmenes de correspondencia y artculos, de la Biblioteca de la Universidad de Adelaide (http://www.library.adelaide.edu.au/digitised/fisher/index.html) Primera edicin del Statistical Methods for Research Workers (http://psychclassics.yorku.ca/Fisher/Methods/ ) Una coleccin de citas de Fisher compiladas por A. W. F. Edwards (http://www.economics.soton.ac.uk/staff/ aldrich/fisherguide/quotations.htm)
97
98
99
Licencia
100
Licencia
Creative Commons Attribution-Share Alike 3.0 Unported //creativecommons.org/licenses/by-sa/3.0/