Sie sind auf Seite 1von 5

T.E.

I Anlisis de datos 1

ANLISIS DE DATOS




Medida e incertidumbre

El clculo de errores es una tcnica
para determinar el intervalo dentro del cual
esperamos que se encuentre el verdadero valor
de una magnitud con una probabilidad dada.
La magnitud puede ser el resultado de
una medida directa o un clculo hecho a partir
de una o varias medidas.
El intervalo de incertidumbre se expre-
sa dando su centro (el resultado) y su radio (el
error o incertidumbre). La probabilidad o nivel
de confianza es implcita la mayor parte de las
veces.


El clculo de errores forma parte del
proceso de experimentacin: planificacin,
diseo, montaje, depuracin, ejecucin, anlisis
de datos, informe de resultados.
Mediante el anlisis de errores el
estudiante averigua la contribucin de cada
instrumento de medida a la incertidumbre del
resultado final, estimando los lmites de pre-
cisin de cada variable y la manera en que los
errores se propagan en los clculos.


Estimacin del error de una medida

Cuando una variable x se mide repe-
tidas veces los resultados x
i
quedan ms o
menos dispersos en torno a su valor medio,


La dispersin de los datos se cuantifica
mediante la desviacin tpica, que es la media
cuadrtica de sus desviaciones respecto de la
media:


Las medidas en el laboratorio siempre
son una muestra del conjunto infinito de ellas
que se podran hacer y la media obtenida con
esta muestra no es la verdadera. Se puede
demostrar que en estas condiciones la mejor
estimacin de la desviacin tpica es


Cuando se hacen sucesivas series de
medidas de una misma magnitud se observa
que la media no es la misma en cada serie sino
que tiene una dispersin. La desviacin tpica
de las medias es menor que la de los datos en
cada serie. Su valor es:


La desviacin tpica de la media se usa
como estimacin del error aleatorio de un
conjunto de datos. Con muestras grandes, la
distribucin de stos es aproximadamente
gaussiana y el nivel de confianza del intervalo
x es de un 68,3%.
Cuando tenemos un slo dato, la
estimacin del error se hace a travs de la
precisin del instrumento de medida. Tomamos
como intervalo de incertidumbre la divisin ms
pequea de su escala; o el dgito de menor
orden si la lectura se hace en un display
numrico.




En el ejemplo de la figura el resultado
de la medida est comprendido entre 2,7 y 2,8;
por tanto se toma como radio del intervalo de
incertidumbre la mitad de la divisin ms
pequea:


Cuando usamos un valor tabulado y no
se indica la incertidumbre asumimos que todas
las cifras que se dan son exactas. Por ejemplo:


medida x
divisin menor
del instrumento
2 3
T.E. I Anlisis de datos 2

Propagacin de las incertidumbres

Supongamos un experimento en el que
el resultado r se obtiene como funcin de n
variables medidas o datos tabulados x
1
, x
2
x
n :


La incertidumbre del resultado (o ms
bien una cota superior de ste) se deduce
identificando las incertidumbres r y x
i
con las
diferenciales de la funcin y de las variables:


Y de aqu,


Se toman valores absolutos de las
derivadas parciales porque la contribucin de
una variable al error total no tiene por qu
compensarse con la de otra.
Si la incertidumbre de las variables se
puede estimar como desviacin tpica (x
i
) de
conjuntos de medidas repetidas; y si las varia-
bles y sus incertidumbres son independientes,
la incertidumbre del resultado es menor:


Es decir, las incertidumbres asociadas
a las distintas variables se suman cuadrtica-
mente en vez de ser la suma directa.

Ejemplo

Se quiere determinar la densidad molar
del aire encerrado en un tanque a presin
admitiendo que se verifica la ecuacin de
estado del gas ideal:


La temperatura T = 27 C se mide con
un sensor de 1 C de precisin. La incertidum-
bre en la medida de la presin es del 1%. La
constante de los gases R se conoce por las
tablas con mucha mayor precisin. Se trata de
averiguar la incertidumbre del resultado y el
sensor que habra que cambiar para mejorarla.
La cota superior de error de la densi-
dad es:



Dividiendo por P/RT :


Sabemos que P/P = 1% = 0,01; T =
= 27 + 273 = 300 K y T = 0,5 K; R/R 0. Por
tanto,


Vemos que la contribucin de la tempe-
ratura a la incertidumbre de la densidad es
mucho menor que la de la presin. Si se quiere
mejorar el experimento habr que cambiar
primero el sensor de presin.


La distribucin gaussiana

Cuando se mide repetidas veces una
magnitud x, los resultados x
i
no son iguales
sino que se distribuyen aleatoriamente de
forma caracterstica. Si la magnitud puede
tomar cualquier valor en un intervalo de
nmeros reales, es decir, si es una variable
aleatoria continua, la distribucin de los
resultados suele ser simtrica en torno a un
valor medio ms probable, disminuyendo la
frecuencia con que se presenta un resultado
cuanto ms alejado est del valor central. En el
lmite cuando el nmero de medidas N , la
distribucin se ajusta a una gaussiana:


La funcin p(x) es la densidad de
probabilidad. Define la probabilidad por unidad
de intervalo de la variable de que el resultado
de una medicin est contenido en el entorno
de x; es decir, la probabilidad de que est entre
x y x+dx vale p(x)dx.
Para un intervalo cualquiera (a , b) la
probabilidad de que a x b se calcula inte-
grando las probabilidades elementales p(x)dx:

T.E. I Anlisis de datos 3




Geomtricamente, es el rea entre la
gaussiana y el eje x limitada por los segmentos
verticales en a y b. Como
, el rea bajo toda la gaussiana debe ser la
unidad.
El valor medio de la variable aleatoria x
con distribucin gaussiana es

y la varianza es el valor medio de (x )
2
, la
desviacin al cuadrado de los datos respecto
de la media:


La raz cuadrada de la varianza es la
desviacin tpica .
La probabilidad de que el resultado de
una medida est en el intervalo ( , + ) es:


Por tanto, cuando expresamos un
resultado como (x) (x), estamos dando un
intervalo de confianza de 68,3%. Indicamos con
ello que la probabilidad de que el verdadero
valor de x est en dicho intervalo es del 68,3%.
Si tomsemos 2 como incertidumbre, el nivel
de confianza sera de 95,4%.
Lo anterior es vlido para una magnitud
con distribucin gaussiana (tambin llamada
distribucin normal) en la que y se pueden
estimar con gran exactitud (N ). Pero
habitualmente tenemos un nmero de medi-
ciones limitado y la verdadera distribucin de
los datos no es gaussiana sino del tipo t de
Student.
La distribucin normal N( , ) no tiene
una primitiva que permita calcular la probabi-
lidad sustituyendo en los extremos de integra-
cin los lmites del intervalo considerado. En su
lugar se consultan tablas o se usan programas
de ordenador que incorporan estas funciones.
En Excel, por ejemplo, tenemos la
funcin:


El argumento acum es un parmetro
que puede tomar los valores 0 y 1; segn sea
el caso la funcin devuelve



Es decir, da como salida el valor de la
distribucin normal N( , ) en x (acum = 0) o la
probabilidad acumulada en el intervalo ( , x)
(acum = 1).
Las tablas estadsticas utilizan la
distribucin normal tipificada, que resulta de
hacer el cambio de variable


Esto equivale a desplazar el eje de
ordenadas a x = (con lo que la funcin es
simtrica respecto a z = 0) y a tomar como
unidad de medida de la variable (con lo que la
desviacin tpica de z siempre es 1). Del
cambio de variable resulta


Una tabla tpica proporciona la proba-
bilidad acumulada en el intervalo (z , ) para
una serie de valores de z > 0. Los valores
negativos de z no se tabulan pues teniendo en
cuenta que y que por simetra
se deduce que


Para calcular con la tabla la probabi-
lidad de que una variable aleatoria gaussiana
x tome un valor contenido en cierto intervalo
(a , b), en primer lugar hacemos el cambio de
variable x z , que nos da el intervalo (z
a
, z
b
).
Luego consultamos en la tabla las probabilida-
des en la cola de la gaussiana:

-3 -2 -1 1 2 3 4 5 x
p(x)
x+dx a b
T.E. I Anlisis de datos 4



La probabilidad de que x est en el in-
tervalo (a , b) es la diferencia de estos valores:


Si alguno de los valores es negativo,
por ejemplo z
a
, consultamos en la tabla el
valor correspondiente a z
a
y teniendo en cuenta
que resulta


Tambin hay tablas de la distribucin
normal inversa. Dan el valor z
c
de la variable
tipificada que deja en la cola de la gaussiana
una probabilidad determinada Pr.
En la tabla inversa que usamos estn
los valores crticos z
c
para unas pocas probabi-
lidades: 0.25; 0.10; 0.05; 0.025; 0.010; 0.005;
0.0025; 0.0010; 0.0005. Estos valores vienen
en la ltima fila, que corresponde a la distribu-
cin gaussiana (N ). Las otras filas dan los
valores crticos de la distribucin t de Student
para muestras de distintos tamaos o grados
de libertad (columna g.l.). Nosotros usaremos
siembre la distribucin gaussiana, aunque es
correcta slo para muestras muy grandes.
La tabla inversa es til para construir
intervalos de confianza de probabilidad prede-
terminada.
Por ejemplo, si queremos dar un resul-
tado con un nivel de confianza del 95% busca-
remos un intervalo de la variable tal que la
probabilidad de que el verdadero valor quede
fuera sea slo de un 5%. Esto supone un 2.5%
en cada cola de la gaussiana. Consultando la
tabla vemos que z
.025
= 1.960; por tanto, el
intervalo de confianza del 95% de la variable x,
de media (x) y desviacin tpica (x), ser:


Tambin se utiliza esta tcnica para
comparar un resultado experimental x
o
con el
valor terico que esperbamos x
t
; o dos re-
sultados experimentales obtenidos por procedi-
mientos diferentes.
La que queremos averiguar es si los
dos valores coinciden dentro de un intervalo de
confianza determinado. O, lo que es lo mismo,
si la diferencia |x
o
x
t
| es significativa a ese
nivel de confianza o puede achacarse a las
fluctuaciones aleatorias de la medida.
Para hallar la respuesta evaluamos la
diferencia d = |x
o
x
t
| y su incertidumbre:


Si la hiptesis de que x
o
x
t
es cierta,
la variable d deber tener una distribucin
gaussiana centrada en cero con desviacin
tpica (d). La prueba de esta hiptesis con-
siste en comprobar si la diferencia d observada
est dentro de un intervalo de confianza
elegido, por ejemplo el 95%, cuyo radio toma-
mos de la tabla: z
c
= z
.025
= 1,960. Haciendo el
cambio de variable d z,


Si z
o
z
c
, podemos concluir que x
o
y x
t

no difieren significativamente al nivel de con-
fianza especificado. Si z
o
z
c
, no podemos
achacar la diferencia a las incertidumbres y
tendremos que rechazar la hiptesis de que x
o

y x
t
coinciden.
Naturalmente, siempre hay un riesgo
de dar por vlida una coincidencia que no es tal
(falsos positivos) o rechazar un hiptesis co-
rrecta (falsos negativos). Hay que resaltar que
z depende de y por tanto hay que calcular
bien las incertidumbres para minimizar dichos
riesgos.

Ejemplo

El valor nominal de una resistencia es
de 1200 con una tolerancia del 2%. Unas
alumnas, estudiando la ley de Ohm, encuentran
que la grfica V I se ajusta a una recta de
pendiente 1174 V/A con desviacin tpica de
8 V/A. Difieren los dos valores significativa-
mente al nivel de confianza del 80%?

La diferencia entre los dos valores es
|R
exp
R
nom
| = 26 ; su desviacin tpica, te-
niendo en cuenta que (R
nom
) = 24 (2% de
1200), vale


La diferencia entre el valor observado y
el nominal, en unidades tipificadas, es


El valor lmite z
c
para un intervalo de
confianza del 80% (10% en cada cola de la
gaussiana) es z
.10
= 1,282. Como z < z
c
, la
T.E. I Anlisis de datos 5

diferencia no es significativa al nivel de
confianza especificado.

Excel tambin incorpora la funcin in-
versa de la gaussiana; proporciona el valor x
c

tal que la probabilidad acumulada en el
intervalo ( , x
c
) sea una Pr dada:



Ajuste lineal

Un problema que se presenta a
menudo es averiguar si existe cierta relacin
funcional entre dos magnitudes x e y. El caso
ms sencillo es la relacin lineal:


Si hemos medido una serie de pares de
valores {x
i
, y
i
} el problema consiste en
determinar la pendiente b y la ordenada en el
origen a de la recta que mejor se ajusta a los
puntos dato.
La distancia entre el punto (x
i
, y
i
) y la
recta de ajuste, medida segn el eje y, es


En el mtodo de mnimos cuadrados el
ajuste se hace buscando los valores de a y b
que minimizan la suma de estas distancias al
cuadrado:


Es fcil demostrar que la pendiente y la
ordenada en el origen que cumplen este
requisito valen:


Los valores medios que aparecen en
estas expresiones son:



Las incertidumbres de los parmetros a
y b se calculan suponiendo que (x
i
) 0 y que
todos los datos y
i
tienen la misma desviacin
tpica (y). Aplicando las propiedades de pro-
pagacin de errores se obtiene:


En general se desconoce (y) porque
slo se ha hecho una medida de esta variable
para cada valor de la x. En ese caso se estima
la desviacin tpica a partir de las desviaciones
de los datos y
i
respecto de la recta de ajuste. El
resultado es:


La mayora de las calculadoras tienen
funciones de ajuste lineal, pero no suelen dar
los errores de los parmetros a y b. S estn
disponibles en todos los programas inform-
ticos de clculo y anlisis de datos. En Excel,
por ejemplo, tenemos la funcin


Se trata de una funcin matricial por-
que devuelve un conjunto de hasta 10 valores
estadsticos. A nosotros nos interesan los 6
primeros, que obtenemos seleccionando para
salida una matriz de 3 2 celdas en la hoja de
clculo.
Los argumentos de la funcin son:
rango_y (el rango de celdas donde hemos
escrito los datos y
i
); rango_x (el rango donde
tenemos los datos x
i
); c
1
(un parmetro que
vale 1 si queremos un ajuste general y 0 si
deseamos que la recta pase por el origen); c
2

debe valer 1.
Una vez escritos los argumentos la
funcin matricial se introduce pulsando
CONTROL+MAYSCULAS+INTRO (en vez de INTRO
simplemente, como se hace en las funciones
escalares). El resultado que se obtiene en las
celdas seleccionadas es:
b a
(b) (a)
r
2
(y)

Es decir, la pendiente y ordenada en el
origen; sus desviaciones tpicas; y en la ltima
fila, el coeficiente de correlacin r
2
(un nmero
que se aproxima a 1 cuanto mejor es el ajuste)
y la incertidumbre estimada para los datos y
i
.

Das könnte Ihnen auch gefallen