Beruflich Dokumente
Kultur Dokumente
DE
BIOESTADÍSTICA
Carmen M. Cadarso-Suárez
(eicadar@usc.es)
Unidad de Bioestadística
Departamento de Estadística e IO
Facultad de Medicina
Universidad de Santiago de Compostela
NECESIDAD DE LA ESTADÍSTICA EN LAS CIENCIAS BIOMÉDICAS
C) La investigación biomédica.
DE LA ESTADÍSTICA
EN LA LITERATURA MÉDICA
• De los artículos publicados en revistas médicas, aproximadamente UN GRAN
PORCENTAJE de los que incorporan métodos estadísticos, los utilizan
incorrectamente.
I. DISEÑO
II. ANÁLISIS
III. PRESENTACIÓN
IV. INTERPRETACIÓN
Acuerdo de Vancouver (British Columbia)
Apartado: Estadística
• Los métodos estadísticos deben ser descritos con suficiente detalle para
permitir que un lector interesado, con acceso a los datos originales,
pueda verificar los resultados que se informan.
• Siempre que sea posible se deberá cuantificar los hallazgos y
presentarlos con indicadores apropiados de error o incertidumbre
(como los intervalos de confianza).
• Evite basarse sólo en pruebas de hipótesis, como el uso de valores de
“p”, que fallan en proporcionar importante información cuantitativa, y
discuta la elegibilidad de los sujetos dando detalles acerca de la
aleatorización.
• Señale el número de observaciones y las pérdidas durante el estudio
(tales como abandonos en un ensayo clínico).
• Las referencias acerca del diseño del estudio y métodos estadísticos
deben ser de publicaciones estándar siempre que sea posible
(señalando las páginas pertinentes), más bien que de los artículos
donde fueron originalmente propuestos.
• Se debe especificar el empleo de cualquier programa computacional de
uso general.
• Evite el uso no técnico de términos estadísticos, tales como “azar” (lo
cual implica un mecanismo aleatorio), “normal”, “significativo”,
“correlaciones” y “muestra”. Defina los términos estadísticos,
abreviaciones y los símbolos.
¿Qué suelen exigir las revistas biomédicas?
…….
D. STATISTICS
• The AJO recommends that authors ensure statistical expertise for a study
that has statistical content.
• Statistical methods must be identified in the manuscript whenever they are used.
• When P values are used, the actual P value (for example, P = .032) is preferred to
an inequality (for example, P < .05).
• Reporting basic summary statistics, such as the mean and the standard error, as
well as confidence limits, also helps the reader understand the conclusions of the
study.
• Authors should state the levels for alpha and beta errors and the clinically
significant difference that was used to determine the power calculation.
Editorial Board
Donna K. Arnett, Phd, MSPH
Tim Byers, MD, MPH
Harvey Checkoway, PhD, MPH
Francesca Dominici, PhD
Janice Dorman, PhD
Manning Feinleib, MD, DRPH
Aaron R. Folsom, MD, MPH
Gary D. Friedman, MD
Ichiro Kawachi, MD, PhD
Muin J. Khoury, MD, PhD
Mark Klebanoff, MD
Myron M. Levine, MD, DRPH
Martha S. Linet, MD, MPH
George G. Rhoads, MP, MPH
Donna Spiegelman, ScD
Janet L. Stanford, PhD
David Vlahov, PhD
Abbreviations. To improve clarity and readability, the Journal strictly limits the use
of abbreviations. Only those needed for long, involved terms, such as hepatitis B
surface antigen (HBsAg), will be allowed. The abbreviations CI, RR, OR, and SMR
may be used only in parentheses after being defined the first time used. ...
p values. Note style for probability: p < 0.01, with a lowercase letter p. Avoid
reporting an excessive number of digits beyond the decimal for estimates, especially
when the estimate has a wide confidence interval. If p values are given, they should
be reported to at most two digits beyond any leading zeros. They may alternatively
be reported as less than some specified value (e.g., p < 0.05 or p < 0.001). Indicate
whether p values are one sided or two sided.
Confidence intervals. In the text, all confidence intervals are expressed by using a
colon and with a comma instead of a dash between values, for example, (95 percent
confidence interval: 1.20, 1.90). In tables, place confidence intervals in a separate
column without parentheses, for example, 1.20, 1.90.
Statistical notation. Equations can appear within the text or displayed. Whenever
possible, mathematical equations should be written on a single line, as a/ (a + b) and
exp(x). With proper use of braces, brackets, parentheses, and exponents, even
complicated expressions can be put into this form. However, any mathematical
expression that contains a character taller than a line of type should be displayed
and numbered as an equation. When referring to an equation in the text, use
“equation 6” or “expression 6,” with a lowercase “e.”
When preparing math, use italic type for variables and single letters, bold type for
vectors, and regular type for short words such as “exp” or “lim.” Insert a space before
and after any mathematical sign or symbol. .......
Data Analysis: It is the author's responsibility to document that the results are
reproducible and that the differences found are not due to random variation. No
absolute rules can be applied, but in general quantitative data should be from no
fewer than three replicate experiments. Appropriate statistical methods should be
used to test the significance of differences in results. The term "significant" should
not be used unless statistical analysis was performed, and the probability value used
to identify significance (e.g., P > 0.05) should be specified.
When several t tests are employed, authors should be aware that nominal probability
levels no longer apply. Accordingly, the multiple t test, multiple range test, or similar
techniques to permit simultaneous comparisons should be employed. Also, in lieu of
using several t tests, it is often more appropriate to utilize an analysis of variance
(ANOVA) to permit pooling of data, increase the number of degrees of freedom, and
improve reliability of results. Authors should use appropriate nonparametric tests
when the data depart substantially from a normal distribution.
Analysis of variance tables should not be inserted in manuscripts. F values with the
degrees of freedom as subscripts together with the P values are sufficient.
In presenting results of linear regression analyses, it is desirable to show 95%
confidence limits.
When data points are fitted with lines (as in Scatchard or Lineweaver-Burk plots), the
method used for fitting (graphical, least squares, computer program) should be
specified. If differences in slopes and/or axis intercepts are claimed for plotted lines,
these should be supported by statistical analysis.
Useful references for statistical methods are
McArthur, J. W., and T. Colten (eds.), Statistics in Endocrinology, MIT Press,
Cambridge, 1970, and Finney, D. J., Statistical Method in Biologic Assays, ed. 2,
Griffin, London, 1967.
Advice to contributors
Special methods
Statistical methods
Please define the methods and support them with references, describing in detail any that are not
in common use.
General guidelines on using statistical methods and interpreting and presenting statistical material,
as well as specific recommendations on statistical estimation and significance, have been
published in the BMJ. Please see the linked articles.
Also see :Altman DG, Machin D, Bryant TN, Gardner MJ (eds). Statistics with
Please report these in accordance with the CONSORT (Consolidated Standards of Reporting
Trials) statement.
See - The CONSORT statement: revised recommendations for improving the quality of reports of
parallel-group randomised trials.
See: Better reporting of randomised controled trials: the CONSORT statement
Please report these in accordance with the QUOROM (Quality of Reporting of Meta-analyses)
statement (Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF, for the QUOROM
Group. Improving the quality of reports of meta-analyses of randomised controlled trials: the
QUOROM statement. Lancet 1999; 354:1896-1900. www.thelancet.com )
Una “estadística”
30
25
20
% Artículos 15
10
0
0 1 2 3 >=4
Nº de técnicas estadísticas
• CONCEPTOS BÁSICOS.
• TIPOS DE VARIABLES.
• BASES DE DATOS.
POBLACIÓN: Es el conjunto (o universo) de individuos a los cuales va dirigida
nuestra investigación.
( X1 , X 2 ,...., X n )
ESTADÍSTICO MUESTRAL: Es una función de la muestra aleatoria, que permite
aproximar el parámetro de interés.
MEDIA =µ → MEDIA MUESTRAL
1 1 n
X = ( X 1 + X 2 + .... + X n ) = ∑ X i
n n i =1
1 n
∑ ( Xi − X )
2
VARIANZA = σ → S2 =
2
VARIANZA MUESTRAL
n − 1 i=1
POBLACIÓN
Conjunto de pacientes cirróticos
VARIABLE ALEATORIA
X=Albúmina
PARÁMETRO
µ = promedio de albúmina
n=500
MUESTRA ALEATORIA
MEDIA DE LA MUESTRA
ESTADÍSTICA
1
x= (2.35 + 3.21 + 4.20 + ..... + 3.60)
500 DESCRIPTIVA
DEFINICIÓN DE “BIOESTADÍSTICA”
POBLACIÓN.
Nº de hijos/mujer.
Nº de casos nuevos de SIDA/mes en un área hospitalaria.
EDAD (años)
ALB (albúmina)
HB (Hemoglobina)
HCTO (Hematocrito)
LEUCOS (Leucocitos)
HEMAT (Hematíes)
GLUC (Glucosa)
DESCRIPTIVA
es fundamental
para la inferencia”
1. TABLAS DE FRECUENCIAS
Ø UNIVARIANTES
Ø BIVARIANTES: TABLAS DE CONTINGENCIA
Ø MEDIA
Ø MEDIANA
Ø MODA(S)
3. MEDIDAS DE POSICIÓN
Ø PERCENTILES
4. MEDIDAS DE DISPERSIÓN
Ø RANGO
Ø VARIANZA
Ø DESVIACION TÍPICA
Ø COEFICIENTE DE VARIACIÓN
5. REPRESENTACIONES GRÁFICAS
Ø DIAGRAMA DE SECTORES
Ø DIAGRAMA DE BARRAS
Ø HISTOGRAMA
Ø DIAGRAMA DE CAJAS (BOX-PLOT)
Ø DIAGRAMA DE LÍNEAS “MEDIA ± DT”
Ø CURVAS PERCENTIL
TABLAS DE FRECUENCIAS UNIVARIANTES
PATOL
Porcentaje Porcentaje
SEXO Frecuencia Porcentaje válido acumulado
Válidos inflam 1054 44.8 44.8 44.8
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado neo 518 22.0 22.0 66.8
Válidos varón 1154 49.0 49.0 49.0 traum 65 2.8 2.8 69.6
mujer 1199 51.0 51.0 100.0 otras 716 30.4 30.4 100.0
Total 2353 100.0 100.0 Total 2353 100.0 100.0
DESNUTR
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado INFEC
Válidos si 97 4.1 4.1 4.1 Porcentaje Porcentaje
no 2249 95.6 95.9 100.0 Frecuencia Porcentaje válido acumulado
Total 2346 99.7 100.0 Válidos si 464 19.7 19.7 19.7
Perdidos Sistema 7 .3 no 1889 80.3 80.3 100.0
Total 2353 100.0 Total 2353 100.0 100.0
TABLAS DE FRECUENCIAS BIVARIANTES: “TABLAS DE CONTINGENCIA”
TIP_OPER TIP_OPER
limpia pot_cont contam sucia Total limpia pot_cont contam sucia Total
INFEC si Recuento 51 146 83 184 464 INFEC si Recuento 51 146 83 184 464
% de INFEC 11.0% 31.5% 17.9% 39.7% 100.0% % de TIP_OPER 5.8% 19.4% 28.2% 42.7% 19.7%
no Recuento 824 607 211 247 1889 no Recuento 824 607 211 247 1889
% de INFEC 43.6% 32.1% 11.2% 13.1% 100.0% % de TIP_OPER 94.2% 80.6% 71.8% 57.3% 80.3%
Total Recuento 875 753 294 431 2353 Total Recuento 875 753 294 431 2353
% de INFEC 37.2% 32.0% 12.5% 18.3% 100.0% % de TIP_OPER 100.0% 100.0% 100.0% 100.0% 100.0%
MEDIDAS DE CENTRALIZACIÓN / LOCALIZACIÓN
la muestra:
1 1 n
X = ( x1 + x2 + ...... + xn ) = ∑ xi
n n i =1
• MEDIANA (Me):
• RANGO
Rango = xmax − xmin
• VARIANZA
1
S2 = n1 ( x1 − x ) + n2 ( x2 − x ) + ........ + nk ( xk − x ) =
2 2 2
n −1
1 k
= ∑ i( i ) −
2
n x x
n − 1 i =1
• DESVIACIÓN TÍPICA
S = DT = + S 2
X ± DT
DT
CV = (CV 100%)
X
MEDIDAS DE POSICIÓN
CUARTILES:
Son 3 valores, Q 1, Q2, y Q 3 que dividen a la muestra en 4 partes de igual
frecuencia.
Q1 Q2 Q3
PERCENTILES:
Son 99 valores, P1, P2, ... P 99 que dividen a la muestra en 100 partes de igual
frecuencia.
α )100%
(1-α α 100%
P(1-αα )100%
Queremos describir la EDAD de los pacientes operados..........
Estadísticos
EDAD
N Válidos 2351
Perdidos 2
Media 54.63
Mediana 59.00
Desv. típ. 20.011
Varianza 400.435
Rango 83
Mínimo 14
Máximo 97
Percentiles 10 24.00
25 38.00
50 59.00
75 71.00
90 79.00
Descriptivos por grupos
Queremos comparar la EDAD en varones y mujeres........
Analizar
→Tablas personalizadas
→ Tablas básicas.......
varón mujer
Total
Mínimo 14.00 14.00 14.00
Máximo 97.00 96.00 97.00
Media 53.53 55.69 54.63
Mediana 57.00 59.00 59.00
Moda 68.00 63.00 68.00
Percentil 25 37.00 41.00 38.00
Percentil 75 70.00 72.00 71.00
DT 20.23 19.74 20.01
N válido N=1154 N=1197 N=2351
Ø Diagrama de Sectores
Ø Diagrama de Barras
Ø Histograma
Ø Curvas Percentil
DIAGRAMA DE SECTORES
(n=2353 pacientes)
mujer varón
51.0% 49.0%
sucia
18.3%
limpia
37.2%
contam
12.5%
pot_cont
32.0%
DIAGRAMA DE BARRAS
Tipo de operación
40
%
30
20
10
0
limpia pot_cont contam sucia
Infección post-quirúrgica
(n=2353)
100
80
80
60
40
20
20
%
0
si no
HISTOGRAMA
Representación gráfica de variables CONTÍNUAS por intervalos.
Distribución de la Hemoglobina
1000
800
600
400
nº de pacientes
200
Desv. típ. = 2.13
Media = 13.1
0 N = 2344.00
Distribución de la Glucosa
600
500
400
300
200
nº de pacientes
100
0
60 80 100 120 140 160 180 200 220 240 260 280
Desventajas
k=25 k=4
600
500
400
300
200
100
0
3 4 5 6 6 7 8 8 9 10 11 11 12 13 13 14 15 16 16 17 18 18 19 20 21
Construcción
a) La caja comienza en Q1, y remata en Q3. La línea vertical más gruesa representa Q2 (la mediana).
100
100
90
90
80
80
70
70
60
EDAD (años)
60
EDAD (años)
50
50
40
40
30
30
20
20
10
10 0
N= 464 1887
0
INFEC NO INFEC
GLUCOSA
INFEC
NO INFEC
50 100 150 200 250 300 50 100 150 200 250 300
glucosa GLUCOSA
± DT”
DIAGRAMA “MEDIA±
141.4
141.2
141.0
140.8
140.6
140.4
140.2
N= 255 243
varón mujer
Informe
TALLA
Talla (cms.) de niños gallegos de 10 años
SEXO 170
varón mujer
150
135
120 SEXO
105 varón
90 mujer
3 4 5 6 7 8 9 10 11 12
EDAD (años)
CURVAS “ PERCENTIL”
60 60
50 50
40 40
30 30
20 20
10 10
3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00
EDAD EDAD
160 160
140 140
120 120
100 100
80 80
3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00
EDAD EDAD
24 24
23 23
22 22
21 21
20 20
19 19
18 18
17 17
16 16
15 15
14 14
13 13
12 12
11 11
3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00
EDAD EDAD