Sie sind auf Seite 1von 45

Explorando Datos

" Hat ¿Los datos dicen?" es la primera pregunta que


hacemos en cualquier estudio estadístico. El análisis de
los datos responde a esta pregunta abierta por la
exploración de los datos. Las herramientas de análisis
de datos son gráficos, tales como histogramas y
scatterplots y medidas numéricas como medio y
correlaciones.
Al menos tan importante como las herramientas son principios que organizar nuestro

W
pensamiento a medida que examinamos los datos. Los siete capítulos de la Parte I presenta los
principios y las herramientas de análisis estadístico de los datos. Que equiparlo con las
habilidades que son inmediatamente útiles siempre que tratar con números.
Estos capítulos reflejan el fuerte énfasis en explorar datos que caracteriza la moderna- Statis
tics. A veces esperamos sacar conclusiones que se aplican a un valor que va más allá de los datos
en la mano. Esta es la inferencia estadística, el tema de gran parte del resto del libro. El análisis
de los datos es esencial si hemos de confiar en los resultados de la inferencia, pero el análisis de
los datos no es sólo la preparación para la inferencia. A grandes rasgos, que siempre se puede
hacer el análisis de datos, pero requiere un poco de inferencia condiciones especiales.
Uno de los principios de organización del análisis de datos es primero mirar una cosa a la
vez y, a continuación, en las relaciones interpersonales. Nuestra presentación sigue este
principio. En los capítulos 1, 2 y 3 se estudian variables y sus distribuciones. Los capítulos 4, 5 y
6 se refieren a las relaciones entre variables. El capítulo 7 revisa esta parte del texto.
Getty Images/Discovery Channel
imágenes

1
Esta página se ha dejado intencionadamente en blanco.
AP Photo/Mary Altaffer

Las distribuciones se
describiera con
gráficos

INTHISCHAPTER
ESCOVER...

Estadística es la ciencia de los datos. El volumen de datos disponibles para  Los individuos y las variables
nosotros es abrumar- ing. Por ejemplo, la Oficina del Censo recopila los datos  Las variables categóricas:
de la encuesta sobre la Comunidad Estadounidense de 3.000.000 unidades de gráficos circulares y gráficos de
vivienda cada año. Los astrónomos que trabajan con datos de decenas de barras
millones de galaxias. La desprotección de escáneres en 6500 Wal-Mart Stores
 Las variables cuantitativas:
en 15 países registrar cientos de millones de transacciones cada semana, todos histogramas
guardan para informar tanto a Wal-Mart y sus proveedores. El primer paso
 Interpretación de los histogramas
para hacer frente a esa avalancha de datos es organizar nuestro pensamiento
acerca de los datos. Afortunadamente, podemos hacerlo sin mirar a millones  Las variables cuantitativas: stemplots
de puntos de datos.  Parcelas de tiempo

Los individuos y las variables


Cualquier conjunto de datos contiene información sobre algún grupo de personas.
La infor- mación está organizado en variables.

Los individuos son los objetos descritos por un conjunto de datos. Los individuos
pueden ser personas, pero también pueden ser animales o cosas.

3
Esta página se ha dejado intencionadamente en blanco.
Esta página se ha dejado intencionadamente en blanco.
4 Capítulo 1 • Distribuciones describiera con gráficos

Un estudiante del colegio de la base de datos, por ejemplo, incluye datos sobre
cada estudiante. Los estudiantes son los individuos descritos por el conjunto de
datos. Para cada individuo, los datos que contienen los valores de variables tales
como fecha de nacimiento, la elección de los principales, y el promedio de
calificaciones. En la práctica, cualquier conjunto de datos se acompaña por
información que nos ayuda a comprender los datos. Cuando planee un estudio
estadístico o explorar los datos del trabajo de los demás, hágase las siguientes
preguntas:

1. ¿Quién? Lo que hacen los individuos describir los datos? Cuántas personas
aparecen en los datos?
2. ¿Qué? Cómo muchas variables no contienen los datos? ¿Cuál es el exacto
def- initions de esas variables? ¿En qué unidad de medida es cada variable
registrada? Pesas, por ejemplo, podrían registrarse en libras, en miles de libras,
o en kilogramos.
3. ¿Por qué? ¿Qué utilidad tienen los datos? Esperamos dar respuesta a algunas
preguntas concretas? ¿Queremos respuestas para estas personas o por algún
¿Qué es ese número?
grupo mayor que estos individuos se supone que representan? Son los
Usted podría pensar que los
individuos y las variables adecuadas para la finalidad?
números, a diferencia de las
palabras, son universales. Piénselo
de nuevo. Un "mil millones" en los
Algunas variables, como el sexo de una persona o colegio mayor, simplemente
Estados Unidos significa
1.000.000.000 (9 ceros). En coloque a los individuos en categorías. Otros, como la altura y el puntaje promedio
Europa, un "Mil Millones" es de de tomar valores numéricos para que podamos hacer operaciones aritméticas. No
1.000.000.000.000 (doce ceros). tiene sentido dar un ingreso promedio de los empleados de una empresa, pero no
Bien, esas son las palabras que tiene sentido dar un "promedio" de sexo. Sin embargo, podemos contar el número
describen los números. Pero las de los hombres y las mujeres empleados y realizar operaciones aritméticas con estas
comas en grandes números son
períodos en muchos otros idiomas.
cuentas.
Esto es tan confuso que los
estándares internacionales exigen
espacios en lugar, de modo que un
americano millones está escrito 1
000 000 000. Una variable categórica coloca a una persona en uno de varios grupos o categorías.
Y el punto decimal del mundo de Una variable cuantitativa toma valores numéricos para que las operaciones
habla inglesa es la coma aritméticas como adición y un promedio de sentido. Los valores de una variable
decimal en muchos otros idiomas,
cuantitativa usualmente se graban en una unidad de medida como segundos o
de modo que 3.1416 en los
kilogramos.
Estados Unidos se convierte en
3,1416 en Europa. Entonces,
¿cuál es el número 10,642.389?
Depende de donde usted se
encuentra.

E X A M P L E 1.1. La encuesta sobre la Comunidad Estadounidense


En el sitio Web de la Oficina del Censo, puede ver el detalle de los datos recopilados
por la Ameri- can encuesta comunitaria, aunque, por supuesto, las identidades de las
personas y unidades de vivienda están protegidos. Si elige el archivo de los datos
sobre las personas, las personas son las personas que viven en unidades de vivienda
consultados por la encuesta. Se registran más de 100 variables para cada individuo.
La figura 1.1 muestra una parte muy pequeña de los datos.
Cada fila contiene datos sobre un individuo. Cada columna contiene los valores
de una variable para todos los individuos. Traducido a partir de las abreviaturas de
la Oficina del Censo, las variables son las siguientes:
• Los individuos y las variables 5

Figura 1.1.

Una hoja de cálculo la visualización de


A B C D E F G
1 SERIALNO PWGTP AGEP JWMNP SCHL SEXO WAGP
los datos de la encuesta sobre la
comunidad estadounidense, por
2 283 187 66 24000
6 1 ejemplo, 1.1.
3 283 158 66 9 2 0
4 323 176 54 10 12 11900
2
5 346 339 37 10 11 1 6000
6 346 91 27 10 10 2 30000 Cada fila de la hoja de cálculo
7 370 234 53 10 13 1 contiene datos de un
8 83000 370 181 46 15 10 2 individuo.
370 155 18 9 2 0
74
00
0
9
10 487 233 26 14 2 800
11 487 146 23 12 2 8000
12 511 236 53 9 2 0
13 511 131 53 11 1 0
14 515
Eg01-01 213 38 11 2 12500
15 515 194 40 9 1 800
16 515 221 18 20 9 1 2500
17 515 193 11 3 1

SERIALNO Un número de identificación para el hogar.


PWGTP Peso en libras.
AGEP La edad en años.
JWMNP Tiempo de viaje al trabajo en cuestión de minutos.
SCHL Mayor nivel de educación. Las categorías son designados por números.
Por ejemplo, 9 graduados=de la escuela secundaria, 10 = algún
colegio pero ningún grado, y 13=de licenciatura.
Sexo Sexo, designado por 1= Masculinos = y 2 Hembra.
WAGP Sueldos y salarios el año pasado, los ingresos en dólares.
Mira la fila resaltada en la Figura 1.1. Este individuo es un 53-año-viejo que pesa
234 libras, viaja 10 minutos para trabajar, tiene una licenciatura y ganaban
$83,000 el año pasado.
Además del número de serie del hogar, hay seis variables. La educación y el sexo
son variables categóricas. Los valores de la educación y el sexo son almacenados
como números, pero estas cifras son sólo para las categorías y las etiquetas no tienen
unidades de medida. Los otros cuatro son variables cuantitativas. Sus valores no tiene
unidades. Estas variables son el peso en libras, la edad en años, en minutos, el tiempo
de viaje y los ingresos en dólares.
El propósito de la encuesta sobre la Comunidad Estadounidense es recoger datos
que representan a toda la nación a fin de orientar la política del gobierno y las
decisiones empresariales. Para ello, los hogares contactados son elegidos al azar de
entre todas las familias del país. Veremos en el Capítulo 8 ¿Por qué elegir al azar es
una buena idea. 

La mayoría de las tablas de datos siga este formato es un individuo cada fila y cada columna
Es una variable. El conjunto de datos en la Figura 1.1 aparece en un programa de hoja de cálculo que tiene Hoja de
cálculo
Filas y columnas listo para su uso. Las hojas de cálculo son comúnmente usados
para escribir y transmitir datos y realizar cálculos sencillos.
6 CHAPTER 1 • Picturing Distributions with Graphs

APLSSSURKNOWLEDGE

1.1 La economía de combustible. Aquí está una pequeña parte de un conjunto de


datos que describe la economía de combustible (millas por galón) de los vehículos de
motor modelo 2008:

Realizar y Vehículo Número de la transmisión Ciudad


Modelo de carretera Tipo Tipo Los
cilindros Mpg Mpg
.
.
.
Aston Martin Vantage biplaza Manual 8 12 19
Honda Civic Automático Subcompactos 4 25 36
Toyota Prius Mediana Automático 4 48 45
Chevrolet Impala Gran Automático 6 18 29
.
.
.

(a) ¿Cuáles son los individuos en este conjunto de datos?


(b) Para cada individuo, qué variables se dan? Cuál de estas variables son
categóricas y cuales son cuantitativos?
1.2 Estudiantes y TV. Se están preparando para estudiar los hábitos de ver televisión de
estudiantes universitarios. Describir dos variables categóricas y dos variables
cuantitativas que podría medir para cada estudiante. Dotar a las unidades de medición
para las variables cuantitativas.

Las variables categóricas: gráficos


circulares y gráficos de barras
Las herramientas de estadística e ideas nos ayudan a analizar los datos con el
Análisis exploratorio de fin de describir sus características principales. Este examen se
datos denomina análisis exploratorio de datos. Como un explorador cruzando
tierras desconocidas, queremos en primer lugar simplemente para describir lo
que vemos. Aquí hay dos principios que nos ayudan a organizar nuestra
exploración de un conjunto de datos.

Vamos a seguir estos principios en la organización de nuestro aprendizaje. Los


capítulos 1 a 3 presentan métodos para describir una sola variable. Estudiamos las
relaciones entre diversas variables en los capítulos 4 a 6. En cada caso, comenzamos
con dis- gráfica reproduce y, a continuación, añadir resúmenes numéricos para
obtener una descripción completa.
• Categorical variables: pie charts and bar graphs 7

La correcta elección de gráfico depende de la naturaleza de la


variable. Al examinar una sola variable, generalmente nos quiere mostrar
su distribución.

La distribución de una variable nos indica qué valores toma y con qué frecuencia se
toma estos valores.
Los valores de una variable categórica son etiquetas de las categorías. La distribución
de una variable categórica enumera las categorías y da el recuento o el porcentaje
de individuos que entran en cada categoría.

E X A M P L E 1.2 Los principales?


Alrededor de 1.6 millones de estudiantes de primer año matricularse en colegios y
universidades cada año. ¿Qué es lo que piensan estudiar? Aquí están los datos sobre los
porcentajes de alumnos de primer año que planean grandes en varias áreas de disciplina:1

Campo de estudio Por ciento de estudiantes


Artes y Humanidades 12.8
Ciencias biológicas 7.6
Ingeniería 17.4
de 9.9
educación 8.3
empresarial

Ciencias físicas 3.1.


Professional 14.6
Ciencias sociales 10.7
Técnicos 1.2
Otras majors 14.1.
Total 99.7

Es una buena idea comprobar datos de coherencia. Los porcentajes deben añadir al
100%. De hecho, agregan al 99,7%. ¿Qué ha sucedido? Cada uno por ciento se
redondea a la decena más cercana.
Los porcentajes exactos añadiría a 100, pero los porcentajes redondeados sólo se acercan. Este
Es error roundoff. Errores Roundoff no apunten a errores en nuestro trabajo, sólo para el efecto Error roundoff
De redondear los resultados. 


Columnas de números, tómese tiempo para leer. Puede utilizar un gráfico circular
o un gráfico de barras para mostrar la distribución de una variable categórica con
mayor intensidad. Las figuras 1.2 y 1.3 muestran estas pantallas para la distribución
de especializaciones universitarias.
Los gráficos circulares muestran la distribución de una variable categórica como un "pastel" cuyo Gráfico de tarta
Cortes están dimensionados por los recuentos o porcentajes para las categorías. Los gráficos circulares son torpes
Para hacer a mano, pero el software hará el trabajo por usted. Un gráfico de tarta
debe incluir todas las categorías que conforman un todo. Utilice un gráfico de tarta
sólo cuando desee destacar cada categoría la relación con el todo. Necesitamos el
"otras majors"categoría Ejemplo 1.2
8 CHAPTER 1 • Picturing Distributions with Graphs

Figura 1.2 Artes y Humanidades


Otra
Puede utilizar un gráfico para mostrar la
técnica
distribución de una variable categórica. Ciencias biológicas
Aquí está un gráfico de la distribución
de carreras más de estudiantes Professional
ingresan- ing college.
Business

Ciencias sociales Este sector ocupa el 17,4% de


Ciencias físicas la torta, porque el 17,4% de los
Educación
Ingeniería estudiantes planean grandes en
los negocios.

Para completar el conjunto (todos destina mayores) y nos permitirá hacer el


gráfico circular de la Figura 1.2.
Gráfico de barras Los gráficos de barras representan cada categoría como un bar. Las alturas de
barras muestra la categoría recuentos o porcentajes. Los gráficos de barras son más
fáciles para hacer que los gráficos circulares y también más fácil de leer. La figura
1.3 muestra dos gráficos de barras de los datos sobre carreras más. Los primeros
pedidos los bares alfabéticamente por el campo de estudio (con "Otros" al final). A
menudo es mejor para organizar las barras en orden de altura, como en la Figura
1.3(b). Esto nos ayuda a ver inmediatamente que grandes multinacionales suelen
aparecer con mayor frecuencia.
Los gráficos de barras son más flexibles que los gráficos circulares. Ambos
gráficos pueden mostrar la distribución de una variable categórica, sino un gráfico
de barras también puede comparar cualquier conjunto de cantidades que se miden
en las mismas unidades.

Esta barra tiene altura


20

20

17,4%
Por ciento de estudiantes que

Por ciento de estudiantes que


10

10
15

15
planean grandes 5

planean grandes 5
0

Campo de Campo de
estudio estudio
(b)
Figura 1.3
Los gráficos de barras de la distribución de carreras más de los estudiantes que ingresan a la
universidad. En (a), los bares siguen el orden alfabético de los campos de estudio. En (B), los
mismos aparecen barras en orden de altura.
• Categorical variables: pie charts and bar graphs 9

E X A M P L E 1.3 Me encanta mi iPod!


El servicio de calificación de Arbitron pidió a los adultos que utilizan varios
dispositivos de alta tecnología y ser- vicios si son "seres" con ellos. Aquí están los
porcentajes que declararon:2

Dispositivo o servicio Porcentaje de usuarios que lo adoran


Blackberry o dispositivo similar. 21
Acceso a Internet de banda ancha 41
Televisión por cable 20 Michael A. Keller/Corbis
Grabador de vídeo digital 32
La televisión de alta definición 34
IPod 45
Otro reproductor de MP3 de iPod 25
Los canales de televisión de pago (como HBO). 16

Radio por satélite 33

No podemos hacer un gráfico para mostrar estos datos. Cada uno por ciento de la tabla
se refiere a un dispositivo o servicio diferente, no a las partes de un todo único. La figura
1.4 es un gráfico de barras comparando los nueve dispositivos y servicios. De nuevo
hemos organizado las barras en orden de altura. 

Figura 1.4

Puede utilizar un gráfico de barras


50

para comparar cantidades que no son


parte de un todo. Este gráfico de
barras compara los porcentajes de
40

usuarios que dicen "amor" con var-


Porcentaje de usuarios

pagarés dispositivos o servicios, por


ejemplo, 1.3.
10 lo adoran
que 20 30
0

Dispositivo de alta tecnología o servicio

Gráficos de barras y circulares son principalmente herramientas para la


presentación de los datos: ayudar a la audiencia a captar datos rápidamente. Son de
uso limitado para el análisis de los datos porque es fácil de entender los datos en
una sola variable categórica sin un gráfico. Vamos a pasar a las variables
cuantitativas, donde los gráficos son herramientas esenciales.
1 CHAPTER 1 • Picturing Distributions with Graphs
0

APLSSSURKNOWLEDGE

1.3 ¿Escuchar la radio del país? El servicio de clasificación de EE.UU. Lugares de


Arbitron ra- dio las emisoras en más de 50 categorías que describen el tipo de
programas que emiten. Los formatos que atraen la mayor audiencia? Aquí están la
medida de Arbitron- ciones de la parte de la audiencia (a la edad de 12 años y más)
para los formatos más populares:3

Formato Cuota de
audiencia
País El 12,6%
Noticias/Hablar/información 10,4%
Contemporáneo adulto 7,1%
Pop Hit contemporáneo 5,5%
Classic Rock 4,7%
Contemporáneo rítmico 4,2%
golpear
Urbana Contemporánea 4,1%
Urbano contemporáneo adulto 3,4%
Oldies 3,3%
Hot contemporánea para 3,2%
adultos
Música Regional Mexicana 3,1%

(a) ¿Cuál es la suma de las cuotas de audiencia para estos formatos? ¿Qué
porcentaje de los oyentes escucha emisoras con otros formatos?
(b) Hacer un gráfico de barras para mostrar estos datos. Asegúrese de incluir una
categoría "Otro formato".
(c) ¿Sería correcto para mostrar estos datos en un gráfico de tarta? ¿Por qué?
1.4 ¿Cuánto los estudiantes beben? Penn State University informa de los
siguientes datos sobre el número promedio de bebidas consumidas cuando "juerga"
para diversos grupos de sus estudiantes. 4 Al menos, estos son los promedios de lo
que los estudiantes afirmó cuando se le preguntó.

Grupo Estudiantil Promedio de


bebidas
Hombres 6.65
Las mujeres 4.31
Vivir fuera del 6.36
campus
Vivir en el 3.49
campus
Mayores de 21 6.15
años
Menores de 21 4.51
años.
Griego 7.65
Non-Greek 5.22

(a) Explicar por qué no es correcto utilizar un gráfico para mostrar estos datos.
(b) Hacer un gráfico de barras de los datos. Observe que debido a que los datos
contraste de grupos como los hombres y las mujeres es mejor mantener estos
bares uno al lado del otro, en lugar de organizar las barras en orden de altura.
• Quantitative variables: histograms 11

1.5 Nunca en Domingo? Los nacimientos no son, como se podría pensar, distribuida
uniformemente en los días de la semana. Aquí están los números promedio de niños
nacidos en cada día de la semana en 2005: 5

Día Nacimie
ntos
Domingo 7374
Lunes 11,704
Martes 13,169
Miércoles 13,038
Jueves 13,013
Viernes 12.664
Sábado 8,459

Presentar estos datos en un gráfico de barras bien etiquetados. Podría también ser
correctos para hacer un gráfico de tarta? Sugerir algunas posibles razones por las que
hay menos nacimientos durante los fines de semana.

Las variables cuantitativas: histogramas


Las variables cuantitativas suelen tener muchos valores. La distribución nos
dice qué val- ores la variable toma y con qué frecuencia se toma estos valores.
Un gráfico de la distribu- ción es más clara si se agrupan valores cercanos. El
gráfico más común de
La distribución de una variable cuantitativa es un histograma. Histograma

E X A M P L E 1.4 Hacer un histograma


¿Qué porcentaje de su hogar residentes del estado nacieron fuera de los Estados Unidos?
Todo el país tiene 12,5% de residentes nacidos en el extranjero, pero los estados varían
desde 1,2% en Virginia Occidental hasta el 27,2% en California. El cuadro 1.1 presenta
los datos de todos los 50 estados y el Distrito de Columbia. 6 los individuos en este
conjunto de datos son los estados. La variable es el porcentaje de habitantes del estado
nacidos en el extranjero. Es mucho más fácil ver cómo su estado se compara con otros
estados de un gráfico de la tabla. Para realizar un histograma de la distribución de esta
variable, proceder como sigue:
Paso 1. Elija las clases. Dividir el rango de los datos en clases de igual ancho. Los datos
de la tabla 1.1 van desde 1,2 a 27,2, así que decidimos utilizar estas clases:

Por ciento de extranjeros nacidos entre 0.1 y


5.0.
Por ciento de extranjeros nacidos entre 5.1 y
10.0
. AP Photo/Mary Altaffer
.
.
Por ciento de extranjeros nacidos entre 25.1
y 30.0
Es igualmente correcto para utilizar las clases de 0.0 a 4.9, 5.0 a 9.9, y así
sucesivamente. Sólo asegúrese de especificar las clases precisamente para que cada
individuo entra en exactamente una clase. Pennsylvania, con 5,1% de extranje ros,
cae dentro de la segunda clase, pero un estado con 5.0% corresponderían a la primera.
12 CHAPTER 1 • Picturing Distributions with Graphs

Tabla 1.1 por ciento de la población del estado nacido fuera de los Estados Unidos
Estado Por Ciento Estado Por Ciento Estado Por
Ciento

Alabama 2.8 Luisiana 2.9 Ohio 3.6


Alaska 7.0 Maine 3.2 Oklahoma 4.9
Arizona 15.1 Maryland 12.2 Oregon 9.7
Arkansas 3.8 Massachusetts 14.1. Pennsylvania 5.1.
California 27.2 Michigan 5.9 Rhode Island 12.6
Colorado 10.3 Minnesota 6.6 Carolina del Sur 4.1.
Connecticut 12.9 Mississippi 1.8 Dakota del Sur 2.2
Delaware 8.1. Missouri 3.3 Tennessee 3.9
Florida 18.9 Montana 1.9 Texas 15.9
Georgia 9.2 Nebraska 5.6 Utah 8.3
Hawaii 16.3 Nevada 19.1 Vermont 3.9
Idaho 5.6 New Hampshire 5.4 Virginia 10.1
Illinois 13.8 Nueva Jersey 20.1 Washington 12.4
Indiana 4.2 Nuevo México 10.1 Virginia 1.2
Occidental
Iowa 3.8 Nueva York 21.6 Wisconsin 4.4.
Kansas 6.3 Carolina del 6.9 Wyoming 2.7
Norte
Kentucky 2.7 Dakota del Norte 2.1. Distrito de 12.7
Columbia

Paso 2. Contar los individuos de cada clase. Aquí están los recuentos:

La clase Conta
r
0.1 a 5.0 20
5.1 A 10.0 13
10.1 a 15.0 10
15.1 a 20.0 5
20.1 a 25.0 2
25.1 a 30.0 1

Verificar que los recuentos añadir a 51, el número de individuos en los datos (los 50
estados y el Distrito de Columbia).
Paso 3. Dibujar el histograma. Marcar la escala de la variable cuya distribución se están
mostrando en el eje horizontal. Ese es el porcentaje de habitantes del estado nacidos en
el extranjero. La escala va de 0 a 30 porque esa es la duración de las clases que escogimos.
El eje vertical contiene la escala de recuentos. Cada barra representa una clase. La base
de la barra cubre la clase y la altura de la barra es el recuento de clase. Dibujar las barras
con ningún espacio horizontal entre ellos, salvo que una clase está vacío, de modo que su
bar tiene altura cero. La figura 1.5 es nuestro histograma. 


Aunque los histogramas se asemejan a los gráficos de barras, sus detalles y usos son
diferentes. Una su- togram muestra la distribución de una variable cuantitativa. El eje
horizontal de un histograma está marcado en las unidades de medida de la variable. Un
bar
• Quantitative variables: histograms 13

Figura 1.5
Histograma de la distribución del
20
porcentaje de residentes nacidos en
el extranjero en los 50 estados y el
Este bar tiene altura 13
Distrito de Columbia, por ejemplo,
porque 13 Estados
1.4.
15

tienen entre 5,1% y


10% de residentes
nacidos en el
Número de
estados
10
5

10 25
0

El gráfico compara los tamaños de diferentes cantidades. El eje horizontal del


gráfico de barras no necesitan tener ninguna escala de medición sino simplemente
identifica- ción de las cantidades en comparación. Estos podrían ser los valores de
una variable categórica, pero también pueden no estar relacionados, como los
dispositivos de alta tecnología en el Ejemplo 1.3. Dibujar gráficos de barras con un
espacio en blanco entre las barras para separar las cantidades que se comparan.
Dibujar histogramas con ningún espacio, para indicar que todos los valores de la
variable están cubiertos.
Nuestros ojos responden a la zona de las barras en un histograma.7 Porque las clases son
Todos la misma anchura, la zona está determinada por la altura y todas las clases
están equitativamente representados. No hay una elección correcta de las clases
en un histograma. Demasiado pocas clases dará un "rascacielos" gráfico, con
todos los valores en una pocas clases con altos bares. Demasiados producirá un
"panqueque" gráfico, con la mayoría de las clases que tengan uno o no observa-
ciones. Ninguna de las opciones le dará una buena idea de la forma de la
distribución. Usted debe usar su juicio en la elección de clases para mostrar la
forma. Estadísticas de software elige las clases para usted. La elección del
software es generalmente buena, pero usted puede cambiarlo si lo desea. La
función de histograma en la calculadora de estadística de una variable sobre el
texto de CD y sitio Web le permite cambiar el número de clases arrastrando con
el ratón, de modo que es fácil ver cómo la elección de clases afecta el
histograma.

APLSSSURKNOWLEDGE

1.6 Viajar al trabajo. ¿Durante cuánto tiempo debe viajar cada día para ir al trabajo o a
la escuela? El cuadro 1.2 muestra el promedio de los tiempos de viaje de trabajo para los
trabajadores en cada estado que son
14 CHAPTER 1 • Picturing Distributions with Graphs

Cuadro 1.2 Promedio de tiempo de viaje al trabajo (minutos) para los adultos
que trabajan fuera del hogar
Estado Tiem Estado Tiem Estado Tiempo
po po

Alabama 23.6 Luisiana 25.1 Ohio 22.1


Alaska 17.7 Maine 22.3 Oklahoma 20.0
Arizona 25.0 Maryland 30.6 Oregon 21.8
Arkansas 20.7 Massachusetts 26.6 Pennsylvania 25.0
California 26.8 Michigan 23.4 Rhode Island 22.3
Colorado 23.9 Minnesota 22.0 Carolina del Sur 22.9
Connecticut 24.1 Mississippi 24.0 Dakota del Sur 15.9
Delaware 23.6 Missouri 22.9 Tennessee 23.5
Florida 25.9 Montana 17.6 Texas 24.6
Georgia 27.3 Nebraska 17.7 Utah 20.8
Hawaii 25.5 Nevada 24.2 Vermont 21.2
Idaho 20.1 New Hampshire 24.6 Virginia 26.9
Illinois 27.9 Nueva Jersey 29.1 Washington 25.2
Indiana 22.3 Nuevo México 20.9 Virginia Occidental 25.6
Iowa 18.2 Nueva York 30.9 Wisconsin 20.8
Kansas 18.5 Carolina del Norte 23.4 Wyoming 17.9
Kentucky 22.4 Dakota del Norte 15.5 Distrito de Columbia 29.2

Por lo menos 16 años de edad y no trabajan en casa. 8 Hacer un histograma de los


tiempos de viaje utilizando clases de ancho 2 minutos comenzando en 14 minutos.
Es decir, la primera barra cubre 14,0 a 15,9 minutos, el segundo cubre 16,0 a 17,9
minutos, y así sucesivamente. (Hacer este histograma a mano incluso si usted tiene
software, para estar seguro que usted entiende el proceso. A continuación, puede
que desee comparar el histograma con su software's choice).

1.7 Elegir clases en un histograma. El conjunto de datos menú que acompaña a


la variable Calculadora de estadística incluye los datos de residentes nacidos en el
extranjero en los estados de la tabla 1.1. Elija estos datos y, a continuación, haga clic
en la ficha "Histograma" para ver un histograma.
(a) Cuántas clases ¿el applet Elija utilizar? (Puede hacer clic en el gráfico fuera de
los bares para obtener un recuento de clases).
(b) Haga clic en el gráfico y arrástrelo hacia la izquierda. ¿Cuál es el menor número
de clases que se pueden obtener? ¿Cuáles son los límites inferior y superior de
cada clase? (Haga clic en la barra para averiguarlo.) Hacer un croquis del
histograma.
(c) Haga clic y arrastre hacia la derecha. ¿Cuál es el mayor número de clases que se
pueden obtener? Cómo muchas observaciones ¿la clase más grande?
(d) Se puede ver que la elección de las clases cambia la apariencia de un histograma.
Arrastre hacia adelante y hacia atrás hasta llegar a la que le parezca mejor
histograma muestra la distribu- ción. Cuántas clases utilizaste?
• Interpreting histograms 15

Interpretación de los histogramas


Hacer un gráfico estadístico no es un fin en sí mismo. El propósito de los gráficos
es para ayudarnos a entender los datos. Después de hacer un gráfico, siempre
pregunte, "¿Qué veo?" Una vez que se visualice una distribución, usted puede ver
sus características importantes como sigue.

en ningún gráfico de datos, busque el patrón global y para golpear las


desviaciones de ese patrón.
Puede describir el patrón global de un histograma por su forma, centro y propagación.

Una forma de describir el centro de distribución está en su punto medio, el valor


de los cuales aproximadamente la mitad de las observaciones teniendo valores
menores y mitad tomando valores mayores. Por ahora, vamos a describir la
propagación de una distribución dando la pequeña- est y mayores valores. Vamos a
aprender mejores maneras de describir el centro y propagación en el Capítulo 2.

E X A M P L E 1.5 Describiendo una distribución


Vuelva a mirar el histograma en la Figura 1.5. Forma: La distribución tiene un solo
pico a la izquierda, que representa a los Estados en que entre el 0% y el 5% de los
residentes son nacidos en el extranjero. La distribución está sesgada a la derecha. La
mayoría de los estados no tienen más de un 10% de residentes nacidos en el extranjero,
pero varios estados tienen porcentajes mucho mayores, de forma que la gráfica se
extiende bastante más a la derecha de su pico. Centro: organizar las observaciones desde
la tabla
1.1 en orden de tamaño muestra que 6,3% (Kansas) es el punto medio de la distribución.
Hay 25 estados con porcentajes menores nacidos en el extranjero y 25 con
mayor. Spread: El spread es de 1.2% a 27.2%.
Los valores atípicos: la figura 1.5 muestra que no hay observaciones fuera el
único global alcanzó su punto más alto, a la derecha- patrón desigual de la
distribución. La figura 1.6 es otro histograma de la misma distribución, con clases la
mitad de ancho. Ahora, California, en el 27,2%, está un poco aparte a la derecha del
resto de la distribución. California es un caso atípico o simplemente la mayor
observación en una distribución sesgada firmemente? Desafortunadamente, no hay
ninguna regla. Vamos a ponernos de acuerdo para llamar la atención sólo fuertes
valores atípicos que sugerir algo especial acerca de una observación o un error, por
ejemplo, escribir 10.1 como 101. California no es ciertamente un fuerte valor
atípico. 

Las figuras 1.5 y 1.6 nos recuerdan que interpretar gráficos llamadas para
sentencia. También vemos que la elección de clases en un histograma pueden
influir en la aparición de una distribución. A causa de esto, y para evitar
preocuparse por pequeños detalles, concentrarse en las principales características de
una distribución. Buscar picos importantes, no para pequeños altibajos, en las barras
del histograma. (Por ejemplo, no llegar a la conclusión de que la figura 1.6 muestra
un segundo pico entre 10% y 15%.) Buscar borrar valores atípicos, no sólo para el
menor y el mayor de observaciones. Busque rugoso simetría o asimetría clara.
16 CHAPTER 1 • Picturing Distributions with Graphs

Figura 1.6
Otro histograma de la distribu- ción

15
del porcentaje de residentes nacidos en
el extranjero, con clases medias tan
amplia como en la Figura 1.5.
Histogramas con más clases muestran
más detalles, pero pueden tener un

10
patrón menos claro.

Número de
5miembros
0

10 25

una distribución sesgada hacia la derecha si el lado derecho del histograma (que
contienen la mitad de las observaciones con valores mayores) se extiende mucho más
allá de la izquierda. Es un sesgo a la izquierda si el lado izquierdo del histograma se
extiende mucho más allá de la parte derecha.

Aquí hay más ejemplos de describir el patrón global de un histograma.

E X A M P L E 1.6 Iowa puntajes


La figura 1.7 muestra las puntuaciones de todos los 947 alumnos de séptimo grado
en las escuelas públicas de Gary, Indiana, en el vocabulario parte de la prueba de
habilidades básicas de Iowa. 9 La distribución es solo alcanzó su punto
máximo y simétrica. En matemáticas, los dos lados de patrones simétricos son
exactas imágenes espejo. Datos reales casi nunca son exactamente simétrica.
Estamos contenido para describir la figura 1.7 como simétrico. El centro (la m itad
arriba, mitad inferior) es cercano a 7. Este es el séptimo grado de nivel de lectura.
Las puntuaciones oscilan entre 2.0 (segundo grado) a 12,1 (12º grado).
Observe que la escala vertical de la Figura 1.7 no es el recuento de los estudiantes,
pero el por ciento de estudiantes en cada clase de histograma. Un histograma de
porcentajes en lugar de cuenta es conveniente cuando queremos comparar varias
Cortesía de Riverside Publishing distribuciones. Comparar Gary con Los Ángeles, una ciudad mucho más grande, nos
gustaría utilizar porcentajes de modo que ambos histogramas tienen la misma escala
vertical. 
• Interpreting histograms 17


Figura 1.7
Histograma del examen Iowa
vocabu- lary decenas de séptimo
grado todos los estudiantes en Gary,
Indiana, por ejemplo
12

1.6. Esta distribución es solo alcanzó


su punto máximo y simétrica.
Por ciento de los estudiantes de
10
8 4 grado
2 séptimo 6

10
0

Examen Iowa puntuación


vocabulario

E X A M P L E 1.7 Quien toma el SAT?


Dependiendo de donde usted fue a la escuela secundaria, la respuesta a esta pregunta
puede ser "al- la mayoría de todos" o "casi nadie". Figura 1.8 es un histograma del
por ciento de estudiantes graduados de la escuela secundaria en cada Estado que
tomaron la prueba de razonamiento SAT 10.
El histograma muestra dos picos, un alto pico de la izquierda y una menor pero
más amplia centrada en el pico del 60% al 80% de la clase. Varios picos sugieren que
una distribución mezcla varios tipos de individuos. Ese es el caso aquí. Hay dos
pruebas principales de preparación para la universidad, la ley y el SAT. La mayoría
de los estados tienen una fuerte prefieren- encia para uno o el otro. En algunos
estados, muchos estudiantes toman el examen ACT y pocos tomar el SAT-estos
estados forman el pico a la izquierda. En otros estados, muchos estudiantes tomar el
SAT y pocos elegir el acto-estos estados forman el pico más ancho en la parte
derecha.
Dando el centro y la propagación de esta distribución no es muy útil. El punto cae en
el 20% y el 40% de clase, entre los dos picos. La historia contada por el histograma está
en los dos picos correspondientes a actuar unidos y SAT estados. 

La forma general de una distribución es información importante acerca de un
vari- capaz. Algunas variables tienen distribuciones con formas previsibles. Muchos
biologi- cal mediciones en ejemplares de la misma especie y sexo-Longitudes de
facturas de aves, alturas de mujeres jóvenes tienen distribuciones simétricas. Por
otro lado,
18 CHAPTER 1 • Picturing Distributions with Graphs

Figura 1.8
Histograma del por ciento de

25
estudiantes graduados de la escuela
secundaria en cada Estado que
tomaron la prueba de razonamiento

20
SAT, por ejemplo 1.7. El gráfico
muestra dos grupos de estados:
actuar unidos (donde pocos
estudiantes tomar el SAT) en la

15
izquierda y SAT unidos a la derecha.
Número de
miembros
10 5

Por ciento de los graduados de la escuela


0

secundaria que tomaron el SAT

Los datos sobre los ingresos de las personas son generalmente fuertemente
sesgados a la derecha. Hay muchos ingresos moderados, algunos grandes
ingresos, y unos enormes ingresos. Muchos dis- tributions con formas
irregulares que no son simétricas ni sesgada. Algunos datos muestran otros
patrones, como los dos picos en la Figura 1.8. Usar tus ojos, describir el patrón
puede ver y, a continuación, tratar de explicar el patrón.

APLSSSURKNOWLEDGE

1.8 Viajar al trabajo. En el ejercicio 1.6, usted hizo un histograma de la media de los
tiempos de viaje para trabajar en el cuadro 1.2. La forma de la distribución es un
poco irregular. Es más simétrica o asimétrica? Acerca de dónde está el centro
(punto medio) de los datos? ¿Qué es la propagación en términos del menor y el
mayor de los valores?
1.9 Las mujeres solteras. La figura 1.9 muestra la distribución de los porcentajes de
estado de las mujeres mayores de 15 años que nunca han estado casados.

(a) El cuerpo principal de la distribución es ligeramente inclinada hacia la


derecha. Existe una clara errático, el Distrito de Columbia. ¿Por qué no es
sorprendente que el porcentaje de mujeres no casadas es mayor en DC que
en los 50 estados?
(b) El punto medio de la distribución es el 26º Estado en orden de porcentaje de
mujeres casadas nunca-. En la clase que hace el punto medio caída? Acerca de
cuál es el spread (de menor a mayor) de la distribución?
• Quantitative variables: stemplots 19

Figura 1.9
Histograma del estado porcentajes de
14
mujeres mayores de 15 años que nunca
han estado casados, para el ejercicio
12

1.9.
10
Número de
4 miembros
2
0 6 8

por ciento de las mujeres mayores de 15 años que nunca se


casaron

Las variables cuantitativas: stemplots


Histogramas no son la única representación gráfica de las distribuciones. Para
conjuntos pequeños de datos, un stemplot es más rápido para hacer y presenta
información más detallada.

para hacer un stemplot:

Los pocos vitales


Las distribuciones sesgadas puede
mostrarnos dónde concentrar
nuestros esfuerzos. El 10 por
ciento de los automóviles en la
calle la mitad de todas las
emisiones de dióxido de carbono.
Un histograma de las emisiones de
CO2 se muestran muchos coches
con pequeña o moderada y unos
valores con valores muy altos.
E X A M P L E 1.8 Haciendo un stemplot Limpieza o sustitución de estos
coches podría reducir la
El cuadro 1.1 presenta los porcentajes de los residentes del estado que nacieron fuera de
contaminación a un costo mucho
los Estados Unidos. Hacer un stemplot de estos datos, tomar todo el número del porcentaje menor que el de los programas
como el tallo y el último dígito (décimas) como las hojas. Escribir proviene de 1 de destinados a todos los coches. Los
Mississippi, Montana y Virginia Occidental hasta el 27 de California. Ahora agregue las estadísticos que trabajan en la
hojas. Arizona, 15,1%, ha mejora de la calidad en la industria
hacen de este un principio:
distinguir "Los pocos vitales" de
los "muchos triviales".
1 hojas en el tallo de 15. Texas, en 15,9%, coloca 9 hojas en el mismo tallo. Estos son los
20 CHAPTER 1 • Picturing Distributions with Graphs

Figura 1.10
1 289
Stemplot del porcentajes de residentes 2 12778 9
nacidos en el extranjero en los Estados 3 2368899
Unidos, por ejemplo 1.8. Es un
4 1249
porcentaje cada tallo y hojas son
5 14669
décimas del uno por ciento.
6 369
7 0
8 13
9 27
10 113
11
12 24679
13 8
14 1
15 19
16 3 El 15 de tallo contiene
17 los valores de 15,1 y
18 9 15,9 para Arizona
19 1
20 1
21 6
22
23
24
25
26
27 2

Sólo observaciones sobre este tallo. Organizar las hojas en orden, de modo
que 15|19 es una fila en el stemplot. La figura 1.10 es la completa stemplot para los
datos de la tabla 1.1. 

Un stemplot luce como un histograma activado. Comparar la stemplot en Fig ura-
1.10 con los histogramas de los mismos datos en las figuras 1.5 y 1.6. La stemplot
es como un histograma con muchas clases. Puede elegir las clases en un histograma.
Las clases (tallos) de un stemplot son dados a usted. Los tres gráficos muestran una
distribución que tiene un pico y está sesgada a la derecha. Las figuras 1.6 y 1.10
tienen las clases suficientes para demostrar que el Estado de California (27,2%) está
ligeramente separados de la larga cola derecha de la distribución sesgada. Los
histogramas son más flexibles que stemplots porque puede elegir las clases. Pero el
stemplot, a diferencia del histograma, preserva el valor real de cada
observación. Stemplots no funcionan bien para grandes conjuntos de datos, donde
cada tallo debe mantener un gran número de hojas. No intente hacer una stemplot
de un conjunto grande de datos, tales como los 947 Iowa puntajes en la Figura 1.7.

E X A M P L E 1.9 Tira de madera aparte


Estudiantes de ingeniería aprender que, aunque los manuales nos dan la fuerza de
un material como un solo número, en realidad, la intensidad varía de pieza a pieza.
Una lección esencial en todos los campos
• Quantitative variables: stemplots 21



Del estudio es que "la variación es en todas partes."Aquí hay datos de un estudiante típico
ejercicio de laboratorio: la carga en libras necesarias para separar las piezas de abeto
Douglas 4 pulgadas de largo y
1,5 pulgadas cuadradas.

33,190 31,860 32,590 26,520 33,280


32,320 33,020 32,030 30,460 32,700
23,040 30,930 32,720 33,650 32,340
24,050 30,170 31.300 28.730 31,920
Cortesía del Departamento de Ingeniería Civil,
Universidad de Nuevo México.
Un stemplot de estos datos tiene muchos tallos y hojas no o sólo una hoja en la Redondeo
mayoría de los tallos. Así que la primera ronda los datos con precisión de 100 libras.
Los datos son redondeados

332 319 326 265 333 323 330 320 305 327
230 309 327 337 323 241 302 313 287 319

Ahora podemos hacer un stemplot con los dos primeros dígitos (miles de libras) como
tallos y el tercer dígito (cientos de libras) como las hojas. La figura 1.11 es el stemplot.
Ro- tate el stemplot hacia la izquierda de modo que se asemeja a un histograma, con 230
en el extremo izquierdo de la escala. Esto deja claro que la distribución está sesgada a
la izquierda. El punto medio es de alrededor de 320 (32.000 libras) y la propagación es
de 230 a 337. Debido a la fuerte inclinación, somos reacios a llamar al menor
observaciones outliers. Parecen formar parte de la larga cola izquierda de la distribución.
Antes de utilizar la madera como esta en construcción, deberíamos preguntar por qué
algunas piezas son mucho más débil que el resto. 

Figura 1.11
23 0
Stemplot de su resistencia a la rotura
24 1
de las piezas de madera, redondeado
25
al próximo- est 100 libras, por
26 5 ejemplo 1.9. Los tallos son miles de
27 libras y las hojas son cientos de
28 7 libras.
29
30 259
31 399
32 033677
33 0237

Comparing figuras 1.10 (derecha inclinada) y 1.11 (izquierda asimétrica) nos


recuerda que la dirección de la asimetría es el sentido de la larga cola, no la
dirección donde la mayoría de las observaciones están agrupados.
También puede dividir los tallos en un stemplot al doble del número de tallos
cuando todas las hojas de otra manera caerían en unos pocos tallos. Cada tallo luego
aparece dos veces. Las hojas 0 a 4 Ir a la parte superior del tallo, y hojas de 5 a 9 Dividir los tallos
vaya en la parte baja del tallo. Si
22 CHAPTER 1 • Picturing Distributions with Graphs

Dividir los tallos en el stemplot de la figura 1.11, por ejemplo, el 32 y 33 tallos


convertido

32 033
32 677
33 023
33 7

Redondeo y dividir los tallos son asuntos para el juicio, como elegir las clases en un
histograma. La fuerza de la madera requieren datos redondeo pero no necesitan
dividir- ting tallos. La única variable Calculadora de estadística sobre el texto de
CD y sitio Web le permite decidir si desea dividir los tallos, de modo que es fácil
ver el efecto.

APLSSSURKNOWLEDGE

1.10 Viajar al trabajo. Hacer un stemplot del promedio de los tiempos de viaje para trabajar
en el cuadro 1.2. Utilizar minutos como sus tallos. Porque el stemplot conserva los
valores reales de las observaciones, es fácil encontrar el punto medio (26 de las 51
observaciones en orden) y la propagación. ¿Qué son?
1.11 El gasto en salud. El cuadro 1.3 muestra el gasto anual por persona en el cuidado
de la salud en los países más ricos del mundo. 11 realizar una stemplot de los datos
después del redondeo al más cercano a 100 dólares (de modo que los tallos son
miles de dólares y hojas son cientos de dólares). Dividir los tallos, poner las hojas
0 a 4 en el primer tallo y hojas de 5 a 9 en el segundo vástago del mismo valor.
Describir la forma, el centro y la propagación de la distribución. Qué país es el alto
outlier?

Cuadro 1.3 el gasto anual per cápita en salud (en dólares de EE.UU.)
País Dólares País Dólares País Dólares

Argentina 1067 Hungría 1269 Polonia 745


Australia 2874 Islandia 3110 Portugal 1791
Austria 2306 Irlanda 2496 Arabia Saudita 578
Bélgica 2828 Israel 1911 Singapur 1156
Canadá 2989 Italia 2266 Eslovaquia 777
Croacia 838 Japón 2244 Eslovenia 1669
República Checa 1302 Corea 1074 Sudáfrica 669
Dinamarca 2762 Kuwait 567 España 1853
Estonia 682 Lituania 754 Suecia 2704
Finlandia 2108 Países Bajos 2987 Suiza 3776
Francia 2902 Nueva Zelanda 1893 Reino Unido 2389
Alemania 3001 Noruega 3809 Estados Unidos 5711
Grecia 1997 Omán 419
• Quantitative variables:•stemplots
Parcelas de tiempo 23
23

Parcelas de tiempo
Muchas de las variables que se miden en intervalos a lo largo del tiempo.
Podríamos, por ejemplo, medir la altura de un niño en crecimiento o el precio
de un stock al final de cada mes. En estos ejemplos, nuestro interés principal es
el cambio en el tiempo. Para mostrar cambiar a través del tiempo, hacer
una parcela de tiempo.

E X A M P L E 1.10 Los niveles de agua en los Everglades


Los niveles de agua en el Parque Nacional Everglades son críticos para la supervivencia
de esta singular re- gión. La foto muestra una estación de monitoreo de agua en Shark
River Slough, la ruta principal para las aguas superficiales moviéndose a través del "río
de hierba" que es el Everglades. La figura
1.12 Es una parcela de tiempo los niveles de agua en esta estación desde mediados de
agosto de 2000 a mediados de junio de 2003.12 
 Cortesía de la Encuesta Geológica de EE.UU.

Cuando examine una parcela de tiempo, mirar una vez más a un patrón global
y para

Fuertes desviaciones del patrón. La figura 1.12 muestra un fuerte ciclos regulares, arriba Ciclos
Y abajo los movimientos en el nivel de agua. Los ciclos muestran los efectos de la
Florida la temporada húmeda (alrededor de junio a noviembre y la temporada seca
de Diciembre a Mayo (aproximadamente). Los niveles de agua son más altas en el
otoño atrasado. En abril y mayo de 2001 y 2002, los niveles de agua fueron menos
de cero-el agua la mesa estaba por debajo del nivel del suelo y la superficie estaba
seca. Si se mira de cerca, se puede ver la variación de año tras año. La temporada
seca en 2003 terminó temprano, con la primera tormenta tropical de abril. En
consecuencia, el nivel de agua en la estación seca en 2003 nunca cayó por debajo
de cero.
Otro patrón común en una parcela de tiempo es una tendencia a largo plazo hacia arriba Tendencia
O El movimiento descendente a lo largo del tiempo. Muchas variables
económicas muestran una tendencia ascendente. Los ingresos, los precios de la
vivienda y (por desgracia) Colegio matrículas generalmente tienden a
desplazarse hacia arriba a través del tiempo.
Tiempo de histogramas y gráficos indican diferentes tipos de información sobre una variable.
La hora solar en la figura 1.12 presenta los datos de series de tiempo que muestran el cambio Los datos de series de tiempo
En el nivel de agua en una ubicación a lo largo del tiempo. Un histograma muestra transversal Datos transversales
Los datos, tales como los niveles de agua en muchos lugares de los Everglades
al mismo tiempo.

APLSSSURKNOWLEDGE

1.12 El costo de la universidad. Aquí están los datos sobre el promedio de la matrícula
y las tasas aplicadas a los estudiantes en el estado por colleges y universidades
públicas de cuatro años, de 1976 a 2007
24 CHAPTER 1 • Picturing Distributions with Graphs

Figura 1.12
Tiempo parcela de la profundidad del

0.8
agua en una estación de vigilancia en
el Parque Nacional Everglades durante
un período de casi tres años, por
ejemplo, 1.10. Los ciclos anuales

0.6
reflejan la Florida estaciones húmeda
y seca.

0.4
La profundidad del
0.0 (metros)
agua 0.2 0.2
0.4

Años académicos. Porque casi cualquier variable medido en dólares aumenta con
el tiempo debido a la inflación (la caída del poder adquisitivo de un dólar), los
valores se dan en "dólares constantes", ajustada para tener el mismo poder
adquisitivo que el dólar había en 2007 13.

Año Matrícula Año Matrícu Año Matrícula Año Matrícula


la
1976 $2.197 1984 $2.426 1992 $3,444 2000 $4.221
1977 $2.225 1985 $2,532 1993 $3.623 2001 $4,411
1978 $1.986 1986 $2,656 1994 $3,758 2002 $4,715
1979 $1.986 1987 $2,699 1995 $3,802 2003 $5,231
1980 $1.939 1988 $2.721 1996 $3,913 2004 $5,624
1981 $2.018 1989 $2.792 1997 $4,022 2005 $5,814
1982 $2.194 1990 $2.977 1998 $4,131 2006 $5,918
1983 $2,358 1991 $3.187 1999 $4,183 2007 $6.185

(a) Hacer una parcela de tiempo promedio de la matrícula y las cuotas.


(b) ¿Qué patrón global ¿su parcela mostrar?
(c) Algunas de las posibles desviaciones del patrón general son atípicos, períodos en
los cargos descendió en 2007 (en dólares), y los períodos de incremento
particularmente rápido. Que están presentes en su parcela, y durante qué años?
Check Your Skills 25

CHAPTER1 SUMAMARS

 Un conjunto de datos contiene información sobre un determinado número


de personas. Los individuos pueden ser personas, animales o cosas. Para
cada individuo, los datos dan valores de una o más variables. Una variable
se describen algunas características de un individuo, como una persona de
altura, sexo o sueldo.
 Algunas de las variables son categóricas, y otros son de tipo
cuantitativo. Un categórico vari- capaz coloca cada individuo en una
categoría, como macho o hembra. Un cuanti- sentación variable tiene valores
numéricos que miden algunos característicos de cada individuo, tales como
la altura en centímetros o sueldo en dólares.
 Análisis Exploratorio de Datos utiliza gráficos y resúmenes numéricos para
describir las variables en un conjunto de datos y las relaciones entre ellos.
 Después de comprender el trasfondo de sus datos (individuos, las variables, las
unidades de medición), la primera cosa a hacer es casi siempre trazar los datos.
 La distribución de una variable describe los valores que toma la variable y con
qué frecuencia se toma estos valores. Los gráficos circulares y los gráficos de
barras muestran la distribución de una variable categórica. Los gráficos de
barras también puede comparar cualquier conjunto de cantidades midió en las
mismas unidades. Histogramas y gráficos stemplots la distribución de una
variable cuantitativa.
 Al examinar cualquier gráfico, busque un patrón global y por notables devi-
aciones del patrón.
 La forma, el centro y la propagación describir el patrón general de la
distribución de una variable cuantitativa. Algunas distribuciones tienen formas
simples, como mjs- métrico o sesgada. No todas las distribuciones tienen una
simple forma total, especialmente cuando hay pocas observaciones.
 Los valores atípicos son observaciones que quedan fuera de la pauta general
de una distribución. Busque siempre los valores atípicos y tratar de
explicarlos.
 Cuando las observaciones sobre una variable son tomadas a través del tiempo,
hacer una parcela que gráficas tiempo horizontalmente y los valores de la
variable verticalmente. Una parcela de tiempo puede revelar tendencias,
ciclos, u otros cambios a lo largo del tiempo.

CHE C K YS U R SKILLS

Los ejercicios de elección múltiple en "comprobar tus habilidades"ask sencillas


preguntas acerca de los hechos básicos del capítulo. Respuestas a todos estos ejercicios
aparecen en la contraportada del libro. Usted debe esperar que todas sus respuestas
sean correctas.

1.13 Aquí están las primeras líneas de un conjunto de datos del profesor al final de un curso de estadísticas:

Nombre Princip Puntos Grado


ales
ADVANI HA, SURA COMM 397 B
BARTON, DAVID HIST 323 C
BROWN, Annette BIOL. 446 Un
CHIU, SUN PSYC 405 B
CORTEZ, MARIA PSYC 461 Un
26 CHAPTER 1 • Picturing Distributions with Graphs

Los individuos de estos datos son


(a) Los estudiantes. (B) el total de puntos. (C) las calificaciones obtenidas.
1.14 Para mostrar la distribución de las clases (A, B, C, D, F) en un curso, sería correcto utilizar
(a) Un gráfico de tarta pero no un gráfico de barras.
(b) Un gráfico de barras, pero no un gráfico circular.
(c) Un gráfico circular o un gráfico de barras.
1.15 Un estudio de egresados universitarios registra el sexo y colegio total deuda en dólares
para 10.000 personas un año después de graduarse de la universidad.
(a) Sexo y colegio de deuda son ambas variables categóricas.
(b) Sexo y colegio de deuda son ambas variables cuantitativas.
(c) El sexo es una variable categórica y colegio deuda es una variable cuantitativa.
1.16 Un partido político del banco de datos incluye los códigos postales de
donantes pasados, como 47906 34236; 53075 10010 90210
75204 30304 99709
Es un código postal
(a) Variable cuantitativa. (B) variables categóricas. (C) unidad de medida.
1.17 Figura 1.9 (página 19) es un histograma del porcentaje de mujeres en cada estado,
de 15 años y más que nunca se han casado. La barra izquierda en el histograma
abarca porcentajes de mujeres no casadas que van desde unos
(A) el 20% a 24%. (B) el 20% a 22%. (C) de 0% a 20%.
1.18 Aquí están las cantidades de dinero (centavos) en monedas realizadas por 10
estudiantes en una clase de estadísticas:
50 35 0 97 76 0 0 87 23 65
Hacer un stemplot de estos datos, se haría uso de tallos (a) 0,
1, 2, 3, 4, 5, 6, 7, 8, 9).
(B) 0, 2, 3, 5, 6, 7, 8, 9).
(C), 00, 10, 20, 30, 40, 50, 60, 70, 80, 90.
1.19 La población de los Estados Unidos está envejeciendo, aunque con menor rapidez
que en otros países de de- veloped. Aquí está una de las stemplot porcentajes de
residentes mayores de 65 años en los 50 estados y el Distrito de Columbia. Los
tallos son porcentajes enteros y las hojas son décimas del uno por ciento.

6 8
7
8 8
9 79
10 08
11 1 5566
12 012223444 457888 99 9
13 01 233333444899
14 02666
15 23
16 8
Chapter 1 Exercises 27

El outlier es Alaska. ¿Qué porcentaje de los residentes de Alaska tienen


65 años o más? (Un 6,8%) (B) el 16,8% (C) el
68%
1.20 Ignorando el errático, la forma de la distribución en ejercicio 1.19 es
(a) Claramente sesgados a la derecha.
(b) Aproximadamente simétricas.
(c) Claramente un sesgo a la izquierda.
1.21 El centro de la distribución en ejercicio 1.19 está cerca
(Un 12,8%). (B) el 12,0%. (C) de 6,8% a 16,8%.
1.22 Usted mira los anuncios inmobiliarios de casas en Naples, Florida. Hay muchas
casas que van desde $200,000 hasta $500,000 en el precio. Las pocas casas sobre
el agua, sin embargo, tienen precios de hasta 15 millones de dólares. La
distribución de los precios de la vivienda será
(a) Un sesgo a la izquierda.
(b) Aproximadamente simétricas.
(c) Sesgados a la derecha.

CHAPTER1 EXCERISES

1.23 Los estudiantes de medicina. Los alumnos que han terminado la escuela
médica están asignados a res- idencies en hospitales para recibir más capacitación
en una especialidad médica. Aquí se parte de una base de datos hipotéticos de los
estudiantes que buscan posiciones de residencia. USMLE es el puntaje del
estudiante en el paso 1 del examen para la licencia médica nacional.

Nombre Medical School Sexo Eda USMLE Especialidad


d buscado
Abrams, Laurie Florida F 28 238 Medicina familiar
Brown, Gordon Meharry M 25 205 Radiología
Cabrera, Maria La Tufts F 26 191 Pediatría
Ismael Miranda Indiana F 32 245 Medicina interna

(a) ¿Qué personas no describen este conjunto de datos?


(b) Además del nombre del alumno, de cómo muchas de las variables que tiene
el conjunto de datos con- servar? Cuál de estas variables son categóricas y
cuales son cuantitativos?
1.24 Protección de la madera. ¿Cómo podemos ayudar a las superficies de madera
resistir la intemperie, especialmente cuando la restauración de edificios de madera
histórico? En un estudio de esta cuestión, los investigadores prepararon paneles de
madera y luego expuestos a las inclemencias del tiempo. Aquí están algunas de las
variables registradas. Cuál de estas variables son categóricas y cuales son quan -
titative?
(a) El tipo de madera (ÁLAMO AMARILLO, pino, cedro)
(b) Tipo de repelente al agua (solvente, a base de agua)
(c) El espesor de la pintura (milímetros).

Foto 24 c/Age fotostock
(d) La pintura de color (blanco, gris, azul claro)
(e) Desgaste del tiempo (meses)
28 CHAPTER 1 • Picturing Distributions with Graphs

1.25 ¿De qué color es tu coche? Los colores más populares para automóviles y
camionetas cambian con el tiempo. Plata verde pasó en 2000 a ser el color más
popular en todo el mundo, a continuación, dio paso a tonos de blanco en 2007.
Aquí está la distribución de colores para vel.- cles vendidos en América del Norte
en 2007:14

Color Popularid
ad
Blanco 19%
Silver 18%
Negro 16%
Rojo 13%
Gris 12%
Blue 12%
Beige, marrón 5%
Otros colores

Rellene el porcentaje de vehículos que se encuentran en otros colores. Hacer un


gráfico para mostrar la distribución de la popularidad de color.
1.26 La compra de música en línea. Los jóvenes tienen más probabilidades que las de
mayor edad folk a comprar música en línea. Aquí están los porcentajes de personas
de varios grupos de edad que han comprado música online en 2006:15

Grupo de edad Comprar música en


línea
De 12 a 17 años 24%
De 18 a 24 años 21%
De 25 a 34 años 20%
De 35 a 44 años 16%
De 45 a 54 años 10%
De 55 a 64 años 3%
Más de 65 años 1%

(a) Explicar por qué no es correcto utilizar un gráfico para mostrar estos datos.
(b) Hacer un gráfico de barras de los datos.
1.27 Las muertes entre los jóvenes. Entre personas de 15 a 24 años en los Estados
Unidos, las principales causas de muerte y el número de muertes en 2005 fueron:
accidentes, 15,567; homicidio, suicidio; 5359, 4139, 1717; cáncer; enfermedad
cardiaca, 1067; anomalías congénitas, 483 16.
(a) Hacer un gráfico de barras para mostrar estos datos.
(b) Para hacer un gráfico de tarta, necesita una pieza adicional de información. ¿Qué es?
1.28 Orígenes hispanos. La figura 1.13 es un gráfico de tarta preparada por la
Oficina del Censo para mostrar el origen de los más de 43 millones de hispanos
en los Estados Unidos en 2006. 17 acerca de qué tanto por ciento de los hispanos
son mexicanos? Puertorriqueño? Se puede ver que es difícil determinar el número
de un gráfico circular. Los gráficos de barras son mucho más fáciles de utilizar.
(La Oficina del Censo no incluyen los porcentajes en su gráfico de tarta).
Chapter 1 Exercises 29

Figura 1.13
Distribución porcentual de los
hispanos por tipo: 2006 Gráfico de tarta de los orígenes
nacionales de los residentes hispanos
Puerto Rican de los Estados Unidos, para el
Cuban ejercicio 1.28.
América Central

Otro hispano de
Mexicana
América del Sur

1.29 El spam. El spam es la maldición de la Internet. Aquí está una compilación de


los tipos más comunes de spam: 18

Tipo de spam Por


Ciento
Adulto 19
Ejercicio 20
Salud 7
Internet 7
Ocio 6
Productos 25
Estafas 9

Hacer dos gráficos de barras de estos porcentajes, uno con barras ordenadas como en
la tabla (alfa- betically) y la otra con barras en orden desde el más alto hasta el más
corto. Las comparaciones son más fáciles si usted ordena las barras por la altura.
1.30 Las muchachas adolescentes comer fruta? Todos sabemos que la fruta es
buena para nosotros. Muchos de nosotros no come lo suficiente. La figura 1.14 es un
histograma del número de porciones de frutas al día reclamada por 74 de 17 años, niñas
en un estudio realizado en Pensilvania.19 describen la forma, el centro y la
propagación de esta distribución. ¿Qué porcentaje de estas chicas comían menos
de dos porciones por día?
1.31 IQ test scores. La figura 1.15 es un stemplot de IQ test scores de 78 estudiantes
de séptimo grado en una escuela del medio oeste rural20.
(a) Cuatro alumnos tuvieron puntuaciones bajas que pueden considerarse
atípicos. Ignorar estas, describir la forma, el centro y la propagación de la
distribución. (Observe que se ve aproximadamente en forma de campana).
(b) A menudo leemos que las puntuaciones de CI para grandes poblaciones están
centradas en el 100. ¿Qué porcentaje de estos 78 estudiantes tienen
puntuaciones superiores a 100?
1.32 Devuelve sobre las acciones comunes. El retorno de un stock es el cambio en su
precio de mercado, además de los pagos de dividendos. Rendimiento total se expresa
generalmente como un porcentaje
30 CHAPTER 1 • Picturing Distributions with Graphs

Figura 1.14
La distribución de consumo de fruta

15
en una muestra de 74, de 17 años,
niñas, para ejercer de 1,30.

10
Número de temas
5
0

El principio de precio. La figura 1.16 es un histograma de la distribución de los


rendimientos mensuales para todas las acciones cotizadas en mercados de Estados
Unidos desde enero de 1985 hasta septiembre de 2007 (273 meses). 21 La extrema
baja outlier es el mercado el crash de octubre de 1987, cuando las reservas perdió
23% de su valor en un mes.
(a) Ignorando los outliers, describir la forma general de la distribución de los
retornos mensuales.

Figura 1.15
7 24
La distribución de las puntuaciones
7 79
de CI para 78 estudiantes de séptimo
8
grado, para el ejercicio 1.310.
8 69
9 01 33
9 6778
10 0022333344
10 555666777789
11 00001111222233344
11 55688999
12 003344
12 677888
13 02
13 6
Chapter 1 Exercises 31

Figura 1.16
La distribución mensual de por
80
ciento devuelve en acciones
comunes de EE.UU. desde enero de
1985 hasta septiembre de 2007,
Ejercicio 1.32.
60
Número de meses
40
20

-25 -20 -15 -10 -5 10


0

(b) ¿Qué es el centro aproximado de esta distribución? (Por ahora, tome el centro
sea el valor con aproximadamente la mitad de los meses habiendo menores
retornos y mitad tener retornos más altos).
(c) Aproximadamente, ¿qué eran los más pequeños y mayores retornos mensuales,
dejando fuera los outliers? (Esta es una manera de describir la propagación de
la distribución).
(d) Un retorno inferior a cero significa que las existencias perdió valor en ese
mes. Acerca de qué porcentaje de todos los meses se vuelve menos de cero?
1.33 Nombre de esa variable. Una encuesta de una gran clase de la universidad a las
siguientes preguntas:
1. ¿Hembra o macho? (En los datos, macho , hembra = 0 = 1).
2. ¿Diestro o zurdo? (En los datos, a la derecha , a la izquierda = 0 = 1).
3. ¿Cuál es su altura en pulgadas?
4. ¿Cuántos minutos estudio sobre una típica noche?
La figura 1.17 muestra los histogramas de las respuestas del estudiante, en orden y
revueltos con las marcas de escala-. Histograma que va con cada variable? Explicar el
motivo- ing.
1.34 Los aceites de los alimentos y la salud. Los ácidos grasos, a pesar de su nombre
desagradables, son necesarias para la salud humana. Dos tipos de ácidos grasos,
llamados omega-3 y omega-6, no son producidos por nuestro cuerpo, por lo que deben
obtenerse de los alimentos. Aceites alimentos, ampliamente utilizados en el
procesamiento de alimentos y la cocina, son las principales fuentes de estos
compuestos. Existe cierta evidencia de que una dieta saludable debe tener más omega-
3 que omega-6. Tabla
1.4 ofrece la proporción de omega-3 y omega-6 en algunos aceites alimenticios
comunes.22 Los valores mayores de 1 indican que un aceite tiene más omega-3 que
omega-6.
(a) Realizar un histograma de estos datos, el uso de clases delimitada por los
números enteros de 0 a 6.
32 CHAPTER 1 • Picturing Distributions with Graphs

(b)

(d)

Figura 1.17
Los histogramas de cuatro distribuciones, para el ejercicio 1330.

(b) ¿Cuál es la forma de la distribución? ¿Cuántos de los 30 alimentos aceites tienen


más omega-3 que omega-6? ¿Qué esta distribución sugieren acerca de los
posibles efectos sobre la salud de los alimentos modernos aceites?
(c) El cuadro 1.4 contiene entradas para varios aceites de pescado (Bacalao, arenque,
salmón, sardina menhaden). ¿Cómo estos valores apoyan la idea de que comer
pescado es sano?
1.35 ¿Dónde están los médicos? El cuadro 1.5 da el número de médicos por cada
100.000 personas en cada Estado23.
(a) ¿Por qué es el número de médicos por cada 100.000 habitantes una mejor medida
de la disponibilidad de atención de salud que un simple recuento del número de
médicos en el estado?
(b) Hacer un histograma que muestra la distribución de médicos por cada
100.000 habitantes. Escriba una breve descripción de la distribución. Existen
outliers? Si es así, ¿puede explicar?
Chapter 1 Exercises 33

Tabla 1.4 Los ácidos grasos Omega-3 como una fracción de los
ácidos grasos omega-6 en aceites de alimentos
El aceite RATIO El aceite RATIO

Perilla 5.33 La linaza 3.56


Nuez 0.20 Canola 0.46
El germen de trigo 0.13 La soja 0.13
Mostaza 0.38 La semilla de uva 0.00
Sardina 2.16 Menhaden 1.96
Salmón 2.50 Arenque 2.67
Mayonesa 0.06 La soja 0.07
Hígado de bacalao 2.00 El salvado de arroz 0.05
Manteca (hogar) 0.11 Mantequilla 0.64
Manteca (industrial) 0.06 Girasol 0.03
Margarina 0.05 Maíz 0.01
Olive 0.08 Sésamo 0.01
Tuerca de Shea 0.06 Semilla de algodón 0.00
Girasol (oleico) 0.05 Palm 0.02
Girasol (ácido linoleico) 0.00 La manteca de 0.04
cacao

Tabla de 1,5 médicos por cada 100.000 habitantes, por estado


Estado Los Estado Los Estado Los
médicos médicos médicos

Alabama 213 Luisiana 264 Ohio 261


Alaska 222 Maine 267 Oklahoma 171
Arizona 208 Maryland 411 Oregon 263
Arkansas 203 Massachusetts 450 Pennsylvania 294
California 259 Michigan 240 Rhode Island 351
Colorado 258 Minnesota 281 Carolina del Sur 230
Connecticut 363 Mississippi 181 Dakota del Sur 219
Delaware 248 Missouri 239 Tennessee 261
Florida 245 Montana 221 Texas 212
Georgia 220 Nebraska 239 Utah 209
Hawaii 310 Nevada 186 Vermont 362
Idaho 169 New Hampshire 260 Virginia 270
Illinois 272 Nueva Jersey 306 Washington 265
Indiana 213 Nuevo México 240 Virginia 229
Occidental
Iowa 187 Nueva York 389 Wisconsin 254
Kansas 220 Carolina del 253 Wyoming 188
Norte
Kentucky 230 Dakota del Norte 242 Distrito de 798
Columbia
34 CHAPTER 1 • Picturing Distributions with Graphs

Cuadro 1.6 Las emisiones de dióxido de carbono (toneladas métricas por persona).
País CO2 País CO2 País CO2

Argelia 2.6 Irán 6.0 Polonia 7.8


Argentina 3.6 Iraq 2.9 Rumanía 4.2
Australia 18.4 Italia 7.8 Rusia 10.8
Bangladesh 0.3 Japón 9.5 Arabia Saudita 13.8
Brasil 1.8 Kenya 0.3 Sudáfrica 7.0
Canadá 17.0 Corea del Norte 3.3 España 7.9
China 3.9 Corea del Sur 9.3 Sudán 0.3
Colombia 1.3 Malasia 5.5 Tanzania 0.1
Congo 0.2 México 3.7 Tailandia 3.3
Egipto 2.0 Marruecos 1.4 Turquía 3.0
Etiopía 0.1 Myanmar 0.2 Ucrania 6.3
Francia 6.2 Nepal 0.1 Reino Unido 8.8
Alemania 9.9 Nigeria 0.4 Estados Unidos 19.6
Ghana 0.3 Pakistán 0.8 Uzbekistán 4.2
La India 1.1 Perú 1.0 Venezuela 5.4
Indonesia 1.6 Filipinas 0.9 Vietnam 1.0

1.36 Las emisiones de dióxido de carbono. La quema de combustibles en las


plantas de energía o los vehículos automotores emiten dióxido de carbono (CO2),
que contribuye al calentamiento global. El cuadro 1.6 muestra las emisiones de
CO2 por persona en los países con poblaciones de al menos 20 millones de
dólares24.
(a) ¿Por qué crees que elegimos para medir las emisiones por persona en lugar
de las emisiones totales de CO2 de cada país?
(b) Hacer un stemplot para mostrar los datos de la tabla 1.6. Describir la forma,
el centro y la propagación de la distribución. Qué países son outliers?
1.37 Rock lenguado en el Mar de Bering. "Reclutamiento", la incorporación de
nuevos miembros a una población de peces, es una medida importante de la salud
de los ecosistemas oceánicos. La tabla proporciona datos sobre la contratación de
roca lenguado en el Mar de Bering desde 1973 a 2000. 25 realizar una stemplot para
mostrar la distribución anual de contratación exclusiva de rock. (Vuelta a la
centena más próxima y dividir los tallos.) Describir la forma, el centro y la
Sarkis Images/Alamy propagación de la distribución y cualquier desviación llamativa que puede ver.

contratación contratación contratación contratación


Año (millones) Año (millones) Año (millones) Año (millones)
de de de de
1973 173 1980 1411 1987 4700 1994 505
1974 234 1981 1431 1988 1702 1995 304
1975 616 1982 1250 1989 1119 1996 425
1976 344 1983 2246 1990 2407 1997 214
1977 515 1984 1793 1991 1049 1998 385
1978 576 1985 1793 1992 505 1999 445
1979 727 1986 2809 1993 998 2000 676
Chapter 1 Exercises 35

1.38 ¿Las mujeres estudian más que los hombres? Preguntamos a los estudiantes
en una gran clase de primer año de la universidad cuántos minutos han estudiado
en una típica noche de la semana. Aquí están las respuestas de muestras aleatorias
de 30 mujeres y 30 hombres de la clase:

Las Hom
mujeres bres
180 120 180 360 240 90 120 30 90 200
120 180 120 240 170 90 45 30 120 75
150 120 180 180 150 150 120 60 240 300
200 150 180 150 180 240 60 120 60 30
120 60 120 180 180 30 230 120 95 150
90 240 180 115 120 0 200 120 120 180

(a) Examinar los datos. ¿Por qué no sorprende que la mayoría de las respuestas
son múltiplos de 10 minutos? Hemos eliminado un estudiante que reclamó al
estudio de 30.000 minutos por noche. Hay otras respuestas que consideres
sospechosa?
(b) Hacer un back-to-back stemplot para comparar las dos muestras. Es decir, utilice uno Espalda con espalda stemplot
Conjunto de tallos con dos conjuntos de hojas, uno a la derecha y otro a la
izquierda de los tallos. (Dibuje una línea a cada lado de los tallos para separar
los tallos y las hojas.) para ambos conjuntos de hojas en el tallo de menor a
mayor distancia del tallo. Informe los puntos medios aproximados de ambos
grupos. Parece que las mujeres estudian más que los hombres (o, al menos,
afirman que lo hacen)?
1.39 Rock lenguado en el Mar de Bering. Hacer una hora solar del rock datos de
contratación exclusiva en ejercicio 1.37. ¿Cuál es el momento de demostrar que
su trazado stemplot en ejercicio 1.37 no muestran? Cuando tenga los datos de
series de tiempo, una parcela de tiempo es a menudo necesaria para entender lo
que está sucediendo.
1.40 La marihuana y los accidentes de tráfico. En Nueva Zelandia los
investigadores entrevistaron a 907 conductores en los 21 años de edad. Se disponía
de datos sobre accidentes de tráfico y pidieron a los conductores sobre el uso de la
marihuana. Aquí hay datos sobre el número de accidentes causados por estos
controladores a la edad de 19 años, desglosados por el uso de la marihuana a la
misma edad:26

El uso de la marihuana por año


Nunca 1-10 veces 11-50 veces +
51 veces
Los conductores 452 229 70 156
Accidentes 59 36 15 50
causados

(a) Explicar cuidadosamente por qué un útil gráfico deben comparar las
tasas (accidentes por cada controlador) en lugar de los recuentos de los
accidentes en las cuatro clases de uso de marihuana.
(b) Hacer un gráfico que muestra la tasa de accidentes para cada clase. ¿Qué pro-
clude? (No se puede concluir que el uso de la marihuana causa accidentes,
porque los tomadores de riesgo son más propensas a conducir de forma
agresiva y a usar la marihuana).
1.41 Fechas en las monedas. Hacer un boceto de un histograma para una
distribución que está sesgada hacia la izquierda. Suponga que usted y sus amigos
vaciar tus bolsillos de monedas y registrada el año marcado en cada moneda. La
36 CHAPTER 1 • Picturing Distributions with Graphs
distribución de las fechas sería un sesgo a la izquierda. Explicar por qué.
Chapter 1 Exercises 37

1.42 El Nin˜ o y el monzón. La tierra está interconectada. Por ejemplo, parece que El
Nin˜ o, el calentamiento periódico de el Océano Pacífico al oeste de América
del Sur, afecta las lluvias del monzón, que son esenciales para la agricultura en
la India. Aquí están las lluvias del monzón (en milímetros) para el 23 de fuerte
El Nin˜ o años entre 1871 y 2004:27

628 669 740 651 710 736 717 698 653 604 781 784
790 811 830 858 858 896 806 790 792 957 872

(a) Para hacer una de estas stemplot las cantidades de lluvia, ronda los datos hasta el
próximo 10 de modo que los tallos son cientos de milímetros y hojas son decenas
de milímetros. Hacer dos stemplots, con y sin dividir los tallos. Parcela que
prefiere?
(b) Describir la forma, el centro y la propagación de la distribución.
(c) El promedio de las lluvias monzónicas para todos los años desde 1871 a 2004 es
de unos 850 mil- limeters. ¿Qué efecto tiene El Nin˜ o parecen tener sobre las
lluvias del monzón?
1.43 Ver esas escalas! La impresión de que una parcela de tiempo da depende de las
escalas que se utilizan en los dos ejes. Si se estira el eje vertical y comprima el eje de
tiempo, el cambio parece ser más rápido. Comprimir el eje vertical y el eje del tiempo
de estiramiento hacen cambiar aparecen más lento. Hacer dos parcelas más tiempo de
la matrícula universitaria datos en ejercicio 1.12 (página 24), que hace aparecer la
matrícula para aumentar muy rápidamente y uno que sólo muestra un ligero aumento.
La moraleja de este ejercicio es: preste mucha atención a las escalas cuando observas
una parcela de tiempo.

Figura 1.18
Parcela de tiempo el recuento
mensual de nuevas viviendas
160

unifamiliares iniciado (en miles) entre


enero de 1990 y diciembre de 2007,
para el ejercicio de 1,44.
140
El número de viviendas iniciadas
100120
80 60
40 (miles)

Ene. Ene.
1990 1995
Hora

Das könnte Ihnen auch gefallen