Sie sind auf Seite 1von 104

CAPÍTULO 1

Conceptos
básicos

Organización
de datos CAPÍTULO 1
Una breve
introducción
Organización y resumen de datos.
al R

Distribución
de frecuencias
por intervalos

2016

Prof. Cristian Bayes FACI PUCP 1 / 42


Estadı́stica

CAPÍTULO 1

Es un conjunto de métodos cientı́ficos para la recolección,


Conceptos
organización, análisis e interpretación de datos con la finalidad
básicos de realizar conclusiones y tomar decisiones válidas.
Organización
de datos Estadı́stica Descriptiva: El objetivo de la estadı́stica des-
Una breve
introducción
criptiva es resumir las principales caracterı́sticas de un con-
al R junto de datos a través de tablas, gráficos y medidas numéri-
Distribución
de frecuencias
cas.
por intervalos

Prof. Cristian Bayes FACI PUCP 2 / 42


Estadı́stica

CAPÍTULO 1

Es un conjunto de métodos cientı́ficos para la recolección,


Conceptos
organización, análisis e interpretación de datos con la finalidad
básicos de realizar conclusiones y tomar decisiones válidas.
Organización
de datos Estadı́stica Descriptiva: El objetivo de la estadı́stica des-
Una breve
introducción
criptiva es resumir las principales caracterı́sticas de un con-
al R junto de datos a través de tablas, gráficos y medidas numéri-
Distribución
de frecuencias
cas.
por intervalos
Estadı́stica Inferencial: Se encarga del análisis de los datos
con el propósito de realizar conclusiones válidas acerca de
la población de donde originalmente se recolectaron estos
datos. La Estadı́stica inferencial está basada en la teorı́a de
probabilidades.

Prof. Cristian Bayes FACI PUCP 2 / 42


Población

CAPÍTULO 1
Es un conjunto de elementos que poseen al menos un atributo
en común, sobre los cuales se desea investigar una o más
Conceptos
básicos caracterı́sticas. El número de elementos que conforman una
Organización población será denotado por la letra N .
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 3 / 42


Población

CAPÍTULO 1
Es un conjunto de elementos que poseen al menos un atributo
en común, sobre los cuales se desea investigar una o más
Conceptos
básicos caracterı́sticas. El número de elementos que conforman una
Organización población será denotado por la letra N .
de datos
Son ejemplos de población:
Una breve
introducción
al R
Las bolsas de cemento producidas en un dı́a por una fábrica.
Distribución Los hogares de una región.
de frecuencias
por intervalos Los alumnos que estudian Ingenierı́a Civil en la PUCP.

Prof. Cristian Bayes FACI PUCP 3 / 42


Población

CAPÍTULO 1
Es un conjunto de elementos que poseen al menos un atributo
en común, sobre los cuales se desea investigar una o más
Conceptos
básicos caracterı́sticas. El número de elementos que conforman una
Organización población será denotado por la letra N .
de datos
Son ejemplos de población:
Una breve
introducción
al R
Las bolsas de cemento producidas en un dı́a por una fábrica.
Distribución Los hogares de una región.
de frecuencias
por intervalos Los alumnos que estudian Ingenierı́a Civil en la PUCP.
Una muestra es, por otro lado, un subconjunto de la población.
El número de elementos que conforman una muestra será
denotado por la letra n. Se dirá que una muestra es aleatoria si
sus elementos han sido seleccionados mediante un
procedimiento probabilı́stico.

Prof. Cristian Bayes FACI PUCP 3 / 42


Variable

CAPÍTULO 1

Es el resultado de una medición o una caracterı́stica en los


Conceptos
básicos
elementos de la población. Una variable suele ser denotada por
Organización
una letra mayúscula, por ejemplo: X, Y o Z.
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 4 / 42


Variable

CAPÍTULO 1

Es el resultado de una medición o una caracterı́stica en los


Conceptos
básicos
elementos de la población. Una variable suele ser denotada por
Organización
una letra mayúscula, por ejemplo: X, Y o Z.
de datos Son ejemplos de variable:
X = Peso de una bolsa de cemento de la producción de un
Una breve
introducción
al R
dı́a de una fábrica.
Y = Ingreso mensual de un hogar de una región.
Distribución
de frecuencias
por intervalos

Z = Nivel socioeconómico de un hogar de una región.

Prof. Cristian Bayes FACI PUCP 4 / 42


Variable

CAPÍTULO 1

Es el resultado de una medición o una caracterı́stica en los


Conceptos
básicos
elementos de la población. Una variable suele ser denotada por
Organización
una letra mayúscula, por ejemplo: X, Y o Z.
de datos Son ejemplos de variable:
X = Peso de una bolsa de cemento de la producción de un
Una breve
introducción
al R
dı́a de una fábrica.
Y = Ingreso mensual de un hogar de una región.
Distribución
de frecuencias
por intervalos

Z = Nivel socioeconómico de un hogar de una región.


Se denominará como dato al valor que toma una variable en un
elemento de la población. Un conjunto de n datos de una
variable X se suele denotar como x1 , x2 , ..., xn .

Prof. Cristian Bayes FACI PUCP 4 / 42


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 5 / 42


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización Discretas: son aquellas variables que toman un número enu-
de datos merable finito o infinito de valores. Usualmente se conside-
Una breve
introducción
ran números enteros.
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 5 / 42


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización Discretas: son aquellas variables que toman un número enu-
de datos merable finito o infinito de valores. Usualmente se conside-
Una breve
introducción
ran números enteros.
al R Continuas: son aquellas variables que pueden asumir cual-
Distribución quier valor dentro de un intervalo de valores, por lo que
de frecuencias
por intervalos pueden tomar un número no enumerable de valores.

Prof. Cristian Bayes FACI PUCP 5 / 42


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización Discretas: son aquellas variables que toman un número enu-
de datos merable finito o infinito de valores. Usualmente se conside-
Una breve
introducción
ran números enteros.
al R Continuas: son aquellas variables que pueden asumir cual-
Distribución quier valor dentro de un intervalo de valores, por lo que
de frecuencias
por intervalos pueden tomar un número no enumerable de valores.
Variables cualitativas: Si toma como valores categorı́as
que representan una clasificación en la población. Si bien
estas puedan representarse por números, estos no admiten
operaciones aritméticas. Las variables cualitativas se deno-
minan:

Prof. Cristian Bayes FACI PUCP 5 / 42


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización Discretas: son aquellas variables que toman un número enu-
de datos merable finito o infinito de valores. Usualmente se conside-
Una breve
introducción
ran números enteros.
al R Continuas: son aquellas variables que pueden asumir cual-
Distribución quier valor dentro de un intervalo de valores, por lo que
de frecuencias
por intervalos pueden tomar un número no enumerable de valores.
Variables cualitativas: Si toma como valores categorı́as
que representan una clasificación en la población. Si bien
estas puedan representarse por números, estos no admiten
operaciones aritméticas. Las variables cualitativas se deno-
minan:
Nominales: si no existe orden entre las categorı́as.

Prof. Cristian Bayes FACI PUCP 5 / 42


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización Discretas: son aquellas variables que toman un número enu-
de datos merable finito o infinito de valores. Usualmente se conside-
Una breve
introducción
ran números enteros.
al R Continuas: son aquellas variables que pueden asumir cual-
Distribución quier valor dentro de un intervalo de valores, por lo que
de frecuencias
por intervalos pueden tomar un número no enumerable de valores.
Variables cualitativas: Si toma como valores categorı́as
que representan una clasificación en la población. Si bien
estas puedan representarse por números, estos no admiten
operaciones aritméticas. Las variables cualitativas se deno-
minan:
Nominales: si no existe orden entre las categorı́as.
Ordinales: si existe orden entre las categorı́as.
Prof. Cristian Bayes FACI PUCP 5 / 42
CAPÍTULO 1
Se tienen las definiciones siguientes :
Parámetro: Es una medida que describe una población. El
Conceptos
básicos
parámetro resume cierta información de una población por
Organización
tanto es número único y por los usual desconocido, pero
de datos de interés. Un parámetro suele ser denotado por una letra
Una breve
introducción
griega, por ejemplo: µ para la media, σ 2 para la varianza y
al R
p para una proporción.
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 6 / 42


CAPÍTULO 1
Se tienen las definiciones siguientes :
Parámetro: Es una medida que describe una población. El
Conceptos
básicos
parámetro resume cierta información de una población por
Organización
tanto es número único y por los usual desconocido, pero
de datos de interés. Un parámetro suele ser denotado por una letra
Una breve
introducción
griega, por ejemplo: µ para la media, σ 2 para la varianza y
al R
p para una proporción.
Distribución
de frecuencias Estadı́stica: Es una medida que describe a una muestra
por intervalos
y es definida como una función de las observaciones de la
muestra que no dependan de ningún parámetro. Seguiremos
la siguiente notación para los siguientes estadı́sticas: X̄ para
la media muestral, S 2 para la variancia muestral, p̄ para la
proporción muestral, mı́n para el valor mı́nimo y máx para
el valor máximo de una muestra.

Prof. Cristian Bayes FACI PUCP 6 / 42


CAPÍTULO 1

Conceptos
Estimador: Es una estadı́stica que es utilizada para estimar
básicos
el valor de un parámetro.
Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 7 / 42


CAPÍTULO 1

Conceptos
Estimador: Es una estadı́stica que es utilizada para estimar
básicos
el valor de un parámetro.
Organización
de datos Estimación: Es el valor que se obtiene para un estimador
Una breve para una muestra dada.
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 7 / 42


CAPÍTULO 1

Conceptos
Estimador: Es una estadı́stica que es utilizada para estimar
básicos
el valor de un parámetro.
Organización
de datos Estimación: Es el valor que se obtiene para un estimador
Una breve para una muestra dada.
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 7 / 42


CAPÍTULO 1

Conceptos
Estimador: Es una estadı́stica que es utilizada para estimar
básicos
el valor de un parámetro.
Organización
de datos Estimación: Es el valor que se obtiene para un estimador
Una breve para una muestra dada.
introducción
al R
Ejemplo: Considerando como población los hogares de una
Distribución
de frecuencias cierta región y como variable el ingreso de estos hogares,
podemos definir como parámetro µ = ingreso promedio de un
por intervalos

hogar de esta región y como estimador de este parámetro a X̄


la media muestral. Seleccionados por ejemplo 40 hogares ella
nos arroja una estimación de 3, 767.5 um.

Prof. Cristian Bayes FACI PUCP 7 / 42


Tablas o distribuciones de frecuencias
CASO CUALITATIVO

CAPÍTULO 1 Cuando la variable en estudio es cualitativa, una tabla de


frecuencias está constituida por una lista de las posibles
Conceptos
categorı́as acompañadas por el número de veces que ocurre
básicos cada una de ellas. En este caso asumiremos que la variable tiene
Organización
de datos
k categorı́as diferentes y consideraremos la siguiente notación:
Una breve
introducción
nj : la frecuencia ó número de veces que ocurre la categorı́a
al R j.
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 8 / 42


Tablas o distribuciones de frecuencias
CASO CUALITATIVO

CAPÍTULO 1 Cuando la variable en estudio es cualitativa, una tabla de


frecuencias está constituida por una lista de las posibles
Conceptos
categorı́as acompañadas por el número de veces que ocurre
básicos cada una de ellas. En este caso asumiremos que la variable tiene
Organización
de datos
k categorı́as diferentes y consideraremos la siguiente notación:
Una breve
introducción
nj : la frecuencia ó número de veces que ocurre la categorı́a
al R j.
Distribución
de frecuencias fj : la frecuencia relativa o proporción de la categorı́a j,
calculada como fj = nj , siendo n el número total de datos.
por intervalos n

Prof. Cristian Bayes FACI PUCP 8 / 42


Tablas o distribuciones de frecuencias
CASO CUALITATIVO

CAPÍTULO 1 Cuando la variable en estudio es cualitativa, una tabla de


frecuencias está constituida por una lista de las posibles
Conceptos
categorı́as acompañadas por el número de veces que ocurre
básicos cada una de ellas. En este caso asumiremos que la variable tiene
Organización
de datos
k categorı́as diferentes y consideraremos la siguiente notación:
Una breve
introducción
nj : la frecuencia ó número de veces que ocurre la categorı́a
al R j.
Distribución
de frecuencias fj : la frecuencia relativa o proporción de la categorı́a j,
calculada como fj = nj , siendo n el número total de datos.
por intervalos n

pj : el porcentaje de la categorı́a j, calculado como pj =


100 × fj .

Prof. Cristian Bayes FACI PUCP 8 / 42


Tablas o distribuciones de frecuencias
CASO CUALITATIVO

CAPÍTULO 1 Cuando la variable en estudio es cualitativa, una tabla de


frecuencias está constituida por una lista de las posibles
Conceptos
categorı́as acompañadas por el número de veces que ocurre
básicos cada una de ellas. En este caso asumiremos que la variable tiene
Organización
de datos
k categorı́as diferentes y consideraremos la siguiente notación:
Una breve
introducción
nj : la frecuencia ó número de veces que ocurre la categorı́a
al R j.
Distribución
de frecuencias fj : la frecuencia relativa o proporción de la categorı́a j,
calculada como fj = nj , siendo n el número total de datos.
por intervalos n

pj : el porcentaje de la categorı́a j, calculado como pj =


100 × fj .
k k k
Es claro que se cumple que: ∑ nj = n, ∑ fj = 1 y ∑ pj =
j=1 j=1 j=1
100 %
Prof. Cristian Bayes FACI PUCP 8 / 42
CAPÍTULO 1

La información contenida en la tabla de frecuencias puede ser


Conceptos
básicos representada a través de gráficos como:
Organización
de datos
Gráfico de barras: a cada categorı́a se la representa por una
Una breve barra cuya altura es proporcional a la frecuencia con que
introducción
al R ocurre. En este tipo de gráficos se suele dejar un espacio
Distribución entre las barras para indicar que se está presentando infor-
de frecuencias
por intervalos mación de una variable cualitativa.

Prof. Cristian Bayes FACI PUCP 9 / 42


CAPÍTULO 1

La información contenida en la tabla de frecuencias puede ser


Conceptos
básicos representada a través de gráficos como:
Organización
de datos
Gráfico de barras: a cada categorı́a se la representa por una
Una breve barra cuya altura es proporcional a la frecuencia con que
introducción
al R ocurre. En este tipo de gráficos se suele dejar un espacio
Distribución entre las barras para indicar que se está presentando infor-
de frecuencias
por intervalos mación de una variable cualitativa.
Gráfico de sectores circulares: a cada categorı́a se la repre-
senta por un sector del cı́rculo proporcional a la frecuencia
con que ocurre.

Prof. Cristian Bayes FACI PUCP 9 / 42


Ejemplo:

CAPÍTULO 1

Conceptos Durante un mes se monitoreo el estado de la calidad del aire en


básicos
una ciudad, estos fueron los resultados:
Organización
de datos

Una breve
introducción Bueno Moderado Bueno Malo Moderado Malo
al R Malo Moderado Malo Malo Malo Moderado
Distribución Moderado Moderado Moderado Malo Muy Malo Malo
de frecuencias
por intervalos Moderado Moderado Malo Moderado Moderado Malo
Malo Moderado Moderado Bueno Moderado Malo

Obtenga su distribución de frecuencias y los gráficos de barras y de


sectores circulares.

Prof. Cristian Bayes FACI PUCP 10 / 42


Solución:

CAPÍTULO 1

Es directo obtener la siguiente distribución de frecuencias:


Conceptos
básicos

Organización
de datos
j Categorı́as Frecuencia Frecuencia relativa Porcentaje
Una breve
introducción nj fj pj
al R
1 Bueno 3 0.10 10
Distribución
de frecuencias 2 Moderado 14 0.467 46.7
por intervalos
3 Malo 12 0.40 40
4 Muy Malo 1 0.033 3.3
Total 30 1 100

Prof. Cristian Bayes FACI PUCP 11 / 42


CAPÍTULO 1 LaORGANIZACI
1.2. información contenida
ÓN DE DATOS en esta tabla se presenta de forma 5

gráfica en siguiente figura.


Conceptos
básicos
0.4

Organización Moderado
47%
de datos

Una breve
0.3

Bueno
introducción 10%
al R
Muy Malo
Distribución
0.2

3%
de frecuencias
por intervalos
0.1

Malo
40%
0.0

Bueno Moderado Malo Muy Malo

Figura: Gráfico de Barras y de Sectores circulares


Figura 1.1: Gráfico de Barras y de Sectores circulares

Prof. Cristian Bayes FACI PUCP 12 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO DISCRETO

CAPÍTULO 1 En este caso la tabla de frecuencias estará constituida por una


lista de las posibles valores que puede tomar la variable
Conceptos
acompañadas por el número de veces que ocurre cada uno de
básicos
estos valores. En este caso asumiremos que la variable X tiene
Organización
de datos k valores distintos x1 , ..., xk y consideraremos la siguiente
Una breve notación
introducción
al R
nj : la frecuencia ó número de veces que ocurre el valor xj .
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 13 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO DISCRETO

CAPÍTULO 1 En este caso la tabla de frecuencias estará constituida por una


lista de las posibles valores que puede tomar la variable
Conceptos
acompañadas por el número de veces que ocurre cada uno de
básicos
estos valores. En este caso asumiremos que la variable X tiene
Organización
de datos k valores distintos x1 , ..., xk y consideraremos la siguiente
Una breve notación
introducción
al R
nj : la frecuencia ó número de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =
Distribución
de frecuencias

nj /n, siendo n el número total de datos.


por intervalos

Prof. Cristian Bayes FACI PUCP 13 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO DISCRETO

CAPÍTULO 1 En este caso la tabla de frecuencias estará constituida por una


lista de las posibles valores que puede tomar la variable
Conceptos
acompañadas por el número de veces que ocurre cada uno de
básicos
estos valores. En este caso asumiremos que la variable X tiene
Organización
de datos k valores distintos x1 , ..., xk y consideraremos la siguiente
Una breve notación
introducción
al R
nj : la frecuencia ó número de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =
Distribución
de frecuencias

nj /n, siendo n el número total de datos.


por intervalos

pj : el porcentaje del valor xj , calculado como pj = 100×fj .

Prof. Cristian Bayes FACI PUCP 13 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO DISCRETO

CAPÍTULO 1 En este caso la tabla de frecuencias estará constituida por una


lista de las posibles valores que puede tomar la variable
Conceptos
acompañadas por el número de veces que ocurre cada uno de
básicos
estos valores. En este caso asumiremos que la variable X tiene
Organización
de datos k valores distintos x1 , ..., xk y consideraremos la siguiente
Una breve notación
introducción
al R
nj : la frecuencia ó número de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =
Distribución
de frecuencias

nj /n, siendo n el número total de datos.


por intervalos

pj : el porcentaje del valor xj , calculado como pj = 100×fj .


Esta tabla de frecuencias suele ser resumida a través de:
Gráfico de bastones: a cada valor posible xj se la representa
por una lı́nea vertical cuya altura es proporcional a la
frecuencia con que ocurre.
Prof. Cristian Bayes FACI PUCP 13 / 42
Ejemplo:

CAPÍTULO 1

Conceptos
básicos En un cierto distrito durante un mes se registró el número de
Organización accidentes de tránsito por dı́a, estos fueron los resultados:
de datos

Una breve
introducción 1 2 0 3 1 0 1 0 4 2
al R
1 1 2 0 1 1 0 3 1 1
Distribución
de frecuencias 0 2 1 0 4 0 1 2 2 2
por intervalos

Note que la variable número de accidentes de tránsito por dı́a


en un distrito puede tomar los siguientes valores: 0, 1, 2, 3 y 4.

Prof. Cristian Bayes FACI PUCP 14 / 42


Solución:

CAPÍTULO 1

A continuación presentamos la tabla de frecuencias para este


Conceptos
básicos
conjunto de datos
Organización
de datos

Una breve
Número de Frecuencia Frecuencia Porcentaje Porcentaje
introducción accidentes nj relativa fj pj acumulado Pj
al R
0 8 0.267 26.7 26.7
Distribución
de frecuencias 1 11 0.367 36.7 63.4
por intervalos
2 7 0.233 23.3 86.7
3 2 0.067 6.7 93.4
4 2 0.067 6.7 100
Total 30 1 100

Prof. Cristian Bayes FACI PUCP 15 / 42


CAPÍTULO 1 La información contenida en esta tabla se presenta en forma
gráfica en la siguiente figura
Conceptos Distribucion de frecuencias del número de accidentes

básicos

Organización
10

de datos

Una breve
8

introducción
al R
Frecuencia

Distribución
de frecuencias
4

por intervalos
2
0

0 1 2 3 4

Figura: Gráfico de bastones

Prof. Cristian Bayes FACI PUCP 16 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 17 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos Permite aplicar una variedad de métodos estadı́sticos básicos
básicos y avanzados.
Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 17 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos Permite aplicar una variedad de métodos estadı́sticos básicos
básicos y avanzados.
Organización Produce gráficos de alta calidad.
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 17 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos Permite aplicar una variedad de métodos estadı́sticos básicos
básicos y avanzados.
Organización Produce gráficos de alta calidad.
de datos
R es un lenguaje de programación; es decir, podemos escribir
Una breve
introducción nuevas funciones y extender el uso de R.
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 17 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos Permite aplicar una variedad de métodos estadı́sticos básicos
básicos y avanzados.
Organización Produce gráficos de alta calidad.
de datos
R es un lenguaje de programación; es decir, podemos escribir
Una breve
introducción nuevas funciones y extender el uso de R.
al R

Distribución
R fue inicialmente escrito Ross Ihaka y Robert Gentleman
de frecuencias del Departamento de Estadı́stica de la Universidad de Auc-
por intervalos
kland en Auckland, Nueva Zelanda.

Prof. Cristian Bayes FACI PUCP 17 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos Permite aplicar una variedad de métodos estadı́sticos básicos
básicos y avanzados.
Organización Produce gráficos de alta calidad.
de datos
R es un lenguaje de programación; es decir, podemos escribir
Una breve
introducción nuevas funciones y extender el uso de R.
al R

Distribución
R fue inicialmente escrito Ross Ihaka y Robert Gentleman
de frecuencias del Departamento de Estadı́stica de la Universidad de Auc-
por intervalos
kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-
chos contribuyentes. El R Core Team está conformado por
unos 17 programadores que son responsables de modificar
el código fuente de R.

Prof. Cristian Bayes FACI PUCP 17 / 42


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos Permite aplicar una variedad de métodos estadı́sticos básicos
básicos y avanzados.
Organización Produce gráficos de alta calidad.
de datos
R es un lenguaje de programación; es decir, podemos escribir
Una breve
introducción nuevas funciones y extender el uso de R.
al R

Distribución
R fue inicialmente escrito Ross Ihaka y Robert Gentleman
de frecuencias del Departamento de Estadı́stica de la Universidad de Auc-
por intervalos
kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-
chos contribuyentes. El R Core Team está conformado por
unos 17 programadores que son responsables de modificar
el código fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Prof. Cristian Bayes FACI PUCP 17 / 42
Instalación de R

CAPÍTULO 1
R puede ser instalado en Windows, Mac o Linux.

Conceptos
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 18 / 42


Instalación de R

CAPÍTULO 1
R puede ser instalado en Windows, Mac o Linux.
Para instalar el sistema base, visitar el sitio web de R y
Conceptos seguir las instrucciones de instalación.
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 18 / 42


Instalación de R

CAPÍTULO 1
R puede ser instalado en Windows, Mac o Linux.
Para instalar el sistema base, visitar el sitio web de R y
Conceptos seguir las instrucciones de instalación.
básicos
Adicionalmente al sistema base existen una serie de paque-
Organización
de datos tes adicionales de contribuyentes. Un paquete es una co-
Una breve lección de funciones, ejemplos y documentación que usual-
introducción
al R mente están enfocados en realizar una tarea especı́fica.
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 18 / 42


Instalación de R

CAPÍTULO 1
R puede ser instalado en Windows, Mac o Linux.
Para instalar el sistema base, visitar el sitio web de R y
Conceptos seguir las instrucciones de instalación.
básicos
Adicionalmente al sistema base existen una serie de paque-
Organización
de datos tes adicionales de contribuyentes. Un paquete es una co-
Una breve lección de funciones, ejemplos y documentación que usual-
introducción
al R mente están enfocados en realizar una tarea especı́fica.
Distribución El sistema base contiene solamente algunos paquetes. Para
de frecuencias
por intervalos instalar un paquete adicional, por ejemplo agricolae, se
debe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecerá una ventana para
seleccionar el mirror más cercano, luego todo es automático.

Prof. Cristian Bayes FACI PUCP 18 / 42


Instalación de R

CAPÍTULO 1
R puede ser instalado en Windows, Mac o Linux.
Para instalar el sistema base, visitar el sitio web de R y
Conceptos seguir las instrucciones de instalación.
básicos
Adicionalmente al sistema base existen una serie de paque-
Organización
de datos tes adicionales de contribuyentes. Un paquete es una co-
Una breve lección de funciones, ejemplos y documentación que usual-
introducción
al R mente están enfocados en realizar una tarea especı́fica.
Distribución El sistema base contiene solamente algunos paquetes. Para
de frecuencias
por intervalos instalar un paquete adicional, por ejemplo agricolae, se
debe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecerá una ventana para
seleccionar el mirror más cercano, luego todo es automático.
Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Prof. Cristian Bayes FACI PUCP 18 / 42
La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.

Conceptos
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 19 / 42


La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 19 / 42


La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R
Una sesión en R es la interacción entre el usuario y el siste-
Distribución
de frecuencias ma.
por intervalos

Prof. Cristian Bayes FACI PUCP 19 / 42


La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R
Una sesión en R es la interacción entre el usuario y el siste-
Distribución
de frecuencias ma.
por intervalos
Para obtener la última expresión ingresada usar la techa de
flecha hacia arriba.

Prof. Cristian Bayes FACI PUCP 19 / 42


La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R
Una sesión en R es la interacción entre el usuario y el siste-
Distribución
de frecuencias ma.
por intervalos
Para obtener la última expresión ingresada usar la techa de
flecha hacia arriba.
Para obtener el valor de la última expresión evaluada tipear
.Last.value.

Prof. Cristian Bayes FACI PUCP 19 / 42


La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R
Una sesión en R es la interacción entre el usuario y el siste-
Distribución
de frecuencias ma.
por intervalos
Para obtener la última expresión ingresada usar la techa de
flecha hacia arriba.
Para obtener el valor de la última expresión evaluada tipear
.Last.value.
Presionar Esc para detener la evaluación de la expresión que
se está evaluando.
Prof. Cristian Bayes FACI PUCP 19 / 42
R cómo calculadora

CAPÍTULO 1
Si se introduce una expresión matemática, el resultado se
mostrará en la consola.
Conceptos
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

> 5/4
[1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4
Prof. Cristian Bayes FACI PUCP 20 / 42
Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).
El llamado a una función puede incluir cualquier subconjunto
de la lista completa de argumentos.

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).
El llamado a una función puede incluir cualquier subconjunto
de la lista completa de argumentos.
Para especificar un argumento en particular usar el nombre
del argumento.

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).
El llamado a una función puede incluir cualquier subconjunto
de la lista completa de argumentos.
Para especificar un argumento en particular usar el nombre
del argumento.
Los argumentos pueden no nombrarse si están inscritos en
el orden de la lista de argumentos formales de la función.

Prof. Cristian Bayes FACI PUCP 21 / 42


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).
El llamado a una función puede incluir cualquier subconjunto
de la lista completa de argumentos.
Para especificar un argumento en particular usar el nombre
del argumento.
Los argumentos pueden no nombrarse si están inscritos en
el orden de la lista de argumentos formales de la función.
R DISTINGUE MAYÚSCULAS DE MINÚSCULAS.
Prof. Cristian Bayes FACI PUCP 21 / 42
Ejemplo - Asignar Objetos y Llamado de Funciones

CAPÍTULO 1
Supongamos que queremos encontrar la media de un con-
junto de números. Primero se asigna el vector de números
Conceptos con un nombre x y luego se llama a la función mean().
básicos
> x <- c(0,5,7,9,1,2,8)
Organización
de datos > x
Una breve [1] 0 5 7 9 1 2 8
introducción
al R > mean(x)
Distribución [1] 4.571429
de frecuencias
por intervalos > X
Error: object ’X’ not found

Prof. Cristian Bayes FACI PUCP 22 / 42


Ejemplo - Asignar Objetos y Llamado de Funciones

CAPÍTULO 1
Supongamos que queremos encontrar la media de un con-
junto de números. Primero se asigna el vector de números
Conceptos con un nombre x y luego se llama a la función mean().
básicos
> x <- c(0,5,7,9,1,2,8)
Organización
de datos > x
Una breve [1] 0 5 7 9 1 2 8
introducción
al R > mean(x)
Distribución [1] 4.571429
de frecuencias
por intervalos > X
Error: object ’X’ not found
Ahora supongamos que se quiere ordenar un vector y que los
números estén en orden descendente. Por defecto R ordena
de modo ascendente, por lo que se tiene que cambiar el
argumento decreasing por TRUE (el valor por defecto es
FALSE).
Prof. Cristian Bayes FACI PUCP 22 / 42
CAPÍTULO 1

Conceptos > y <- c(4,2,0,9,5,3,10)


básicos
> y
Organización
de datos [1] 4 2 0 9 5 3 10
Una breve > sort(y)
introducción
al R [1] 0 2 3 4 5 9 10
Distribución
de frecuencias
> sort(y, decreasing=TRUE)
por intervalos [1] 10 9 5 4 3 2 0

Prof. Cristian Bayes FACI PUCP 23 / 42


CAPÍTULO 1

Conceptos > y <- c(4,2,0,9,5,3,10)


básicos
> y
Organización
de datos [1] 4 2 0 9 5 3 10
Una breve > sort(y)
introducción
al R [1] 0 2 3 4 5 9 10
Distribución
de frecuencias
> sort(y, decreasing=TRUE)
por intervalos [1] 10 9 5 4 3 2 0

En adelante, para que todos los comandos que escribimos


puedan ser directamente copiados a la consola, omitiremos el
sı́mbolo del cursor >.

Prof. Cristian Bayes FACI PUCP 23 / 42


Retomando los ejemplos con R

CAPÍTULO 1 Dada la introducción previa a R, veamos cómo recrear los


ejemplos previos en R. El ingreso de los datos lo podemos
Conceptos
hacer directamente en R u otro software (por ejemplo Excel)
básicos para luego importar estos datos a R. Vemos la primera
Organización
de datos
estrategia para el ejemplo con x = número de accidentes.
Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 24 / 42


Retomando los ejemplos con R

CAPÍTULO 1 Dada la introducción previa a R, veamos cómo recrear los


ejemplos previos en R. El ingreso de los datos lo podemos
Conceptos
hacer directamente en R u otro software (por ejemplo Excel)
básicos para luego importar estos datos a R. Vemos la primera
Organización
de datos
estrategia para el ejemplo con x = número de accidentes.
Una breve En la consola de R escribamos
introducción
al R x = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1,
Distribución
de frecuencias
1, 0, 3, 1, 1, 0, 2, 1, 0, 4, 0, 1, 2, 2, 2)
por intervalos
La distribución de frecuencias de esta variable se obtiene con el
comando table
tab = table(x)
tab
x
0 1 2 3 4
8 11 7 2 2
Prof. Cristian Bayes FACI PUCP 24 / 42
CAPÍTULO 1 La distribución de los porcentajes se podrı́a obtener con
100*tab/length(x)
Conceptos
x
básicos
0 1 2 3 4
Organización
de datos 26.666667 36.666667 23.333333 6.666667 6.666667
Una breve
introducción
Si queremos tanto las frecuencias absolutas como relativas en
al R columnas, podemos usar el comando cbind, el cual sirve para
Distribución
de frecuencias
agrupar vectores en columnas.
por intervalos
> cbind(tab,tab/length(x))
tab
0 8 0.26666667
1 11 0.36666667
2 7 0.23333333
3 2 0.06666667
4 2 0.06666667
Prof. Cristian Bayes FACI PUCP 25 / 42
CAPÍTULO 1 Algo interesante a notar es que la tabla de frecuencias es un
objeto (R es un lenguaje orientado a objetos) que se ha
guardado en la variable tab. Ella tiene un formato de tabla, que
Conceptos
básicos podrı́a convertirse en un vector con el comando
Organización
de datos tab = as.vector(tab)
Una breve tab
introducción
al R [1] 8 11 7 2 2
Distribución
de frecuencias Esto nos podrı́a servir por ejemplo para encontrar las
por intervalos
frecuencias acumuladas mediante
cumsum(tab)
0 1 2 3 4
8 19 26 28 30
El gráfico de bastones asociado a esta distribución de
frecuencias se puede obtener mediante
Prof. Cristian Bayes FACI PUCP 26 / 42
CAPÍTULO 1
plot(tab,type="h",ylab="Frecuencia")
title("Distribución de frecuencias del número
Conceptos de accidentes")
básicos

Organización Lo que nos da el gráfico siguiente:


de datos

Una breve Distribucion de frecuencias del número de accidentes

introducción
al R
10

Distribución
de frecuencias
8

por intervalos
Frecuencia

6
4
2
0

0 1 2 3 4

Prof. Cristian Bayes FACI PUCP 27 / 42


CAPÍTULO 1 Veamos ahora el ejemplo para x = Calidad del aire,
considerando que la data la copiamos (copy paste) a Excel
toda en un columna con la primera fila Calidad. Grabando este
Conceptos
básicos archivo en formato csv podemos invocar a
Organización
de datos x = read.csv(file.choose())
Una breve
introducción La opción file.choose() lo direccionará a su PC para que elija el
al R
archivo buscado. Otra posibilidad es colocar entre comillas el
Distribución
de frecuencias nombre del archivo pero este deberı́a de estar en su directorio
por intervalos
de trabajo.

Prof. Cristian Bayes FACI PUCP 28 / 42


CAPÍTULO 1 Veamos ahora el ejemplo para x = Calidad del aire,
considerando que la data la copiamos (copy paste) a Excel
toda en un columna con la primera fila Calidad. Grabando este
Conceptos
básicos archivo en formato csv podemos invocar a
Organización
de datos x = read.csv(file.choose())
Una breve
introducción La opción file.choose() lo direccionará a su PC para que elija el
al R
archivo buscado. Otra posibilidad es colocar entre comillas el
Distribución
de frecuencias nombre del archivo pero este deberı́a de estar en su directorio
por intervalos
de trabajo.
La distribución de frecuencias absolutas vendrá dada por:
table(x)
x
Bueno Malo Moderado Muy Malo
3 12 14 1
Prof. Cristian Bayes FACI PUCP 28 / 42
CAPÍTULO 1 El gráfico de barras para la distribución de x se obtiene
mediante
Conceptos
barplot(table(x),ylab=#Frecuencia")
básicos
title(# Distribución de frecuencias
Organización
de datos del estado de la calidad del aire")
Una breve
introducción Distribucion de frecuencias del estado de la calidad del aire
al R
14

Distribución
12

de frecuencias
por intervalos
10
8
Frecuencia

6
4
2
0

Bueno Malo Moderado Muy Malo

Prof. Cristian Bayes FACI PUCP 29 / 42


CAPÍTULO 1 Otra alternativa al gráfico anterior es el gráfico circular el cual
puede obtenerse mediante
Conceptos
> pie(table(x)) Malo
básicos

Organización
de datos

Una breve
introducción
al R Bueno

Distribución
de frecuencias
por intervalos
Muy Malo

Moderado

Prof. Cristian Bayes FACI PUCP 30 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO CONTINUO

CAPÍTULO 1 En este caso es necesario agrupar las observaciones en clases.


Considerando las clases como intervalos de igual amplitud,
Conceptos
podemos seguir el siguiente procedimiento:
básicos
Establecer el número de clases k, usualmente se consideran
Organización
de datos entre 5 y 10 intervalos, esta es una decisión subjetiva y
Una breve depende de la experiencia. Una sugerencia es seguir la regla
de Sturges: k = 1 + 3.3 log10 (n), donde k se aproxima por
introducción
al R

Distribución exceso.
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 31 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO CONTINUO

CAPÍTULO 1 En este caso es necesario agrupar las observaciones en clases.


Considerando las clases como intervalos de igual amplitud,
Conceptos
podemos seguir el siguiente procedimiento:
básicos
Establecer el número de clases k, usualmente se consideran
Organización
de datos entre 5 y 10 intervalos, esta es una decisión subjetiva y
Una breve depende de la experiencia. Una sugerencia es seguir la regla
de Sturges: k = 1 + 3.3 log10 (n), donde k se aproxima por
introducción
al R

Distribución exceso.
Determinar la amplitud de los datos, A =máx − mı́n.
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 31 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO CONTINUO

CAPÍTULO 1 En este caso es necesario agrupar las observaciones en clases.


Considerando las clases como intervalos de igual amplitud,
Conceptos
podemos seguir el siguiente procedimiento:
básicos
Establecer el número de clases k, usualmente se consideran
Organización
de datos entre 5 y 10 intervalos, esta es una decisión subjetiva y
Una breve depende de la experiencia. Una sugerencia es seguir la regla
de Sturges: k = 1 + 3.3 log10 (n), donde k se aproxima por
introducción
al R

Distribución exceso.
Determinar la amplitud de los datos, A =máx − mı́n.
de frecuencias
por intervalos
A
Determinar el tamaño de la clase, c = . Se debe redondear
k
por exceso al número de decimales de los datos.

Prof. Cristian Bayes FACI PUCP 31 / 42


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO CONTINUO

CAPÍTULO 1 En este caso es necesario agrupar las observaciones en clases.


Considerando las clases como intervalos de igual amplitud,
Conceptos
podemos seguir el siguiente procedimiento:
básicos
Establecer el número de clases k, usualmente se consideran
Organización
de datos entre 5 y 10 intervalos, esta es una decisión subjetiva y
Una breve depende de la experiencia. Una sugerencia es seguir la regla
de Sturges: k = 1 + 3.3 log10 (n), donde k se aproxima por
introducción
al R

Distribución exceso.
Determinar la amplitud de los datos, A =máx − mı́n.
de frecuencias
por intervalos
A
Determinar el tamaño de la clase, c = . Se debe redondear
k
por exceso al número de decimales de los datos.
Usar c para construir los intervalos de cada clase, en este
caso consideraremos intervalos cerrados por la derecha y
abiertos por la izquierda, con excepción del primero que es
cerrado en ambos lados.
Prof. Cristian Bayes FACI PUCP 31 / 42
Tablas o distribuciones de frecuencias
CASO CUANTITATIVO CONTINUO

CAPÍTULO 1 En este caso es necesario agrupar las observaciones en clases.


Considerando las clases como intervalos de igual amplitud,
Conceptos
podemos seguir el siguiente procedimiento:
básicos
Establecer el número de clases k, usualmente se consideran
Organización
de datos entre 5 y 10 intervalos, esta es una decisión subjetiva y
Una breve depende de la experiencia. Una sugerencia es seguir la regla
de Sturges: k = 1 + 3.3 log10 (n), donde k se aproxima por
introducción
al R

Distribución exceso.
Determinar la amplitud de los datos, A =máx − mı́n.
de frecuencias
por intervalos
A
Determinar el tamaño de la clase, c = . Se debe redondear
k
por exceso al número de decimales de los datos.
Usar c para construir los intervalos de cada clase, en este
caso consideraremos intervalos cerrados por la derecha y
abiertos por la izquierda, con excepción del primero que es
cerrado en ambos lados.
Prof. Cristian Bayes FACI PUCP 31 / 42
CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos

Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
introducción
al R

Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
fj =
introducción
nj
al R
n : Frecuencia relativa de la clase j.
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
fj =
introducción
nj
al R
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
fj =
introducción
nj
al R
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Distribución
de frecuencias
por intervalos
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
fj =
introducción
nj
al R
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Distribución
de frecuencias
por intervalos
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
fj =
introducción
nj
al R
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Distribución
de frecuencias
por intervalos
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Prof. Cristian Bayes FACI PUCP 32 / 42


CAPÍTULO 1

Esta tabla de frecuencias suele ser representada gráficamente a


Conceptos
través del:
básicos
Histograma: Aquı́ cada clase es representada por una barra
Organización
de datos cuya altura es proporcional a la frecuencia con que ocurre.
Una breve En este tipo de gráficos no se debe dejar espacios entre las
introducción
al R barras para indicar que se está presentando información de
Distribución una variable cuantitativa continua.
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 33 / 42


CAPÍTULO 1

Esta tabla de frecuencias suele ser representada gráficamente a


Conceptos
través del:
básicos
Histograma: Aquı́ cada clase es representada por una barra
Organización
de datos cuya altura es proporcional a la frecuencia con que ocurre.
Una breve En este tipo de gráficos no se debe dejar espacios entre las
introducción
al R barras para indicar que se está presentando información de
Distribución una variable cuantitativa continua.
de frecuencias
por intervalos
Polı́gono de frecuencias: Es formada uniendo los puntos me-
dios altos de cada barra del histograma.

Prof. Cristian Bayes FACI PUCP 33 / 42


CAPÍTULO 1

Esta tabla de frecuencias suele ser representada gráficamente a


Conceptos
través del:
básicos
Histograma: Aquı́ cada clase es representada por una barra
Organización
de datos cuya altura es proporcional a la frecuencia con que ocurre.
Una breve En este tipo de gráficos no se debe dejar espacios entre las
introducción
al R barras para indicar que se está presentando información de
Distribución una variable cuantitativa continua.
de frecuencias
por intervalos
Polı́gono de frecuencias: Es formada uniendo los puntos me-
dios altos de cada barra del histograma.
Gráfico de frecuencias acumuladas u ojiva: Utiliza las fre-
cuencias acumuladas y los limites superiores de cada inter-
valo de clase.

Prof. Cristian Bayes FACI PUCP 33 / 42


Ejemplo:

CAPÍTULO 1

Conceptos
Se registró el consumo de electricidad en kWh de 50 hogares en
básicos un cierto distrito estos fueron los resultados:
Organización
de datos
589 493 531 355 469 432 415 468 617 426
Una breve
introducción 300 439 464 430 403 525 478 392 432 459
al R
398 372 488 481 620 484 509 522 488 502
Distribución
de frecuencias 596 567 466 477 580 555 520 525 425 650
por intervalos
384 497 438 501 521 452 508 462 457 577

Construya una distribución de frecuencias y muestre esta


gráficamente.

Prof. Cristian Bayes FACI PUCP 34 / 42


Solución:

CAPÍTULO 1

De no tener mayor experiencia o no indicarse, usaremos la regla


Conceptos de Sturges con k = 1 + 3.3 log1 0(50) = 6.6 ≈ 7 clases. El valor
básicos
mı́nimo de los datos es 300 kWh y el máximo 650 kWh, por la
Organización
de datos tanto la amplitud es de
Una breve

A = 650 − 300 = 350 kWh


introducción
al R

Distribución
de frecuencias
por intervalos
con lo que obtenemos que el ancho de cada intervalo de clase
será de:
c = 350/7 = 50 kWh.
A partir de estos resultados obtenemos la siguiente tabla de
frecuencias para este conjunto de datos.

Prof. Cristian Bayes FACI PUCP 35 / 42


CAPÍTULO 1

Conceptos
básicos Intervalo Marca Frec. Frec. Porcentaje Frec. Frec. Rel.
Organización clase de clase relativa acum. acumulada
de datos
x̂j nj fj pj Nj Fj
Una breve [300, 350] 325 1 0.02 2 1 0.02
(350, 400]
introducción
al R 375 5 0.1 10 6 0.12
Distribución (400, 450] 425 9 0.18 18 15 0.3
de frecuencias (450, 500] 475 16 0.32 32 31 0.62
(500, 550]
por intervalos
525 10 0.2 20 41 0.82
(550, 600] 575 6 0.12 12 47 0.94
(600, 650] 625 3 0.06 6 50 1
Total 50 1 100

Prof. Cristian Bayes FACI PUCP 36 / 42


CAPÍTULO 1 Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en el
primer intervalo hasta alcanzar los valores de 9, 16 y 10 en
Conceptos
básicos los intervalos 3, 4 y 5 para luego decrecer en los intervalos
Organización 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un
de datos

Una breve
consumo de electricidad intermedio entre los intervalos 3, 4
introducción
al R
y 5 (de 400 a 550 kWh).
Distribución
de frecuencias
por intervalos

Prof. Cristian Bayes FACI PUCP 37 / 42


CAPÍTULO 1 Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en el
primer intervalo hasta alcanzar los valores de 9, 16 y 10 en
Conceptos
básicos los intervalos 3, 4 y 5 para luego decrecer en los intervalos
Organización 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un
de datos

Una breve
consumo de electricidad intermedio entre los intervalos 3, 4
introducción
al R
y 5 (de 400 a 550 kWh).
Distribución
Que existen pocos hogares con consumo de electricidad ba-
de frecuencias
por intervalos
jos ó altos. Estos resultados también se pueden observar si
analizamos las frecuencias relativas y los porcentajes.

Prof. Cristian Bayes FACI PUCP 37 / 42


CAPÍTULO 1 Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en el
primer intervalo hasta alcanzar los valores de 9, 16 y 10 en
Conceptos
básicos los intervalos 3, 4 y 5 para luego decrecer en los intervalos
Organización 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un
de datos

Una breve
consumo de electricidad intermedio entre los intervalos 3, 4
introducción
al R
y 5 (de 400 a 550 kWh).
Distribución
Que existen pocos hogares con consumo de electricidad ba-
de frecuencias
por intervalos
jos ó altos. Estos resultados también se pueden observar si
analizamos las frecuencias relativas y los porcentajes.
Otras posibles interpretaciones que podemos hacer son: so-
lamente el 1 % de los hogares tienen consumos por debajo
de los 350 kWh; el 18 % de los hogares tienen consumos
mayores a los 550 kWh. La información contenida en esta
tabla se presenta también en forma gráfica en la siguiente
figura.
Prof. Cristian Bayes FACI PUCP 37 / 42
intervalos 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un consumo de electricidad
intermedio entre los intervalos 3, 4 y 5 (de 400 a 550 kW h). Que existen pocos hogares con
consumo de electricidad bajos ó altos. Estos resultados también se pueden observar si analizamos
las frecuencias relativas y los porcentajes. Otras posibles interpretaciones que podemos hacer
son: solamente el 1 % de los hogares tienen consumos por debajo de los 350 kW h; el 18 % de los
hogares tienen consumos mayores a los 550 kW h.
CAPÍTULO 1 La información contenida en esta tabla se presenta tambien en forma gráfica en la Figura 1.3.

1.0

15

Conceptos ●

0.8
básicos

Frecuencia relativa
10

Organización ●

0.6
Frecuencia

de datos

0.4
Una breve
introducción
5

al R

0.2

Distribución
de frecuencias ●

0.0

0

por intervalos
300 350 400 450 500 550 600 650 300 350 400 450 500 550 600 650

Consumo en kWh Consumo en kWh

Figura 1.3: Histograma con polı́gono de frecuencias y gráfico de frecuencias acumuladas


Figura: Histograma con polı́gono de frecuencias y ojiva para el consumo
de electricidad en los 50 hogares del distrito.
1.3. Medidas de Tendencia Central
En esta sección estudiaremos estadı́sticas que son utilizadas para representar el centro de
un conjunto de datos. Consideraremos a partir de ahora en las definiciones que contamos con
una muestra de tamaño n denotada por x1 , x2 , ..., xn .
Prof. Cristian Bayes FACI PUCP 38 / 42
CAPÍTULO 1 En R el histograma anterior se podrı́a obtener mediante

elect=c(
Conceptos
básicos
+ 589,493,531,355,469,432,415,468,617,426,
Organización
+ 300,439,464,430,403,525,478,392,432,459,
de datos + 398,372,488,481,620,484,509,522,488,502,
Una breve
introducción
+ 596,567,466,477,580,555,520,525,425,650,
al R
+ 384,497,438,501,521,452,508,462,457,577)
Distribución
de frecuencias helect = hist(elect)
por intervalos

Ella nos da justamente 7 intervalos, según el valor por defecto


(default) de R. En caso que esto último no ocurra; por citar si
desearamos 6 intervalos, podrı́amos escribir:

b=seq(min(elect),max(elect),by = diff(range(elect)))
helect6=hist(elect,breaks=b)
Prof. Cristian Bayes FACI PUCP 39 / 42
CAPÍTULO 1 Note que helect es un objecto que tiene lo siguiente:
helect
Conceptos $breaks
básicos
[1] 300 350 400 450 500 550 600 650
Organización $counts
de datos

Una breve
[1] 1 5 9 16 10 6 3
introducción $density
al R
[1] 0.0004 0.0020 0.0036 0.0064 0.0040 0.0024 0.0012
Distribución
de frecuencias $mids
por intervalos [1] 325 375 425 475 525 575 625
$xname
[1] "elect"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"

Prof. Cristian Bayes FACI PUCP 40 / 42


CAPÍTULO 1 Con ello podrı́amos por ejemplo construir la distribución de
frecuencias mediante:
Conceptos
básicos htable = cbind(helect$breaks[-1],helect$mids,
Organización helect$counts)
de datos
colnames(htable) = c("L_j", "x_j","n_j")
Una breve
introducción htable
al R
L_j x_j n_j
Distribución
de frecuencias [1,] 350 325 1
por intervalos
[2,] 400 375 5
[3,] 450 425 9
[4,] 500 475 16
[5,] 550 525 10
[6,] 600 575 6
[7,] 650 625 3

Prof. Cristian Bayes FACI PUCP 41 / 42


CAPÍTULO 1
Otra aplicación serı́a obtener la ojiva de esta distribución con:
bb=helect$breaks
P = c(0,cumsum(helect$counts/length(elect))*100)
Conceptos plot(bb,P,xlab="Consumos en kWh",ylab="Porcentaje acumulado de ho
básicos
lines(bb,P,col="red")
Organización title("Ojiva para la distribución de electricidad en los hogares"
de datos

Una breve Ojiva para la distribución de electricidad en los hogares

introducción
100


al R ●

Distribución ●
80

de frecuencias
Porcentaje acumulado de hogares

por intervalos

60
40


20



0

300 350 400 450 500 550 600 650

Consumos en kWh

Prof. Cristian Bayes FACI PUCP 42 / 42

Das könnte Ihnen auch gefallen