Sie sind auf Seite 1von 10

INFORME

CARRERA: Ingeniería de Ciencias de la Computación ASIGNATURA: Algebra Lineal


NRO. PRÁCTICA: 1 TÍTULO PRÁCTICA: Ordenamiento, resumen y presentación de datos
APELLIDOS Y Alvarez Flores Jonathan Andres
NOMBRES Camacho Morales Alexander Wladimir
Fecha de realización: 13/04/2017 Fecha de entrega: 20/04/2017

OBJETIVOS:
 Identificar los diferentes tipos de variables que se pueden encontrar en un conjunto de datos.
 Ordenar y resumir los datos a través de la distribución de frecuencias.
 Conocer e interpretar diversos tipos de representaciones gráficas, valorar sus ventajas e inconvenientes, y
seleccionar la más adecuada en cada caso según sea la finalidad que se pretenda.
 Utilizar R para ordenar, resumir y presentación de un conjunto de datos.

DESARROLLO

MARCO TEÓRICO

Los principales conceptos que se introducen en este tema son:

Población: es el colectivo cuya descripción es el objetivo final del análisis estadístico.

Muestra: es un subconjunto representativo de la población sobre el que se obtiene la información empírica que
constituye la masa de datos.

Estadística Descriptiva e Inferencia Estadística: El análisis descriptivo puede realizarse con datos muéstrales
o con censos poblacionales, mientras que la inferencia trabaja con la información que proporcionan los datos
muéstrales, para llegar a conclusiones acerca de la población.
Tipos de datos: si la característica observada es cuantificable se genera una variable, cuando la característica
es cualitativa se genera un atributo; si los datos están referidos al mismo instante de tiempo se denominan de
corte transversal, pero si se observa el comportamiento de la característica en el tiempo se denominan series
temporales. Si se analiza una sola variable o atributo los datos son unidimensionales, si son dos o más
conjuntamente los datos son bidimensionales o multidimensionales.

Distribución de frecuencias: es la técnica para resumir o tabular los datos.

Representación gráfica de los datos: en particular el histograma y el polígono de frecuencias, por el interés
que presentan como base empírica para la especificación de un modelo teórico. Se hace referencia, asimismo, a
otros tipos de gráficos como el diagrama de barras diagrama de sectores, éstos permiten explorar la distribución
de frecuencias de los datos e identificar las medidas de síntesis más adecuadas para su descripción.

PROCEDIMIENTO

 Lea detenidamente las instrucciones y sígalas paso a paso. Realice una captura de pantalla de
cada ejecución.
 Argumente adecuadamente sus respuestas, para ello relacione los ejercicios con los conceptos y
definiciones aprendidos.

¡Tomar en cuenta!
- Texto azul: sintaxis del código en R
- Texto en rojo: nombres variables o parámetros que se tienen que modificar
- TA – trabajo autónomo fuera del laboratorio

1. Se registran los ingresos anuales de 20 familias ecuatorianas. Los resultados se muestran en la tabla 1 y
los valores están en miles de dólares.

a) Introducir los datos de la variable “ingresos” en un vector en R.


b) Ejecutar el comando summary(ingresos) y contestar a las preguntas:

 ¿Qué función tiene el comando summary?

Muestra los datos estadísticos de medidas de tendencia.

 ¿Qué datos proporciona los resultados de este comando?

El valor mínimo, Valor máximo, Media, Moda.

2. Importación de datos:

a) Descargar del AVAC el archivo ejercicio.csv. y guárdelo en la carpeta del directorio de trabajo de R.
b) Para importar los datos a R se utilizará el comando read.csv2, de acuerdo a la siguiente sintaxis:

datos.alumnos<-read.csv2("cambiar_path_del_fichero/ejercicio.csv", dec=',')
Tomar en cuenta que R utiliza / para especificar el path de directorios o ficheros en vez de \
utilizado por Windows.
c) Compruebe la estructura del fichero a través del comando: class(datos.alumnos)
Indique y explique el tipo de estructura que tienen los datos.

Lo que indica que los datos estan en filas y columnas y que contiene distintos tipos de datos.

d) Indicar la dimensión de los datos. Es decir, el número de datos y de variables del conjunto de datos.
dim.datos<-dim(datos.alumnos). Guardar estos valores en dos variables: n.ind=dim.datos[ 1] y
n.var=dim.datos[2]

e) Investigue otras formas de importar datos en R (TA)

 datos.txt <- read.delim("Direccion del archivo que se va a importar.txt", header = TRUE, sep =
"\t")

 Web<-
"http://people.cst.cmich.edu/lee1c/spss/V16_materials/DataSets_v16/Diseaseoutbreak.txt"
datosWeb1 <- read.table(Web) # o puede escribirse la dirección directamente dentro

 read.table(file = "ejemplo1.txt", header = TRUE,


sep = "\t", dec = ".")

 library(foreign)
dspss <- read.spss("DatosSPSS.sav", to.data.frame = T)

 stata <- read.dta("datosStata.dta")

3. Tipos de Variables
a) Enumere los nombres de variables que tienen los datos, para ello utilice el comando:
names(datos.alumnos)

b) Ejecute el comando: datos.alumnos$nombre_de_cualquie_variable ¿Qué resultado arrojó?


Arrojo los resultados correspondientes a los datos de la columna seleccionada en este caso edad

c) Ejecute directamente el nombre de cualquier variable en la ventana de comandos. Indique lo que


sucedió.
No arroja resultados y muestra un error ya que no hemos usado la referencia datos.alumno

d) Ahora ejecute el comando: attach(datos.alumnos) y vuelva a ejecutar el nombre de cualquier


variable en la ventana de comandos y explique que función realiza el comando attach.

Nos muestra directamente los resultados la función de Attach separa las variables poniéndolas
directamente en el workspace para que se puedan usar de manera mas fácil como si fueran
variables.

e) Para cada variable indique su tipo, para ello puede ayudarse del comando:
class(nombre_de_la_variable) Explique ¿Por qué la variable tipo “Medio_transporte” es una
variable cualitativa?¿Qué representan los valores de esta variable?

El medio de transporte es cualitativa ya que todas las personas usan medios de transporte diferente
y es de tipo Integer ya que un número representa a cada uno de los medios de transporte
diferentes.
4. Distribución de frecuencias y gráficos – Variables Cualitativas:

a) Ejecute el comando fabs1<-table(Lugar_residencia) y explique qué función realizó este


comando.

El comando fabs logró sacar la frecuencia absoluta de la variable indicada.

b) Para obtener las frecuencias relativas basta con dividir las frecuencias absolutas para el número total
de datos. frel1<-fabs1/n.ind
c) El porcentaje de frecuencias relativas se obtiene multiplicando por 100 las frecuencias relativas.
frel1_percent<-frel1*100

d) Ejecutar los comandos de la tabla e indicar el tipo de gráfico que se obtiene:

Sintaxis Tipo de Gráfico


barplot(fabs1, ylab="Frecuencias absolutas", Barras
main="Gráfico de ....")
barplot(frel1, ylab="Frecuencias relativas", Barras
main="Gráfico de ....")

plot(frel1, type="l", main="Polígono de Polígono


frecuencias relativas", ylab="Frecuencias
relativas")
dotchart(frel1, labels=c("zona_1", "zona_2"," Dispersión
zona_3", " zona_4","zona_5"), main="Grafico de
...")
pie(fabs1,col=rainbow(5), main="Grafico de .. Pastel
.")

Tabla 1. Sintaxis de gráficos

Guarde las imágenes e inclúyalas en el informe.


e) Investigue las diferentes opciones que ofrecen los diferentes tipos de gráficos (TA).

stripchart(x)

boxplot(x)
f) Realice este procedimiento con las variables: “Género” y “Medio_transporte”. Cambiando para cada
caso los nombres de los variables que correspondan. (TA)

5. Distribución de frecuencias y gráficos – Variables Cuantitativas:

Variables Discretas

a) Obtenga la tabla de frecuencias absolutas y relativas de la variable “Miembros_familia”. Siga los


mismos pasos que se realizaron en el caso de las variables cualitativas.

b) Para obtener la tabla de frecuencias acumuladas ejecute el siguiente: comando: facum.rel2<-


as.table(cumsum(frel2))

c) Ejecute los comandos de Tabla 2, utilizando la tabla de frecuencias absolutas, relativas y acumuladas.
d) Repita el procedimiento con la variable “Tiempo_viaje” (TA)
Variables Continuas

Para trabajar con variables continuas en la mayoría de casos será necesario el uso de intervalos.
a) Ejecute el comando: fabs3<-table(cut(Nota_acceso, breaks=7))
Explique qué función realiza el comando cut y para qué sirve el parámetro breaks.

Sirve para dividir los datos de la tabla en intervalos y el comando break da la amplitud del interval

b) Para encontrar la tabla de frecuencias relativas y frecuencias relativas acumuladas se debe ejecutar
los comandos: frel3<-fabs3/n.ind y facum.rel3<-as.table(cumsum(frel3)) respectivamente.

c) Para graficar un histograma solo se debe ejecutar el comando: hist(Nota_acceso)


d) Realizar este procedimiento para la variable: “Ingreso_mensual” (TA)

CONCLUSIONES:
 Mediante el manejo del programa R, podemos concluir que su uso es muy práctico y eficiente ya que permite
leer un archivo lleno de datos y a su vez se encarga de informar que tipo de dato es y de igual manera saca los
datos estadísticos de cada variable que se encuentre en dicho documento.
 Gracias a la función de graficar se pudo observar los distintos gráficos que se puede obtener en R, solo se
debe introducir distintos comandos para poder ejecutar gráficos tales como barras, polígonos, histogramas
entre otros que a la hora de estudiar los datos obtenidos son muy útiles.
RECOMENDACIONES:
 Si se quiere borrar las variables declaradas antes se tiene que crear una copia de seguridad ya que luego se
puede necesitar de nuevo
 Se recomienda que después de cada ejecución para obtener grafico se guarde la imagen mediante la
herramienta exportar, donde te permite guardar la imagen en el lugar que se quiera, así se evitara perder el
grafico obtenido.

Das könnte Ihnen auch gefallen