Beruflich Dokumente
Kultur Dokumente
Columna
m
Fila 1
Fila 2
Fila 3
Fila 4
Fila n
Cuando nos referimos a Columna m y Fila n estamos queriendo decir que esta
matriz puede ser tan ancha y tan larga como se desee.
El trmino base de datos se usa para indicar que la matriz con la que estamos
tratando organiza los datos provenientes de la realidad, de determinados aspectos medidos
en la realidad, y no se trata de nmeros generados al azar, por ejemplo. Es decir, toda base
de datos es una matriz, pero no toda matriz es una base de datos.
Como puede verse en la matriz presentada arriba, la ordenacin en filas y columnas
nos provee de un espacio bidimensional (sea cuadrado o no, es decir, haya la misma
cantidad de filas y de columnas o no) sobre el cual colocar los datos con los que estamos
trabajando.
En ciencias sociales (mucho ms que en ciencias naturales) esta colocacin se vuelve
un tanto compleja, pues quienes trabajamos con ciencias sociales solemos movernos en
varios niveles de medicin, mientras que en ciencias naturales trabajan, con mayor
frecuencia, con variables en nivel de razn. Por ello debemos diferenciar algunos trminos
antes de adentrarnos en los procedimientos de llenado de bases de datos.
Cuando decimos categora, generalmente nos referimos a alguna de las opciones que
puede asumir una variable cualitativa, especialmente una nominal. Si estamos trabajando
con tipos de animales, por ejemplo, una categora ser perro, otra guila calva, otra
guila gris, otra demonio de Tazmania, otra boa constrictor, y as.
Cuando intentamos llevar estas categoras a la base de datos, debemos conseguir una
manera de que quepan dentro del reducido espacio que permite cada casilla, evitando
cualquier tipo de confusin entre una categora y otra. Supongamos, por ejemplo, que solo
tenemos ocho espacios para transcribir la categora (lo cual es el lmite usual de ciertas
bases de datos), guila calva, guila gris y demonio de Tazmania exceden los lmites
de la casilla. Podemos intentar resumir la categora, y usar, por ejemplo guila, guila y
demonio, pero la reduccin hace que en los dos primeros casos se repita una categora y
en el tercer caso pierde sentido (es decir, un demonio es un animal?). Podemos seguir
intentando opciones para que las categoras expresen adecuadamente al animal, sean cortas
y no se repitan, pero cuando trabajamos con muchas categoras, esto puede ser extenuante.
Es por ello que solemos recurrir a los libros de cdigo.
Al trabajar con niveles de medicin distintos al de razn (recordemos que solo en el
nivel de razn un nmero es exactamente y completamente eso: un nmero) solemos
reemplazar la categora por un valor numrico sin sentido, al cual llamamos cdigo. En un
listado aparte, el cdigo es vinculado con la categora, a veces utilizando una expresin
abreviada o usando todo el nombre de la categora, si el programa lo permite. De modo que
tenemos, finalmente, cuatro cosas:
a)
b)
c)
d)
Cuando completamos toda esta informacin en relacin a todas las variables y todas las
categoras de una base de datos, estamos construyendo un libro de cdigos. Por ejemplo:
Variable
Orientacin
vocacional
Cdigo
1
Etiqueta
Ciencnat
Categora
Ciencia naturales
Orientacin
vocacional
Humanida
Humanidades
Orientacin
vocacional
Trabmanu
Trabajos manuales
Definicin
Incluye a todos
aquellos que muestran
inters por reas como
fsica, qumica,
biologa y matemticas
Incluye a todos
aquellos que muestran
inters por idiomas y
todo tipo de
expresiones artsticas
Incluye a aquellos que
se inclinan por
elaboraciones concretas
y trabajos productivos
no artsticos
Como vemos con claridad, una misma variable incluye tantas categoras como sean
necesarias, cada una de las cuales tiene un cdigo, una etiqueta y una definicin.
Cuando trabajamos con variables de razn, dado que cada nmero tiene valor por s
mismo, no es necesario el libro de cdigos. Sea cual sea la variable (cualitativa o
cuantitativa) es necesario hacer en algn lugar la definicin de la variable, lo cual no forma
parte del libro de cdigos.
Edad
Talla de
zapatos
1
2
3
21
45
35
38
45
40
38
41
Frecuencia de
visita al cine
por semana
1
0
3
Cantidad de
amigos
15
23
38
12
Precio del
dolar
Enero 1990
Febrero 1990
Marzo 1990
Junio 2008
1,95
1,98
2,43
2,15
Variacin
intermensual
en el PIB
2,1
1,3
-0,4
0,8
Variacin
intermensual
en la inflacin
1,8
2,3
2,5
1,9
Poblacin
empleada
8,5
8,9
8,4
7,8
La base de datos que estamos usando como ejemplo incorpora tambin una novedad
(que no est asociada con el hecho de ser una Base de Datos de Series Temporales): la de
incluir porcentajes e ndices como parte de los datos. Esto es vlido, y esta informacin
puede ser considerada, en sentido general, como cuantitativa.
Francia
1
4
2
Estados
Unidos
3
5
1
Espaa
Chile
Honduras
2
2
3
4
1
4
5
3
5
Los datos dentro de las casillas constituyen una etiqueta referida a la posicin del
pas en cuanto a la preferencia del sujeto. Cada pas, o cada columna, constituye una
variable. Como se utiliza la misma escala en todas las variables, y esta ya ha sido aclarada
en el enunciado de la pregunta (cuando decimos que 1 corresponde al pas preferido),
podramos prescindir de la elaboracin de un libro de cdigos para cada variable.
Francia
1
3
1
Estados
Unidos
1
3
2
Espaa
Chile
Honduras
1
2
2
1
3
1
1
2
3
opciones de respuesta son 1 (para el caso de que se cumpla la condicin) y 0 (para el caso
de que no se cumpla. Veamos cmo se transformara la tabla anterior en una tabla
disyuntiva completa para el caso de los dos primeros pases, Francia y Estados Unidos. (No
incluimos todos los pases evaluados porque la mecnica es la misma y la base resultara
muy larga)
Cdigo
del sujeto
Francia
Considerara
vivir (Cdigo
1)
Francia Ya
ha considerado
vivir
(Cdigo21)
Francia
Jams
pensara vivir
(Cdigo31)
Estados
Unidos
Considerara
vivir (Cdigo
1)
Estados Unidos
Ya ha
considerado
vivir
(Cdigo21)
Francia
Jams
pensara
vivir
(Cdigo31
1
2
3
1
0
1
0
0
0
0
1
0
1
0
0
0
0
1
0
1
0
0
En un principio, una Base de Datos Binaria puede parecer una prdida de tiempo y
energa, pues no proporciona mayor informacin que una Base de Datos de Modalidades.
Sin embargo, es fcil apreciar que algunos procedimientos pueden facilitarse utilizando este
tipo de estructuras: por ejemplo, para saber cuntas personas respondieron 1 en la
evaluacin de Estados Unidos, solo debemos aplicar una sumatoria a la columna
correspondiente. Las bases de datos binarias fueron las primeras utilizadas cuando se
produjo el boom de la computacin, de modo que algunos procedimientos de
almacenamiento y clculo estn especialmente desarrolladas para ellas.
Una solucin intuitiva sera colocar las respuestas una al lado de la otra dentro de la
misma casilla. Desengese: los programas no las procesan. Colocar un cdigo 3 al lado de
un 1 es registrado por la mquina como 31. Si prueba a colocar caracteres que separen el 3
y el 1 (por ejemplo: 3,1 3/1 3 1). La mquina lo interpretar como un campo alfabtico.
De hecho, a los humanos mismos nos costara interpretar adecuadamente una celda que
dice 3 1 7 42 2 31 23.
Suponga la pregunta de la que hemos estado hablando: cmo describira su humor
el da de hoy?. Vamos a simplificar y considerar cinco alternativas: 1- sooliento, 2nervioso, 3-enrgico, 4-optimista, 5-deprimido.
Existen dos alternativas para registrar respuestas mltiples. Ambas cumplen el
requisito de que cada celda recoja una sola respuesta. Estas alternativas son:
Humor Primera
respuesta
Humor
Segunda
respuesta
Humor
Tercera
respuesta
1
2
3
2
1
3
5
4
Humor
Cuarta
respuesta
Humor
Quinta
respuesta
Siguiente
variable (por
ejemplo,
edad)
23
42
15
25
Vea con cuidado: el sujeto 3 dio una sola respuesta, mientras que el 1 dio tres
respuestas. Aparentemente tenemos dos columnas vacas (la de cuarta respuesta y la de
quinta respuesta). Es preferible tener columnas vacas que no tener espacio para
transcribir respuestas, as que esto no es un problema.
Este tipo de bases de datos hay que procesarlas con cuidado. Si usted le pidi a los
entrevistadores que registraran las respuestas en el orden en que se produjeron, la primera
columna de respuesta debe corresponder a la primera respuesta producida, que
probablemente sea el humor dominante. En ese caso, podra analizar esa primera columna
sin tomar en cuenta las otras, y presentarla como el resultado del humor dominante. Fuera
de eso, no tiene ningn sentido analizar las columnas sin sumarlas. El SPSS tiene una rutina
(la de Respuestas Mltiples), para sumar estas columnas y procesar frecuencias y tablas
cruzadas a partir de ellas. En otros paquetes estadsticos puede resultar ms complicado.
Decimos que en este sistema es ms fcil la transcripcin, pues todas las primeras
respuestas son colocadas en la primera columna, y cuando dejan de producirse respuestas,
dejamos de escribir. Es bastante diferente al caso que veremos a continuacin.
Mtodo Binario para Respuestas Mltiples
Es igual al mtodo binario que ya hemos visto: cada alternativa de respuesta se
convierte en una columna en s misma, y las opciones de respuesta son 1 (para s tiene este
estado de nimo) y 2 (para no tiene este estado de nimo). Los resultados del ejemplo
anterior quedaran as:
Cdigo
del sujeto
Sooliento
Nervioso
Enrgico
Optimista
Deprimido
1
2
3
1
1
0
1
0
0
0
0
1
0
1
0
1
0
0
Siguiente
variable (por
ejemplo,
edad)
23
42
15
25
Estos resultados son ms difciles de llenar (para empezar, tal vez deban llenarse
todas las casillas), pero son mucho ms fciles de procesar: para saber cuntos deprimidos
hay, solo hay que sumar la columna.
Un buen investigador elabora el instrumento en armona con la base de datos, es
decir, ya tiene pensada la estructura de la base de datos antes de fotocopiar el instrumento.
Hganle un favor a los transcriptores y a ustedes mismos: si van a utilizar el mtodo binario
en la base de datos, por favor, utilicen tambin la pregunta con cdigo binario en el
cuestionario. Es decir, en vez de colocar en el cuestionario las alternativas de respuesta as:
Sooliento
Nervioso
Enrgico
Optimista
Deprimido
Colquenlas de la siguiente manera:
Sooliento
Nervioso
Enrgico
Optimista
Deprimido
1
2
3
4
5
S
1
1
1
1
1
No
0
0
0
0
0
instrumentos mixtos, que incluyen preguntas de todos los niveles de medicin, y donde hay
tanto preguntas nicas como mltiples. A la base de datos correspondiente se le llama base
de datos mixta. Presentaremos un ejemplo basado en una encuesta extremadamente corta,
y la estructura de base de datos que generara.
2.1.2.1. Tablas de Contingencia (o Tablas Cruzadas, Tablas de Doble Entrada, Tablas Gris
o Grillas)
El trmino Tablas Grid y Grillas viene del ingls grill, es decir, parrilla. A
veces (muy pocas veces) a estas tablas tambin se las llama parrila en espaol. En su nivel
ms bsico, constituyen un procesamiento de dos variables, usualmente nominales. Niveles
ms complejos pueden incluir ms variables, lo cual es ms difcil de visualizar. El cruce
de tres variables produce un cubo, no una tabla plana. Veamos un ejemplo con dos
variables: sexo y rango de edad.
De 18 a 24 aos
De 25 a 35 aos
De 35 a 45 aos
De 45 a 55 aos
56 aos o ms
TOTAL
Masculino
15
13
11
15
10
64
Femenino
20
10
9
5
7
51
TOTAL
35
23
20
20
17
115
Lo primero que hay que notar es que, por primera vez en lo que hemos venido
estudiando, las filas no corresponden a sujetos individuales, sino a categoras. Los nmeros
dentro de las casillas muestran la cantidad de personas que cumplen las dos condiciones de
las variables estudiadas. Por ejemplo, hay 15 personas que simultneamente son de gnero
masculino y tienen una edad de 18 a 24 aos.
A los bordes de la tabla (aqu denotados como TOTAL) se les llama marginales,
y muestran las frecuencias para cada categora de cada variable, sin cruce. Por ejemplo, hay
17 personas de 56 aos o ms, sumando hombres y mujeres. La casilla del extremo derecho
inferior muestra el total de sujetos evaluados.
Imaginemos que incluimos una tercera variable, como ciudad de residencia (con las
opciones Caracas, Maracaibo y Valencia). Esta nueva variable dividira cada una de las
celdas en tres sub-casillas, una para cada ciudad. Una cuarta variable complejizara an ms
la situacin. Hay estilos de representacin para esta complejidad creciente (como las capas
y los filtros) que no abordaremos ahora. S creemos necesario decir que la inclusin de
mayor nmero de variables producir una fragmentacin de los resultados (frecuencias muy
bajas por casilla), de modo que, si se espera que estas tablas sean tiles, debemos tener
Bases de Datos Originales con suficiente cantidad de sujetos.
Por ltimo, aunque las Tablas de Doble Entrada, per se, dan informacin descriptiva
de la asociacin entre variables, tambin constituyen el insumo para ciertos anlisis
estadsticos, como Chi Cuadrado y Anlisis de Correspondencias Binarias.
Catia
Altamira
Petare
El Silencio
Catia
0
32
Altamira
32
0
48
28
Petare
48
28
0
11
25
35
El Silencio
11
25
35
0
Note cmo la diagonal est formada por 0, pues la distancia de un punto con
respecto a l mismo es 0. Como dijimos, la matriz es diagonal. Generalmente, no tiene
sentido colocar los marginales.
Veamos un ejemplo psico-social. Se le pidi a un grupo de personas que dijeran qu
tanto se parecan dos sistemas polticos, utilizando una escala del 1 al 10, donde 10 es son
muy diferentes y 1 es son muy similares. Los datos en las casillas representan
promedios (Datos ficticios).
Democracia
Monarqua
Parlamentarismo
Democracia
Monarqua
0
4,2
4,2
0
2,1
9,3
Parlamentarismo
2,1
9,3
0