Sie sind auf Seite 1von 14

UNIVERSIDAD CENTRAL DE VENEZUELA

FACULTAD DE HUMANIDADES Y EDUCACIN


ESCUELA DE PSICOLOGA
CTEDRA DE ESTADSTICA

CONSTRUCCIN DE BASES DE DATOS

Profesora Mara Ftima Dos Santos

En matemtica, una matriz es un ordenamiento particular de datos en una estructura


determinada de filas y columnas. Para todos los casos que veremos a continuacin estamos
tratando con matrices planas, es decir, definidas en dos dimensiones: ancho y largo.
Solo para recordar, las filas y las columnas funcionan as:
Columna Columna Columna Columna Columna
1
2
3
4
4

Columna
m

Fila 1
Fila 2
Fila 3
Fila 4

Fila n
Cuando nos referimos a Columna m y Fila n estamos queriendo decir que esta
matriz puede ser tan ancha y tan larga como se desee.
El trmino base de datos se usa para indicar que la matriz con la que estamos
tratando organiza los datos provenientes de la realidad, de determinados aspectos medidos
en la realidad, y no se trata de nmeros generados al azar, por ejemplo. Es decir, toda base
de datos es una matriz, pero no toda matriz es una base de datos.
Como puede verse en la matriz presentada arriba, la ordenacin en filas y columnas
nos provee de un espacio bidimensional (sea cuadrado o no, es decir, haya la misma
cantidad de filas y de columnas o no) sobre el cual colocar los datos con los que estamos
trabajando.
En ciencias sociales (mucho ms que en ciencias naturales) esta colocacin se vuelve
un tanto compleja, pues quienes trabajamos con ciencias sociales solemos movernos en
varios niveles de medicin, mientras que en ciencias naturales trabajan, con mayor
frecuencia, con variables en nivel de razn. Por ello debemos diferenciar algunos trminos
antes de adentrarnos en los procedimientos de llenado de bases de datos.

1. Categoras, Etiquetas, Cdigos y Libro de Cdigos

Cuando decimos categora, generalmente nos referimos a alguna de las opciones que
puede asumir una variable cualitativa, especialmente una nominal. Si estamos trabajando
con tipos de animales, por ejemplo, una categora ser perro, otra guila calva, otra
guila gris, otra demonio de Tazmania, otra boa constrictor, y as.
Cuando intentamos llevar estas categoras a la base de datos, debemos conseguir una
manera de que quepan dentro del reducido espacio que permite cada casilla, evitando
cualquier tipo de confusin entre una categora y otra. Supongamos, por ejemplo, que solo
tenemos ocho espacios para transcribir la categora (lo cual es el lmite usual de ciertas
bases de datos), guila calva, guila gris y demonio de Tazmania exceden los lmites
de la casilla. Podemos intentar resumir la categora, y usar, por ejemplo guila, guila y
demonio, pero la reduccin hace que en los dos primeros casos se repita una categora y
en el tercer caso pierde sentido (es decir, un demonio es un animal?). Podemos seguir
intentando opciones para que las categoras expresen adecuadamente al animal, sean cortas
y no se repitan, pero cuando trabajamos con muchas categoras, esto puede ser extenuante.
Es por ello que solemos recurrir a los libros de cdigo.
Al trabajar con niveles de medicin distintos al de razn (recordemos que solo en el
nivel de razn un nmero es exactamente y completamente eso: un nmero) solemos
reemplazar la categora por un valor numrico sin sentido, al cual llamamos cdigo. En un
listado aparte, el cdigo es vinculado con la categora, a veces utilizando una expresin
abreviada o usando todo el nombre de la categora, si el programa lo permite. De modo que
tenemos, finalmente, cuatro cosas:
a)
b)
c)
d)

Cdigo: Valor numrico sin sentido, diferentes unos a otros


Etiqueta: Expresin abreviada de la categora
Categora: Segn su expresin completa
Definicin de la categora: Breve explicacin que ayude a comprender cules
sujetos deben ser incluidos en esta categora

Cuando completamos toda esta informacin en relacin a todas las variables y todas las
categoras de una base de datos, estamos construyendo un libro de cdigos. Por ejemplo:
Variable
Orientacin
vocacional

Cdigo
1

Etiqueta
Ciencnat

Categora
Ciencia naturales

Orientacin
vocacional

Humanida

Humanidades

Orientacin
vocacional

Trabmanu

Trabajos manuales

Definicin
Incluye a todos
aquellos que muestran
inters por reas como
fsica, qumica,
biologa y matemticas
Incluye a todos
aquellos que muestran
inters por idiomas y
todo tipo de
expresiones artsticas
Incluye a aquellos que
se inclinan por
elaboraciones concretas
y trabajos productivos
no artsticos

Como vemos con claridad, una misma variable incluye tantas categoras como sean
necesarias, cada una de las cuales tiene un cdigo, una etiqueta y una definicin.
Cuando trabajamos con variables de razn, dado que cada nmero tiene valor por s
mismo, no es necesario el libro de cdigos. Sea cual sea la variable (cualitativa o
cuantitativa) es necesario hacer en algn lugar la definicin de la variable, lo cual no forma
parte del libro de cdigos.

2. Algunos Tipos de Bases de Datos


Presentaremos a continuacin algunos tipos de bases de datos, clasificados segn la
naturaleza de los datos que contienen. Este apartado es apenas introductorio, y no pretende
ser exhaustivo.
En general, seguiremos el esquema propuesto por Abascal y Grande (1989), pero, para
facilitar la comprensin, queremos diferenciar entre Bases de Datos Primarias (las que
consisten en la transcripcin y ordenacin de las medidas, sin ningn procesamiento
ulterior) y Bases de Datos Secundarias (conocidas generalmente como tablas,
constituyen una procesamiento efectuado sobre las tablas de datos primarias).

2.1. Bases de Datos Primarias

2.1.1. Bases de Datos Cuantitativas


Incluyen solo variables cuantitativas, de forma que en cada casilla vamos a
conseguir un nmero, que representa la medicin de una determinada variable para un
determinado individuo. No hace falta generar un libro de cdigos asociado a la base de
datos.
Cdigo del sujeto

Edad

Talla de
zapatos

1
2
3

21
45
35

38

45
40
38

41

Frecuencia de
visita al cine
por semana
1
0
3

Cantidad de
amigos
15
23
38

12

2.1.1.1. Bases de Datos de Series Temporales


La clave de este tipo de bases de datos es que los sujetos no son personas, cosas,
pases, etc, sino tiempos. Podemos tener el caso de que cada sujeto corresponda a un ao
(1985, 1986, 1987, etc), a un mes (enero, febrero, marzo, etc), o incluso a una unidad de
tiempo indeterminada (como t1, t2, t3, etc). En los diseos intrasujeto de psicologa
conductual es comn la utilizacin de este tipo de bases de datos, que permiten ver cmo se
va adquiriendo o extinguiendo una conducta a lo largo de repetidas mediciones. El reino
por excelencia de las bases de datos temporales es, sobre todo, la economa. Veamos un
ejemplo a continuacin (todos los datos son ficticios):
Mes

Precio del
dolar

Enero 1990
Febrero 1990
Marzo 1990

Junio 2008

1,95
1,98
2,43

2,15

Variacin
intermensual
en el PIB
2,1
1,3
-0,4

0,8

Variacin
intermensual
en la inflacin
1,8
2,3
2,5

1,9

Poblacin
empleada
8,5
8,9
8,4

7,8

La base de datos que estamos usando como ejemplo incorpora tambin una novedad
(que no est asociada con el hecho de ser una Base de Datos de Series Temporales): la de
incluir porcentajes e ndices como parte de los datos. Esto es vlido, y esta informacin
puede ser considerada, en sentido general, como cuantitativa.

2.1.1.2. Bases de Datos Ordinales y de Preferencias


Corresponden al vaciado de preguntas con nivel de medicin ordinal. Cada casilla
representa el orden asignado en determinada variable por determinado sujeto.
Para que resulte ms claro, supongamos el siguiente caso: un grupo de sujetos debe
ordenar sus preferencias en cuanto a qu tanto les gustara vivir en cada uno de cinco
pases. Se muestran a cada sujeto los cinco pases candidatos y debe ordenarlos, asignando
un nmero del 1 al 5, siendo 1 el pas preferido y 5 el menos deseado. No se pueden saltar
nmeros ni colocar empates. Una muestra de la base de datos aparecera como sigue:
Cdigo del
sujeto
1
2
3

Francia
1
4
2

Estados
Unidos
3
5
1

Espaa

Chile

Honduras

2
2
3

4
1
4

5
3
5

Los datos dentro de las casillas constituyen una etiqueta referida a la posicin del
pas en cuanto a la preferencia del sujeto. Cada pas, o cada columna, constituye una
variable. Como se utiliza la misma escala en todas las variables, y esta ya ha sido aclarada
en el enunciado de la pregunta (cuando decimos que 1 corresponde al pas preferido),
podramos prescindir de la elaboracin de un libro de cdigos para cada variable.

2.1.1.3. Bases de Datos de Modalidades


Son las correspondientes al vaciado de preguntas nominales. En este tipo de
preguntas, el nmero es solo un referenciador, que sirve para vincular a determinado
sujeto con una cierta modalidad o categora, por lo cual es imprescindible el libro de
cdigos para establecer la correspondencia cdigo-categora.
Por ejemplo, imaginemos una derivacin del caso anterior sobre evaluacin de
pases. Se le pide al sujeto que indique si 1) considerara vivir en ese pas, 2) ya ha
considerado vivir all o 3) jams pensara vivir all. Cada persona puede elegir solo una
opcin para cada pas. (Nota: si usted opina que estas opciones tienen cierto tinte ordinal,
puede que est en lo cierto. Sin embargo, note que los cdigos no proponen una progresin:
la opcin ms favorable no es la 1, aunque la ms desfavorable es la 3).
Los datos dentro de las casillas corresponden a estos nmeros. Note que en este
caso, a diferencia del anterior, las medidas son independientes, es decir, que los empates
estn permitidos. El sujeto 1 consider la alternativa de vivir en todos los pases evaluados,
as que asign 1 a cada pas. El sujeto n, por el contrario, asign 3 a todos los pases menos
a Estados Unidos, de modo que no considerara la alternativa de vivir en ningn otro pas
que no fuera Estados Unidos.
Cdigo del
sujeto
1
2
3

Francia
1
3
1

Estados
Unidos
1
3
2

Espaa

Chile

Honduras

1
2
2

1
3
1

1
2
3

2.1.1.4. Bases de Datos Disyuntiva Completa o Base de Datos Binaria


La manera ms sencilla de comprender esta base de datos es verla como un
elaboracin de la tabla anterior. En una base disyuntiva completa convertiremos cada
alternativa de respuesta de cada variable nominal en una columna separada, donde las

opciones de respuesta son 1 (para el caso de que se cumpla la condicin) y 0 (para el caso
de que no se cumpla. Veamos cmo se transformara la tabla anterior en una tabla
disyuntiva completa para el caso de los dos primeros pases, Francia y Estados Unidos. (No
incluimos todos los pases evaluados porque la mecnica es la misma y la base resultara
muy larga)
Cdigo
del sujeto

Francia
Considerara
vivir (Cdigo
1)

Francia Ya
ha considerado
vivir
(Cdigo21)

Francia
Jams
pensara vivir
(Cdigo31)

Estados
Unidos
Considerara
vivir (Cdigo
1)

Estados Unidos
Ya ha
considerado
vivir
(Cdigo21)

Francia
Jams
pensara
vivir
(Cdigo31

1
2
3

1
0
1

0
0
0

0
1
0

1
0
0

0
0
1

0
1
0
0

En un principio, una Base de Datos Binaria puede parecer una prdida de tiempo y
energa, pues no proporciona mayor informacin que una Base de Datos de Modalidades.
Sin embargo, es fcil apreciar que algunos procedimientos pueden facilitarse utilizando este
tipo de estructuras: por ejemplo, para saber cuntas personas respondieron 1 en la
evaluacin de Estados Unidos, solo debemos aplicar una sumatoria a la columna
correspondiente. Las bases de datos binarias fueron las primeras utilizadas cuando se
produjo el boom de la computacin, de modo que algunos procedimientos de
almacenamiento y clculo estn especialmente desarrolladas para ellas.

2.1.1.5. Un Caso Especial de las Bases de Datos de Modalidades: Preguntas nicas y


Mltiples
La construccin de categoras o taxonomas trae un problema particular: es difcil
generar un listado de categoras en el que todos los sujetos produzcan una nica respuesta,
y no sientan tentados a responder afirmativamente en dos o tres categoras que aplican. En
ciertos variables, esto difcilmente ocurre (por ejemplo, presente o ausente, vivo o muerto,
etc). Pero en otras, es altamente probable. Piense, por ejemplo, que le preguntan de qu
humor est hoy. Aunque haya un humos predominante, lo ms probable es que responda
varias palabras, como sooliento, fatigado y desmotivado, o, en otro caso, enrgico
y optimista. Cmo se registran varias respuestas para un mismo individuo?

Una solucin intuitiva sera colocar las respuestas una al lado de la otra dentro de la
misma casilla. Desengese: los programas no las procesan. Colocar un cdigo 3 al lado de
un 1 es registrado por la mquina como 31. Si prueba a colocar caracteres que separen el 3
y el 1 (por ejemplo: 3,1 3/1 3 1). La mquina lo interpretar como un campo alfabtico.
De hecho, a los humanos mismos nos costara interpretar adecuadamente una celda que
dice 3 1 7 42 2 31 23.
Suponga la pregunta de la que hemos estado hablando: cmo describira su humor
el da de hoy?. Vamos a simplificar y considerar cinco alternativas: 1- sooliento, 2nervioso, 3-enrgico, 4-optimista, 5-deprimido.
Existen dos alternativas para registrar respuestas mltiples. Ambas cumplen el
requisito de que cada celda recoja una sola respuesta. Estas alternativas son:

Mtodo de la Opcin de Respuesta para Respuestas Mltiples


Este mtodo es simple en cuanto a estructura y es mucho ms corto en cuanto a
transcripcin, pero puede resultar ms engorroso a la hora de procesar resultados. Como
cada sujeto puede responder varias opciones (de hecho, hasta cinco opciones, en sujetos un
poco confundidos), reservamos cinco columnas para esta respuesta. En la primera columna
(llamada primera respuesta) colocamos la primera respuesta, en la segunda columna
colocamos la segunda respuesta y as. Este modo de vaciado produce un patrn especfico,
con la primera columna llena (es decir, con una respuesta para cada individuo), y las dems
disminuyendo la cantidad de respuestas por columna y aumentando los espacios en blanco
(o 0, o missing, o 99, dependiendo de lo que se haya decidido hacer). A continuacin
un ejemplo.
Cdigo
del sujeto

Humor Primera
respuesta

Humor
Segunda
respuesta

Humor
Tercera
respuesta

1
2
3

2
1
3

5
4

Humor
Cuarta
respuesta

Humor
Quinta
respuesta

Siguiente
variable (por
ejemplo,
edad)

23
42
15

25

Vea con cuidado: el sujeto 3 dio una sola respuesta, mientras que el 1 dio tres
respuestas. Aparentemente tenemos dos columnas vacas (la de cuarta respuesta y la de
quinta respuesta). Es preferible tener columnas vacas que no tener espacio para
transcribir respuestas, as que esto no es un problema.
Este tipo de bases de datos hay que procesarlas con cuidado. Si usted le pidi a los
entrevistadores que registraran las respuestas en el orden en que se produjeron, la primera
columna de respuesta debe corresponder a la primera respuesta producida, que
probablemente sea el humor dominante. En ese caso, podra analizar esa primera columna
sin tomar en cuenta las otras, y presentarla como el resultado del humor dominante. Fuera
de eso, no tiene ningn sentido analizar las columnas sin sumarlas. El SPSS tiene una rutina
(la de Respuestas Mltiples), para sumar estas columnas y procesar frecuencias y tablas
cruzadas a partir de ellas. En otros paquetes estadsticos puede resultar ms complicado.
Decimos que en este sistema es ms fcil la transcripcin, pues todas las primeras
respuestas son colocadas en la primera columna, y cuando dejan de producirse respuestas,
dejamos de escribir. Es bastante diferente al caso que veremos a continuacin.
Mtodo Binario para Respuestas Mltiples
Es igual al mtodo binario que ya hemos visto: cada alternativa de respuesta se
convierte en una columna en s misma, y las opciones de respuesta son 1 (para s tiene este
estado de nimo) y 2 (para no tiene este estado de nimo). Los resultados del ejemplo
anterior quedaran as:
Cdigo
del sujeto

Sooliento

Nervioso

Enrgico

Optimista

Deprimido

1
2
3

1
1
0

1
0
0

0
0
1

0
1
0

1
0
0

Siguiente
variable (por
ejemplo,
edad)

23
42
15

25

Estos resultados son ms difciles de llenar (para empezar, tal vez deban llenarse
todas las casillas), pero son mucho ms fciles de procesar: para saber cuntos deprimidos
hay, solo hay que sumar la columna.
Un buen investigador elabora el instrumento en armona con la base de datos, es
decir, ya tiene pensada la estructura de la base de datos antes de fotocopiar el instrumento.
Hganle un favor a los transcriptores y a ustedes mismos: si van a utilizar el mtodo binario
en la base de datos, por favor, utilicen tambin la pregunta con cdigo binario en el
cuestionario. Es decir, en vez de colocar en el cuestionario las alternativas de respuesta as:
Sooliento
Nervioso
Enrgico
Optimista
Deprimido
Colquenlas de la siguiente manera:
Sooliento
Nervioso
Enrgico
Optimista
Deprimido

1
2
3
4
5
S
1
1
1
1
1

No
0
0
0
0
0

Parece una prdida de tiempo a nivel del levantamiento de la informacin, pero al


transcriptor le tomar mucho menos tiempo conseguir la columna Enrgico, y transcribir 0,
que pensar enrgico es el cdigo 3, o sea, que es la columna 3, cuando llegue all, debo
transcribir un 1. Si la muestra es de 50 personas, tal vez no importe, pero si son 2000, esta
pequea tontera puede representar una semana de trabajo.
Por supuesto, si saben utilizar los paquetes estadsticos y entienden de bases de
datos, toda data transcrita de un modo puede ser recolocada luego segn otro esquema.

2.1.1.6. Bases de Datos Mixtas


En ciertas metodologas que involucran la construccin de cierto tipo de
instrumentos (como la metodologa de sondeos por encuestas), es comn enfrentarse con

instrumentos mixtos, que incluyen preguntas de todos los niveles de medicin, y donde hay
tanto preguntas nicas como mltiples. A la base de datos correspondiente se le llama base
de datos mixta. Presentaremos un ejemplo basado en una encuesta extremadamente corta,
y la estructura de base de datos que generara.

2.1.2. Bases de Datos Secundarias


Llamamos bases de datos secundarias a las logradas luego del procesamiento de
bases de datos primarias, como las que hemos visto hasta ahora. Usualmente son llamadas
tablas y, aunque pueden considerarse como resultados o anlisis de informacin que ya
fue transcrita en forma de bases de datos primarias, en ocasiones representan insumos para
nuevos anlisis estadsticos. Consideraremos dos: las Tablas de Contingencia y las Tablas
de Proximidades y Distancias.

2.1.2.1. Tablas de Contingencia (o Tablas Cruzadas, Tablas de Doble Entrada, Tablas Gris
o Grillas)
El trmino Tablas Grid y Grillas viene del ingls grill, es decir, parrilla. A
veces (muy pocas veces) a estas tablas tambin se las llama parrila en espaol. En su nivel
ms bsico, constituyen un procesamiento de dos variables, usualmente nominales. Niveles
ms complejos pueden incluir ms variables, lo cual es ms difcil de visualizar. El cruce
de tres variables produce un cubo, no una tabla plana. Veamos un ejemplo con dos
variables: sexo y rango de edad.

De 18 a 24 aos
De 25 a 35 aos
De 35 a 45 aos
De 45 a 55 aos
56 aos o ms
TOTAL

Masculino
15
13
11
15
10
64

Femenino
20
10
9
5
7
51

TOTAL
35
23
20
20
17
115

Lo primero que hay que notar es que, por primera vez en lo que hemos venido
estudiando, las filas no corresponden a sujetos individuales, sino a categoras. Los nmeros
dentro de las casillas muestran la cantidad de personas que cumplen las dos condiciones de
las variables estudiadas. Por ejemplo, hay 15 personas que simultneamente son de gnero
masculino y tienen una edad de 18 a 24 aos.
A los bordes de la tabla (aqu denotados como TOTAL) se les llama marginales,
y muestran las frecuencias para cada categora de cada variable, sin cruce. Por ejemplo, hay
17 personas de 56 aos o ms, sumando hombres y mujeres. La casilla del extremo derecho
inferior muestra el total de sujetos evaluados.
Imaginemos que incluimos una tercera variable, como ciudad de residencia (con las
opciones Caracas, Maracaibo y Valencia). Esta nueva variable dividira cada una de las
celdas en tres sub-casillas, una para cada ciudad. Una cuarta variable complejizara an ms
la situacin. Hay estilos de representacin para esta complejidad creciente (como las capas
y los filtros) que no abordaremos ahora. S creemos necesario decir que la inclusin de
mayor nmero de variables producir una fragmentacin de los resultados (frecuencias muy
bajas por casilla), de modo que, si se espera que estas tablas sean tiles, debemos tener
Bases de Datos Originales con suficiente cantidad de sujetos.
Por ltimo, aunque las Tablas de Doble Entrada, per se, dan informacin descriptiva
de la asociacin entre variables, tambin constituyen el insumo para ciertos anlisis
estadsticos, como Chi Cuadrado y Anlisis de Correspondencias Binarias.

2.1.2.2. Tablas de Proximidades y Distancias


Son una especie particular de tablas con variables de razn. En ellas se coloca la
distancia (fsica o psicolgica, da igual) entre cada par de elementos comparados. La tabla
tiene a los mismos elementos en las filas y en las columnas, y cada una de las celdas
muestra la distancia entre un par de elementos. Esto da origen a una matriz triangular: la
mitad inferior izquierda de la tabla es idntica a la mitad superior derecha, pero vista en
espejo. Veamos el siguiente ejemplo, muy simple, con apenas cuatro comparaciones entre
sectores de Caracas. Los datos en las casillas representan distancias ficticias en kilmetros.

Catia
Altamira
Petare
El Silencio

Catia
0
32

Altamira
32
0

48

28

Petare
48
28
0

11

25

35

El Silencio
11
25
35
0

Note cmo la diagonal est formada por 0, pues la distancia de un punto con
respecto a l mismo es 0. Como dijimos, la matriz es diagonal. Generalmente, no tiene
sentido colocar los marginales.
Veamos un ejemplo psico-social. Se le pidi a un grupo de personas que dijeran qu
tanto se parecan dos sistemas polticos, utilizando una escala del 1 al 10, donde 10 es son
muy diferentes y 1 es son muy similares. Los datos en las casillas representan
promedios (Datos ficticios).

Democracia
Monarqua
Parlamentarismo

Democracia

Monarqua

0
4,2

4,2
0

2,1

9,3

Parlamentarismo
2,1
9,3
0

Podemos ver que la democracia y el parlamentarismo son considerados como ms


parecidos entre s que cualquiera de ellos a la monarqua.
Aunque las tablas de distancia nos dan informacin por s mismas, o sea, que
podran ser consideradas un resultado, tambin se usan como insumo para algunos anlisis
estadsticos, como el Escalamiento Multidimensional.

Das könnte Ihnen auch gefallen