Beruflich Dokumente
Kultur Dokumente
NORA MOSCOLONI
MARA DE LUJN BURKE
SILVANA CALVO
GUILLERMINA ISERN
Programa Interdisciplinario de Anlisis de Datos,
Universidad Nacional de Rosario, Argentina
Introduccin
El conocimiento de las caractersticas sociales de los estudiantes universitarios constituye una
materia de inters fundamental tanto para la gestin acadmica como para las investigaciones que refieren
a la Universidad como objeto de estudio.
En este contexto se hace necesario caracterizar el perfil social de los estudiantes que ingresan a la
universidad, lo cual implica el estudio del comportamiento de indicadores diferenciales.
Consideramos que estas tcnicas, al proponerse desde una ptica mayormente determinstica
reducen la riqueza de la informacin. En este trabajo proponemos la utilizacin de tipologas a travs de
herramientas que se encuadran en el enfoque del Anlisis Multidimensional de Datos. Estas tcnicas fueron
aplicadas con xito en la caracterizacin de las poblaciones de alumnos de las distintas facultades de la
UNR como parte del proceso de Autoevaluacin Institucional que se desarroll en esta Casa de Altos
Estudios a partir del ao 2000.
En el campo de las ciencias sociales, este enfoque se revela como la opcin ideal para el
procesamiento de la informacin que, en la generalidad de los casos, es rica en categoras y no en
continuos, de naturaleza ambigua, con grandes dificultades de diseo.
Una novedosa e interesante rea de estudio se abre con los desarrollos en Anlisis de Datos
Simblicos (Diday,1997). Este mtodo parte de una pregunta: Por qu no se aprovechan en el
procesamiento y anlisis mismo los valiosos conocimientos de los expertos? La respuesta de la estadstica
clsica era que no se podan cuantificar. Se plantea en la actualidad el desafo de representarlos por
expresiones a la vez simblicas y numricas, saber manipularlos y utilizar estas expresiones a los fines de
ayudar a decidir, de mejorar el anlisis, de sintetizar y de organizar nuestra experiencia y nuestras
observaciones respetando ms acabadamente su complejidad.
Estas tcnicas valorizan, sobre todo, el poder de la clasificacin como operacin interpretadora,
tratando de superar con nuevos algoritmos los problemas de descripcin de las clases, en especial para los
individuos que se encuentren en los bordes de las mismas.
Los conceptos de intencin y extensin de una idea aplicados a una clase o grupo son
fundamentales para la comprensin del objetivo del Anlisis de Datos Simblicos. As la intencin de una
idea se refiere a los atributos que ella contiene y que no pueden ser suprimidos sin destruirla; la extensin de
una idea son los sujetos o elementos a los cuales ella se aplica.
En el Anlisis Simblico en lugar de trabajar sobre las extensiones, es decir sobre los individuos, se
reemplazan los individuos por las intenciones, aprovechando de esta manera el conocimiento de los expertos.
Estos objetos, que constituyen las filas de una matriz de datos en el Anlisis de Datos Simblicos,
permiten representar los individuos complejos o las clases de individuos a travs de conjunciones de
propiedades o de descriptores pudiendo tomar valores mltiples y ponderados (segn diferentes
semnticas) y estn a veces relacionados entre ellos por relaciones de orden lgico.
El objetivo de los nuevos algoritmos se dirige al desarrollo de herramientas para manipular estos
objetos segn diferentes grados de complejidad tanto en su composicin como en las relaciones que se
establecen entre ellos y en el tipo de conocimiento que sobre ellos se tiene.
El AMD comienza por una matriz de datos en la cual hay valores de las variables tomados por las
unidades de anlisis. El objetivo del AMD es extraer informacin de una matriz de este tipo y sintetizarla
reemplazando nmeros por conocimientos nuevos. Para ello se vale de dos grupos principales de tcnicas:
la clasificacin y el anlisis factorial.
El ADS tiene como objetivo reemplazar los individuos del anlisis multidimensional de datos
tradicional por individuos de ms alto nivel, ms complejos y aptos para representar conocimientos, porque
estn definidos en intencin, utilizando el poder de la lgica: son los objetos simblicos (OS). Asimismo se
puede decir que las variables son de mayor nivel en el ADS, porque las variables no van a tomar un slo
valor por cada celda, sino que pueden tomar varios valores.
Por ejemplo: cuando se describe una clase o grupo, los individuos de la clase pueden tomar
distintos valores. Si se describe una clase de empresas, que tienen beneficios de distinto orden, se puede
tomar el beneficio en intervalos para esta clase de empresas. Si una empresa pertenece a una determinada
clase, en la variable beneficio tendr un intervalo de valores correspondiente al conjunto de beneficios que
poseen las empresas de esta clase.
Se puede decir que los individuos y las variables son de mayor nivel que en la estadstica y el AMD
clsicos. Es muy importante porque va a plantear todos los problemas tericos tambin a un mayor nivel,
subiendo un escaln en toda la teora del AMD.
En la prctica los OS se plantean como nuevas unidades de anlisis que pretenden resumir grandes
cantidades de informacin almacenada en bases de datos relacionales y describir tanto individuos como
grupos.
En este sentido de una manera general los objetos simblicos pueden verse como una
representacin de conceptos estadsticos que permiten el anlisis de datos agregados a partir de la
combinacin de variables seleccionadas que surgen al analizar grandes matrices de datos. Cada objeto
puede representar un grupo de individuos con caractersticas comunes que resultan del cruce de variables y
se tratan como nuevas unidades de anlisis.
En ADS en lugar de tener un conjunto de individuos, tenemos objetos simblicos que estn
expresados por propiedades, donde cada propiedad puede ser del tipo probabilstico, booleano, posibils-
tico o de otra nocin. De esta manera se permite a un experto expresar mayor cantidad de conocimiento.
La distincin entre objetos simblicos y numricos se establece cuando se considera que un objeto
es numrico si puede ser representado y utilizado como un punto del espacio Rp considerado como un
espacio vectorial provisto de las operaciones habituales y que es simblico si no es el caso. Se deduce de
esta definicin que el anlisis de datos clsico trata, desde hace mucho tiempo, con objetos simblicos
particulares que seran todos los objetos caracterizados por variables nominales u ordinales.
El objetivo del ADS es extender el anlisis de datos clsico al estudio de objetos ms complejos que
se expresan bajo forma de conjuncin de propiedades aplicadas sobre las variables clsicas: continuas,
nominales u ordinales. Ellos se distinguen de los objetos clsicamente tratados en anlisis de datos en
primer lugar a nivel de su descripcin, es decir en cuanto al tipo de variables que los predican o tambin en
cuanto a su manipulacin:
a) Cada variable puede tomar valores mltiples para un mismo objeto simblico, ejemplos:
[opinin = {regular, mala, regular, indiferente}] para expresar el hecho de que una clase de
individuos puede tener opinin regular, mala, o regular e indiferente.
[edad = [17, 29]] para expresar que los individuos encuestados tienen entre 17 y 29 aos.
En estos dos casos no se transforman estos valores en una modalidad mutuamente excluyente
de una variable a los fines de no perder la informacin contenida en estas descripciones.
b) Como consecuencia de (a) se llegan a expresar diferentes tipos de relaciones entre las variables:
cuando una variable toma una modalidad, la otra puede no tener sentido (no se describe el
trabajo de una persona que no trabaja) o se debe restringir su campo de valores posibles (si la
categora es estudiante, la edad es entre 6 y 28). Se obtienen as objetos simblicos provistos de
propiedades, se trata de variables llamadas madre-hija, como es el caso clsico de la
modalidad no se aplica
Este software provee muy buenas posibilidades de aplicacin para la manipulacin de bases de
datos de estadsticas oficiales.
En nuestro caso trabajamos con la base de ingresantes a la Universidad Nacional de Rosario del
ao 2005.
Presentamos a continuacin una parte de la matriz de datos simblicos construida para esa base:
TABLA 1
Datos simblicos relativos a las variables sexo, residencia y estado civil
En este caso los objetos simblicos corresponden a las distintas Facultades de la Universidad y por
razones de espacio presentamos slo tres de las variables consideradas en la base de datos.
Posibilidades grficas
La visualizacin de un OS puede realizarse a travs de un grfico que se denomina Zoom Star. Esta
representacin est basada en los diagramas de Kiviat donde cada eje representa una variable. En un gr-
fico de Kiviat, se representan los porcentajes de uso y solapamiento de diferentes componentes de un
sistema como una figura geomtrica que une diferentes puntos, situados sobre los radios de un crculo, que
representan esos porcentajes. Tericamente, es posible ver de un vistazo el problema que tiene el sistema.
En 2D, que es el caso que aqu se presenta, los ejes estn unidos por una lnea que conecta los
valores ms frecuentes de cada variable. De esta manera se pueden comparar las distribuciones de
frecuencias de dos OS, a partir de la forma que toma esta lnea de conexin.
En la funcin Docencia, uno de los interrogantes planteados fue el perfil socioeconmico de los
ingresantes. Para ello se construyeron 12 grficos Zoom Star, uno por cada Facultad, con el objetivo de
proveer una rpida comparacin de los perfiles socioeconmicos de los ingresantes a cada facultad, de
acuerdo con los indicadores contenidos en el formulario SUR1 de la UNR, procesados en la Direccin de
Estadstica Universitaria de la UNR.
En esta presentacin se opt por comparar dos facultades con perfiles bien diversos: en el primer
grfico Ciencias Econmicas y Estadstica, con la distribucin de horas trabajadas anexa (la distribucin de
cada variable puede obtenerse deteniendo el cursor, en el entorno del software, sobre cada uno de los ejes
correspondientes)
El tercer grfico se refiere al perfil de los ingresantes del total de la Universidad, que sirve para
caracterizar al ingresante ms frecuente.
Este grfico nos permite ver que los ingresantes a esta facultad se caracterizan por ser en su
mayora mujeres solteras que residen con su familia, proceden de Rosario, no trabajan y predomina el ttulo
Polimodal en la Modalidad Economa y Gestin de las Organizaciones obtenido en escuelas pblicas
provinciales o municipales. En relacin a los padres son mayormente empleados y tienen ttulo secundario
completo. Prevalecen madres amas de casa, con secundario completo.
En este grfico observamos que prevalecen los ingresantes de sexo femenino, solteras, que residen
con sus familias, no trabajan y proceden de Rosario. En su mayora tienen ttulo Bachiller Comercial
obtenidos en escuelas pblicas provinciales o municipales. En relacin a la categora ocupacional de padre y
madre, ambos son empleados. En cuanto al ltimo curso obtenido, la madre alcanz terciario completo y el
padre secundario completo.
El ingresante ms frecuente de la UNR es mujer soltera que reside con su familia, con ttulo
Polimodal en la Modalidad Economa y Gestin de las Organizaciones, de escuela provincial pblica, no
trabaja y procede de Rosario. Su padre es empleado con secundario completo. En relacin a la madre, sta
es empleada y tambin tiene ttulo secundario completo.
De esta manera, la utilizacin de las visualizaciones de objetos simblicos a travs de los grficos
Zoom Star permitieron una inmediata comparacin de los perfiles de los ingresantes a las distintas
facultades. Anteriormente, este trabajo se llevaba a cabo mediante la construccin y anlisis de gran
cantidad de tablas y grficos que dificultaban su interpretacin.
Bibliografa
ALBATCH, P. (2001) : Educacin superior comparada. El conocimiento, la universidad y el desarrollo. Ctedra Unesco de
Historia y Futuro de la Universidad. Coleccin Educacin Superior. Universidad de Palermo. Espaa.
ALBATCH, P., y KELLY, G. (Comp.) (1990): Nuevos enfoques en educacin comparada. Editorial Mondadori. Madrid.
Espaa.
BENZCRI, Jean Paul (1976) : LAnalyse des donnes, T.I La taxonomie T.II LAnalyse des correspondances. Dunod. Pars.
CHIROLEU, Adriana (1999) : El ingreso a la universidad. Las experiencias de Argentina y Brasil. UNR Editora.
DIDAY, Edwin (1992): Anlisis de datos y clasificacin automtica numrica y simblica. EUSTAT, Vitoria-Gasteitz.
(1997): Anlisis de datos simblicos. Ed. IRICE, Rosario.
DIDAY, Edwin, y LECHEVALLIER, Yves Symbolic (1991): Numeric data analysis and learning, Versailles, September 18-20.
INRIA, Nova Science Publishers Inc. New York.
FERNNDEZ AGUIRRE, Karmele: IV International Meeting of Multidimensional Data Analysis (NGUS97), Bilbao, September
10-12, 1997. Universidad del Pas Vasco, Bilbao.
GARCA DE FANELLI, Ana Mara (2005): Acceso, abandono y graduacin en la educacin superior argentina. SITEAL,
Debate 5. Disponible en internet: http://www.siteal.iipe-oei.org/ [consulta: setiembre 2005].
KROTSH, Pedro (2001) : Educacin superior y reformas comparadas. Cuaderno universitario n. 6. Universidad Nacional
de Quilmes Editorial.
LEBART, Ludovic; MORINEAU, Alain, y PIRON, Marie (1995): Statistique exploratoire multidimensionnelle. Dunod. Pars.
MOLLIS, Marcela (1993): La educacin comparada de los 80. Memoria y balance, en Revista Iberoamericana de
Educacin, n. 2: Educacin, trabajo y empleo. Organizacin de Estados Iberoamericanos para la Educacin, la
Ciencia y la Cultura.
MOSCOLONI, Nora (2005): Las nubes de datos. Mtodos para analizar la complejidad. UNR Editora, Rosario.