Beruflich Dokumente
Kultur Dokumente
MANUALDEESTADÍSTICA
CONSPSS®
paraestudiantesdePsicología
FacultaddePsicologíaͲI.E.UniversidadͲSegoviaͲEspaña
Enlostiemposantiguosnoteníanestadísticas,
asíqueteníanqueecharmanodelasmentiras.
Alaspersonasqueamo,
quemehansoportadomientrasescribíaestelibro…
yenmividadiaria.
ISBN: 978-84-612-7185-6
Depósito Legal: S. 1.576-2008
Imprime:
Imprenta Kadmos
Salamanca, 2008
5
P R E S E N T A CI Ó N
Estimadoslectoresyestudiantes:
Permitidme eltratamiento“detú”yeluso,aunqueseaocasional,
delaprimerapersonaenvezdelosformalismoshabitualesdel“usted”parareferirmeavosotrosy
dela3ªpersonadelpluralparahablardeunomismo.Hedudadomuchoalrespecto.Esciertoque
dicho uso formal da más aspecto de seriedad, pero sinceramente creo que al no utilizarlo me
sentiréismáscercanoavosotrosyviceversa.Esperonoofenderanadie,yencambiosorprenderya
deentradaporlanovedad.
Enlamismalínea,voyahuirdeexpresionesescritasconterminacionesen“…os/as”,odela
modernaypolíticamentecorrecta“@”pararepresentaraambosgéneros.Enlamedidadeloposible
utilizaréeltérminoneutro,comoneutraeslapalabraestudiantequeencabezaestapresentacióny
queserefieretantoamujerescomoahombres.Reconozcoqueusaréelpluralmuyamenudo,pero
será un plural que nos una a vosotros y a mí en la aventura de aprender Estadística que estáis a
puntodecomenzar.
Lanecesidadyoportunidaddeestelibrosejustifica,deunlado,porqueyasonbastanteslos
años académicos que este profesor está tratando de ampliar, completar y en definitiva mejorar el
materialdocenteconelqueimpartirlasclasesdelasasignaturasdeEstadísticadentrodeláreade
MetodologíaenlosestudiosdePsicología.
De otro lado, estamos ante la inminente entrada en vigor de la reforma universitaria
amparada en el Protocolo de Bolonia y que, en su espíritu, hace hincapié en la autoformación del
estudiante,esosíbajolatutorizaciónpersonaldelprofesor,proponiendounaampliacióndelnúmero
dehorasdetrabajopersonaldelalumnoparareducirlasdepresenciaenelaula.Estarazón,supone
paramíunanuevamotivaciónenlalíneadeofrecerlealestudianteunsoportepersonalizadopara
desarrollarsutareadentroyadeestenuevoestatusuniversitario.
Comoconsecuencia,estosdosfactoreshandesembocadoalunísonoenlacreacióndeeste
manualdecorteteóricoͲpráctico.Paraserjustos,hayquedecirqueestaspáginassonelresultadode
losesfuerzosderenovaciónyperfeccionamientodeestemodestoautor,perotambiénqueestámuy
vinculadoalosacertadoscomentariosdemuchosantiguosalumnosqueyahanutilizado,durantelas
clasesdeestosaños,losdiferentesborradoreselaboradosanteriormente.Vaparatodosvosotrosmi
mássinceroagradecimiento;esperoqueestelibrosatisfagavuestrasexpectativasylaconfianzaque
habéisdepositadoenmí.
Precisamente,laprincipalpretensiónconlaqueseeditaestematerialnoesotraquedotara
losalumnosdeestaUniversidaddeunmanualexpresamenteredactadoparavosotros,quealiviela
carga teórica de las clases y que nos permita optimizar el tiempo dedicado en el aula a la
comprensióndelosconceptosbásicosy,fundamentalmente,alapráctica.Asimismo,alescribirlohe
intentadohuirdellenguajeabigarradoydelaprofusióndeexpresionesmatemáticasparahacerleal
estudiantemásllevaderoelarduocaminodelaprendizajedeunamateriaqueyadeporsíesduray
enalgunoscasosreconozcoquehastaárida.Esperoconseguirtransmitirideasyconceptosdesdela
perspectiva del razonamiento, sin recurrir a expresiones matemáticas nada más que cuando sea
absolutamente imprescindible. Esta es, por otro lado, la orientación que también siguen los más
modernosmanualesdeEstadísticadondeelaspectomatemáticoestápasandoaunsegundoplano
parapriorizarotrascuestiones.Unarazónmásparaestenuevoenfoquedocente,laencontramosen
elavanceypopularizacióndelossoftwareinformáticosqueseocupandelospesadoscálculosque
antañodebíanderealizarseconelapoyodesimplescalculadoras.
Que el libro se haya propuesto como manual de clase para los estudiantes de Psicología,
como dice su título, no es óbice para que pueda servir de ayuda a alumnos de otros estudios, e
incluso a profesionales de la Psicología y de Ciencias cercanas, especialmente aquellas que se
vinculanalestudiodelapersona.
La1ªedicióndeestelibrovelaluz,¡alfin!,duranteelcursoacadémico2008Ͳ2009,yaunque
siempre se piensa que ésta debería de ser la versión definitiva, mucho me temo que a no tardar
demasiado habrá que realizar otra(s) con sus correspondientes añadidos. Cuestión ésta que no es
malsíntoma.Todolocontrario,esunsíntomadelovivaqueaúnestálaEstadísticacomocienciaen
evoluciónysobretododelasganasquetodavíanosquedanatodos,profesoryalumnos,demejorar
lacalidadenlaenseñanza.
Noseríaciertoafirmarqueestaspáginasabarcantodoloquenecesitaelestudianteparasu
completaformaciónenelámbitodelaaplicacióndelaEstadísticaalaPsicología.Nimuchomenos.
LaEstadísticaaplicadaalasCienciasdelaSalud,alasHumanasySocialesengeneral,yalaPsicología
en particular, es más amplia que los procedimientos y herramientas que aquí se presentan. Razón
por la cual, es impensable plantearse un programa académico que en el tiempo limitado por los
créditos oficiales que se estipulan para esta asignatura, fuese capaz de cubrir la totalidad de las
técnicasestadísticasqueunpsicólogopuedenecesitarenunfuturoprofesional.
Porello,estemanualdebedeserconsideradocomounabase,muysólidaesosí,paraque
posteriormentesepuedanampliarconocimientos,cuestiónéstamuyrecomendableporcierto.Esta
“base”seadaptaperfectamentealoscontenidosdelprogramadelasasignaturasdeEstadísticaque
seimpartenenelprimerciclodelosestudiosdePsicologíaennuestraUniversidadydelamayoríade
las Universidades españolas. Pero existe un “más allá”. Como se deduce del párrafo anterior, para
completar vuestro aprendizaje, en su momento tendréis que acudir a otros manuales dedicados a
exponermétodosestadísticosmásavanzados.
Porotraparte,osvaaresultarimprescindiblecompletarestelibroteóricoͲpráctico,conlos
Cuadernos de Prácticas que se elaborarán especialmente para cada uno de los cursos. Sobre ellos,
podréiscomprobarsisoiscapacesdeiraplicandoloaprendidoenclaseasituacionesnuevas,amén
deirospreparandoparaafrontarconéxitolasdiversaspruebasconlasquesevaaevaluarvuestro
rendimiento.
Endichocuadernosepriorizaráelusodelsoftwareestadísticoquetambiénaprenderemos
durante eltranscursodelasclases.Yporello,enesamismalínea,unainmensamayoríadelos40
ejemplos resueltos que contiene este libro han sido realizados mediante la aplicación del paquete
estadísticoSPSS®versión15.Yhedicholainmensamayoríaynotodos,porqueSPSS®nocubrepor
desgraciaabsolutamentetodalamateriadelprogramaoficialdelcurso,aunquesílamayorpartey
desde luego la que podemos considerar como imprescindible. Dicho lo cual, hay que advertir que
entonces,ylamentablemente,tambiénhayunapequeñapartedelamateriadondetendremosque
abordar el cálculo que podríamos llamar “a mano”, con nuestras calculadoras, claro, pero con
formulasytodoesotalycomosehavenidohaciendotodalavida.
Aunque el software estadístico SPSS® avanza casi al ritmo de una versión nueva cada año,
elloafectaacuestionescomo:laexposicióndelosmenús,elaspectodeloscuadrosdediálogoconel
usuario, o la presentación de resultados y gráficos, o la gestión interna del programa, por citar
algunos ejemplos. Evidentemente esto modifica la apariencia del software, pero la esencia es la
misma. Las incorporaciones de nuevas opciones, procesos y herramientas, que han aparecido en
algunasdelasúltimasversiones,siendoaportacionesvaliosas,tampocosuponenunagrandiferencia
encuantoalusoquenosotrosharemosdelprogramaalolargodeestecurso.Téngaseencuentaque
coneltiempodelquedisponemosparaaprenderEstadística,esimposiblequepodamosexprimirel
enormepotencialqueelpaqueteSPSS®ponealalcancedenuestramano.Porestacausa,enrealidad
noestrascendentalquetrabajemosconcualquieradelasúltimasversiones(13,14,ó15…ó16)del
SPSS®,almenosporahora.
Dichotodoesto,solomequedaasegurarosquemismayoresdeseosson:que“disfrutéis”del
curso,queaprendáissobretodo,yporsupuestoque…aprobéis.TodoellosinolvidarloqueSéneca
(Córdoba,España;4a.C.al65d.C.)nosdijohaceyaunosdosmilaños:
“Muchas cosas no nos atrevemos a emprenderlas, no porque sean difíciles;
sinoquesondifícilesporquenonosatrevemosaemprenderlas”.
hacedlecaso,eselmejorconsejoqueospuedodar.Ah!...yqueestudiesunpoco,siesposibletodo
losdías,quetampocoesmalconsejo.
Yparafinalizar,yadefinitivamente,permitidmeunarecomendación:queguardéistodoeste
material al menos por algún tiempo, porque estoy seguro de que aunque superéis con éxito la
asignatura, os va a servir a lo largo y ancho del resto de vuestra formación académica,… y aún
después.
JoséManuelGarcíadeCecilia
jose.garciad@ie.edu
Septiembre,2008
9
Í N D I CE
Capítulo 1 : I N T R O D U CCI Ó N
Pág.
Tema1: EstadísticayPsicología……………………………………………………………………... 15
1.1.ͲLaInvestigaciónenPsicología 16
1.2.ͲElMétodoCientíficoenPsicología 20
1.2.1.ͲElcaminoquerecorreunainvestigación 22
1.3.Ͳ¿ParaquélaEstadísticaenPsicología? 26
1.4.ͲAplicarlaEstadísticahoyendía 29
Tema2: ¿QuéeslaEstadística?……………………………………………………………………... 31
2.1.ͲPreámbulo 32
2.2.ͲPoblaciónyMuestra 34
2.3.ͲMétodosdemuestreo:conceptosgenerales 39
2.3.1.ͲMuestreosprobabilísticos 40
2.3.2.ͲMuestreosnoprobabilísticos 46
2.4.ͲParámetroyEstadístico 48
2.5.ͲYporfin…ladefiniciónformaldeEstadística 49
Tema3: Larecogidadedatospreviaalanálisisestadístico…………………………………… 51
3.1.ͲLamediciónenPsicología 52
3.2.ͲInstrumentosdemedidapsicológicos 53
3.3.ͲAtributos,constructosyvariables 55
3.4.ͲClasificacióndelasvariablessegúneltipodedatos 58
3.5.ͲClasificacióndelasvariablessegúnsupapelenlainvestigación 66
Tema4: ElsoftwareestadísticoSPSS®……………………………………………………………... 69
4.1.ͲIntroducciónalSPSS® 70
4.2.ͲCreacióndebasesdedatosenSPSS® 73
4.2.1.ͲDefinicióndevariables 74
4.2.2.ͲVolcadodedatos 78
4.3.ͲTransformaciónde datos 80
Capítulo 2 : E S T A D Í S T I CA D E S CR I P T I V A
Pág.
Tema5: Descriptivadevariablescategóricas…………………………………………………… 91
5.1.ͲOrganizacióndedatos:ladistribucióndefrecuenciasyporcentajes 92
5.2.ͲRepresentacionesgráficas 96
5.3.ͲTablasdecontingencia 97
5.3.1.ͲTabladecontingenciaporcapas 101
Capítulo 3 : P R O B A B I L I D A D
Pág.
Capítulo 4 : L A I N F E R E N CI A E S T A D Í S T I CA
Pág.
Capítulo 5 : L A A S O CI A CI Ó N E N T R E V A R I A B L E S
Pág.
17.3.ͲAlternativasnoͲparamétricas 313
17.3.1.Ͳ EltestdeMannͲWhitney 314
17.3.2.Ͳ EltestdeWilcoxon 317
Tema18: ConcrecióndelModeloExplicativodeEfectos:ANOVA……………………………… 319
18.1.ͲElAnálisisdeVarianza(ANOVA) 320
18.1.1.Ͳ LalógicadelosANOVA 323
18.2.ͲAnovade1factordeefectosfijos 325
18.3.ͲAnovademedidasrepetidasen1factor 334
18.4.ͲAlternativasnoͲparamétricas 342
18.4.1.Ͳ EltestdeKruskalͲWallis 342
18.4.2.Ͳ EltestdeFriedman 345
Tema19: ConcrecióndelModeloPredictivo:CorrelaciónyRegresiónLineal……………… 349
19.1.ͲPreámbulo 350
19.2.ͲElcoeficientedecorrelacióndePearson 352
19.2.1.Ͳ PruebadelasignificacióndeuncoeficientedePearson 355
19.3.ͲRegresiónlinealsimple 360
19.3.1.Ͳ Elcoeficientededeterminaciónenelmodeloderegresión 364
19.3.2.Ͳ LaregresiónlinealsimplesegúnelMLG 365
ANEXO1: Tabladenúmerosaleatorios………………………………………………………………... 375
ANEXO2: TabladelaFuncióndeDensidaddelaN(0;1)………………………………………… 377
Índicedeejemplosresueltos 379
Referenciasbibliográficasdelostextoscitados 380
CAPÍTULO
1
INTRODUCCIÓN
Estadística y Psicología
¿Qué es la Estadística?
La recogida de datos
previa al análisis estadístico
15
Tema 1
ESTADÍSTICA
Y
PSICOLOGÍA
1.1.ͲLaInvestigaciónenPsicología
1.2.ͲElMétodoCientíficoenPsicología
1.3.Ͳ¿ParaquélaEstadísticaenPsicología?
1.4.ͲAplicarlaEstadísticahoyendía
“2001: Una Odisea del Espacio” “(2001: A Space Odyssey)”. Un clásico del
cine (1968) y una de las películas más arriesgadas de su historia cuyo guión fue escrito en
colaboración, durante más de 2500 horas de trabajo conjunto, entre el gran director neoyorkino
StanleyKubrick(1928Ͳ1999),quienrecibiósuúnicoOscarpersonalporella(curiosamente,aldiseño
delosefectosespeciales),yelsólidoyreputadoescritoringlésdemarcadocaráctercientíficoArthur
Charles Clark (1917Ͳ2008) recientemente fallecido. Al contrario de lo que suele ser habitual, Clark
novelóypublicóestahistoriabasadaensupropiocuentotitulado“Elcentinela”(1953),enellibro
del mismo nombre que el filme (2001: Una odisea espacial; 1968), después de que éste estuviese
rodadoyestrenadoenlassalascomercialesdecine.
Dadoelprestigiodelapelícula,esmuyposiblequelainmensamayoríadelaspersonasque
esténleyendoestaslíneasrecuerdenlasescenasprincipalesdelaobra.Noobstanteporsialguien,
quizáporsujuventud,aúnnolahavisto,permitidmeresumirbrevementesus,aúnmásfamosos,20
minutosiniciales.
ElfilmecomienzaenÁfricahaceunos3ó4millonesdeaños.Ungrupodemonosqueviveen
unacharcasiguiendoforzosamenteunadietavegetariana,sepeleaporelcontroldelaguaconotra
tribu semejante y es derrotado. Por este motivo tiene que abandonar este apacible paraje donde
tenían comida y bebida fácil, siendo condenados a vagar por el desierto. Al amanecer de un día
cualquieratodocambiaráparasiempreensusvidas,losmonosdespiertanycontemplanatónitosun
cuerpogeométricoyopaco(elfamosomonolito)quehaaparecidomisteriosamenteenellugar.Tras
unos instantes de desconcierto y miedo, su curiosidad innata hace que se acerquen y lo toquen
tratando de descubrir qué es. Instantes después se produce una alineación del sol, la luna y el
monolito,ybajolafastuosaobramusicaldeRichardStrauss(1864Ͳ1949)“AsíhablóZarathustra”(Also
sprach Zarathustra; 1896) un mono cualquiera se percata de que puede utilizar el hueso (un fémur
creorecordar)deunanimalmuertocomoherramienta,yaqueobservaquéocurrecuandologolpea
contra el resto de la osamenta y contra el suelo. Minutos después, tras una gran pelea en la que
usando los huesos como armas recuperan la charca de la que habían sido expulsados, el mono
convertidoenlíderdesugrupo,enunademostracióndejúbilolanzaunhuesoalaireque,enlamayor
elipsistemporaldelahistoriadelcine,seconvierteenunanaveespacialdelfuturo(elaño2001que
formapartedeltítulodelfilm,desdelaperspectivade1968,seantojabaunfuturomuylejano).
AunqueelpropioKubrickadviertequeseadmitetodainterpretaciónfilosóficoͲteóricasobre
el contenido de la película, muchos estamos de acuerdo en que lo que se expone en esta macroͲ
escenainiciales,evidentemente,unaalegoríadelalumbramientodelaHumanidadydelcaminoque
seharecorridodesdeentonceshastanuestrosdías.
En esta línea, los autores habrían querido hacer referencia al impulso humano de la
curiosidadinnataquellevaalHombrehacialabúsquedacasicompulsivadelconocimiento.Mediante
la observación de la relación causaͲefecto el homínido preͲhumano precursor nuestro, descubre el
tremendopoderquehaadquiridosubrazoquealusarelarmaͲherramientaͲhuesohamultiplicado
su fuerza. Este hecho simbolizaría el nacimiento de la Tecnología, esa de la que nos sentimos tan
orgullososperoqueposiblementenoestamosutilizandodelamejormaneraposibleparaelbiendel
planeta;esamismacapacidadtecnológicaqueyanoshallevadofueradelaTierrayquealgúndía,
seguramente,nosllevaráporotrossistemassolaresyotrasgalaxiasdenuestroUniverso.Finalmente
elpeludoysimiescopreͲhumanolanzajubilosoelhuesocomounametáforadelaalegríaquenos
produce alcanzar el Descubrimiento, es decir el éxito de culminar el recorrido hasta el Saber. La
trayectoria de la metamorfosis del hueso en nave espacial representaría, entonces, el inmenso
itinerariocientífico,tecnológicoyculturalqueharealizadoelHomoSapiensalargodemillonesde
años.Caminoporelqueaúnnosquedaunabuenatravesía;dehechoKubrickyClarkhipotetizaban
desdeelaño1968unfuturo2001muchomásdesarrolladotecnológicamente(inteligenciaartificial
incluida)delquelarealidadnoshademostrado;portantohemosdeconsiderarquelacifra2001,en
realidad,representaloqueelsigloXXInosvaatraer.
Por último, nos resta comentar la incógnita más famosa y comentada de este guión: ¿qué
representa el monolito y quién lo dejó allí? Sobre ello hay interpretaciones de lo más variopintas,
desdelasprioritariamentereligiosasdondesequiereverlaManodeDiostrasél,hastalasdecorte
netamenteasociadoalacienciaͲficción,enlasquesesostienequeentretantosmillonesdegalaxias
yplanetasdebedehabernecesariamentecivilizacionesmásavanzadasquelanuestra,demodoque
seríaunadeellasquiendejaráallíelmonolito.Enrealidadnoimporta.Entodocasoelmonolitose
revela como un instrumento imprescindible, generador del primer estímulo en el progreso de la
mentehumana,yaquesesuponequeelhechodetocarelmonolitohaprovocadoquesuprimitivo
cerebro comience a evolucionar; por tanto, no es más que un símbolo obvio del desarrollo del
cerebrodelserhumano.
Endefinitiva,esevidentequedesdelaPrehistoriaeldeseode“sabermás”,labúsquedade
explicacionesyconocimientos,hasidolarazóndeserquehaguiadolaconductadelgénerohumano
hasta nuestros días como forma de adaptación y supervivencia. La suma de la información que
hemos ido adquiriendo a lo largo de la Historia sobre la Naturaleza y sobre nosotros mismos,
constituyeelConocimientoCientífico,estoes,loquellamamosCiencia.
Enrealidad,Cienciaesuntérminodedefiniciónmuycomplejayporelloabundandiferentes
planteamientosyenfoques,hastaelpuntodequeparaalgunosescasiunestilodevida,unaforma
depensamientoyaccióncuyoobjetivofinalesalcanzarelconocimiento.Enunintentosimplificador
e integrador cabe decir que, en general, se suele afirmar que la Ciencia (la Ciencia Moderna que
surgecomotalapartirdelsigloXVII)esunconjuntodeconocimientoscomprobadosydemostrados
obtenidos mediante la aplicación de un método concreto, de forma que cada parte de ellos se
correspondeconunaramadelSaber:cienciasaplicadas,cienciasexperimentales,cienciashumanas,
cienciasdelasalud,cienciasnaturales,cienciassociales,cienciasexactas,cienciasdelainformación,
etc…Portanto,lautilizacióndelmétodocientíficoesunacuestióncaracterísticadelaCiencia,que
nos permite analizar los datos que encontramos en la observación de la realidad, con el fin de
comprenderlosyderelacionarlosadecuadamente.
Completando esta definición habrá que decir que el objetivo de la Ciencia es verificar y
generalizar una Teoría previamente formulada, de manera que nos permita establecer reglas de
carácter universal sobre el funcionamiento de la naturaleza y del ser humano que, a su vez, nos
posibilitenpredecirconciertogradodeconfianzaconductasfuturas,oeventos,relacionadasconla
personayconelobjetoconcretodeestudio.
Admitidoloanterior,¿quérelacionaalaCienciaengeneralyaunacienciacomolaPsicología
en particular, con la Estadística; dando sentido al título de este primer Tema? La respuesta la
encontramos en un término clave: la investigación, al que cabe considerarlo como el eslabón
intermediario, modulador, entre Ciencia (Psicología) y Estadística. Con el término investigación
(obviamente empírica) definimos a las acciones, al procedimiento, al proceso de recogida y de
análisis de la información, mediante el cual buscamos alcanzar los conocimientos propios de un
áreadelSaber.
La investigación, por tanto, forma parte de la esencia misma de la Ciencia, ya que logra el
avanceyperfeccionamientodelConocimiento,ysepresentacomounafuentedeaccesoalmismo
infinitamentemejorquelatradición,laintuición,olasimpleexperienciapersonal.Lainvestigación
científica busca los conocimientos mediante la aplicación empírica de un método secuencial y
sistemático,quedesarrollaunplandestinadoalaverificacióndehipótesis,queasuvezestábasado
enlarecogida,elanálisisylainterpretacióndedatosempíricos.PortantolautilizacióndelMétodo
es inherente a la investigación, en tanto que es el camino imprescindible para el acceso a los
conocimientos científicos. Desde este punto de vista, los distintos métodos de investigación (a los
quetambiénselesconocebajoeltérminoMetodología)quehoyestánanuestradisposición,noson
másquelasdiferentesformasderecogidaydeanálisisdelosdatos,quepodemosemplearparadar
soluciónaunproblemaespecífico.
Actualmentecoexistendosgrandesenfoquesinvestigacionales:lainvestigacióncuantitativa
ylainvestigacióncualitativa.Unestudioprofundoycomparativodeambasmodalidadesescapade
la intención de estas páginas. Pero algunas de sus principales diferencias quedan expuestas en el
siguientediagramaadaptadodeMcMillan(2001;2005):
InvestigaciónCUANTITATIVA InvestigaciónCUALITATIVA
p p
Elobjetivoescomprenderel“problema”
Elobjetivoesdeterminarrelaciones
entrelosdatosobservados z desdeelpuntodevista
delaspersonasparticipantes
p p
Elmétodosemodificacongranflexibilidad
Elmétododerecogidadedatosse
establecealiniciodelainvestigación
z enfuncióndelosdatos
quesevanrecogiendo
p p
UtilizalaEstadísticaypresentalos Presentalainformaciónobtenida
resultadosmediantenúmeros
z medianteunanarración
p p
Sepretendellegarageneralizaciones Lasgeneralizacionesestarán
universalesindependientesdelcontexto
z vinculadasalcontexto
Como quiera que éste es un manual donde se pretende realizar un acercamiento a la
Estadística como herramienta de trabajo para estudiantes de Psicología, nos centraremos
exclusivamenteenelcampodelainvestigacióncuantitativa,puestoquecomoesobviolaEstadística
(comoramadelaMatemática)necesitaalosnúmeroscomobasesustancialdesutrabajodeanálisis
delosdatosrecogidostraslosprocesosdemediciónyobservación.
Yaquíestáelelementofundamental,quecompletalarelacióndelaPsicologíacomoCiencia
ydelaInvestigación,conlaEstadística:losnúmeros.Larepresentaciónsimbólicadelosfenómenos
de la naturaleza mediante números es tan antigua que existen referencias que sitúan su aparición
alrededor de tres mil años antes de Cristo, y es tan fuerte que está ampliamente extendida la
creencia de que una ley científica es más válida cuando se presenta acompañada de una ecuación
matemática. Por tanto, la conexión viene servida desde el momento en que la Estadística es la
especialidad de la Ciencia que describe, analiza e interpreta conjuntos de datos numéricos
recogidosempíricamente.
LaPsicología,centradafundamentalmenteentodosaquellosaspectosqueserelacionancon
la salud y la calidad de vida de las personas y con sus conductas desde una perspectiva biológica,
social e individual, necesita a la Investigación y con ella a la Estadística, de la misma manera que
cualquierotraCiencia:paracontrastarlasteoríasexplicativasdelcomportamientodelosindividuos,
desusemocionesydesusprocesosdepensamiento,conloshechosreales.
Estoshechosrealessonloquesedescribe,seanalizayseinterpretaconlaEstadística.Ypara
que la observación de estos hechos sea lo más objetiva posible, el adecuado diseño de una
investigaciónresultasertotalmenteimprescindible.AunquecomodiceBarrull(2001)lainvestigación
psicológicalamentablementehoyendíasufremuchastrabas,éticas,sociales,económicas,eincluso
legales,parasudesarrolloyencambioalospsicólogossenosexigeunaeficaciayunrigorcientífico
difícildelograrsinonosdejaninvestigarconvenientemente.
En definitiva y como breve resumen final de lo dicho hasta aquí, la Ciencia avanza
investigando;lainvestigacióncuantitativautilizaalosnúmeroscomoelementoimprescindiblepara
medirlosfenómenosestudiados,yenconsecuenciaunaherramientaimprescindibleparaelanálisis
de los mismos es la Estadística. La definición más específica de la Estadística, la abordaremos con
posterioridad(enconcretoenelapartado2.5),previamenteahondaremosenlanecesidadquetiene
laPsicologíadeutilizaralaEstadística(enelpróximoapartado1.3).
No obstante, aún antes tenemos que dedicarle algo de tiempo, no demasiado, al método
científico y al resto de cuestiones necesarias para la planificación y la realización de una
investigación.
TéngaseencuentaqueésteesunmanualsobreEstadística(aplicadaalaPsicología)porlo
tanto, el abordaje que vamos a llevar a cabo sobre el método científico y el diseño de una
investigación necesariamente va a ser muy superficial. En la malla curricular de los estudios de
Psicología existen otras asignaturas donde se desarrollan estas cuestiones con mucha más
profundidad.Amén deesto,elestudianteuniversitariodebeya detenerrecursossuficientes(y no
me refiero solamente a Google y compañía) como para buscar libros y artículos específicos que le
permitanampliarinformaciónsobreeltema.
Puesto que la palabra método (acuñada por prestigioso pensador griego
Platón,siglosVyIVa.C.)etimológicamentesignifica“sendero”o“camino”,sepuedeconsiderarque
elmétodocientíficoeselprocesoordenadoysistemático(elcamino),medianteelcualsellegaal
conocimiento; es decir, que es el procedimiento secuencial que la Ciencia emplea para analizar y
resolverunproblema.
Este camino definido en el método científico, se desarrolla en 3 partes necesariamente
consecutivas:
1ª) laobservaciónsistemáticayobjetivadelfenómenoquesedeseaestudiar,yquedesemboca
enelplanteamientodelproblemaainvestigar;
2ª) el enunciado de las posibles soluciones que se piensa que pueden resolver, de forma
satisfactoria,dichoproblema;
3ª) lacomprobaciónempíricadelavalidezdelasmismas.
A lo largo de la Historia de la Humanidad han existido diversas maneras de recorrer dicho
camino. En este sentido, podríamos hablar de tres estrategias de afrontamiento: el método
deductivo,elinductivo,yelhipotéticoͲdeductivo:
ElmétododeductivoesaquelenelqueseelaboraunaTeoríasustentadaenunaserie
depremisas(elsilogismo)conlacreenciadequesidichaspremisassonverdaderas,tambiénlo
seránlasconclusiones,ysebuscanenlanaturalezalosdatosqueconfirmenlateoría.Portanto,
desdelateoríasecaminahacialosdatos,comohicieronensudíacienciasdogmáticascomola
Filosofía,laTeología,…oinclusolasMatemáticas.
El método inductivo, en cambio, circula en sentido contrario al anterior extrayendo
conclusiones desde la observación de la realidad para generalizar estos hechos mediante la
formulación de una ley o teoría. Es decir que desde los datos se camina hacia la teoría, como
hace por ejemplo el célebre detective, que fuera creado en 1887 por Sir Arthur Conan Doyle
(1859Ͳ1930), Sherlock Holmes (aquel de la famosa frase “elemental mi querido Watson”, que
aunque forma parte del acerbo popular curiosamente nunca fue “dicha” por él). De este
método, o estrategia, cabe decir que ha sido el más eficaz para la evolución a lo largo de los
tiemposdelasCienciasNaturales.
Yporúltimo,disponemosdelmétodohipotéticoͲdeductivoqueesunacombinaciónde
los dos anteriores y en el que continuamente nos encontramos dentro de una secuencia casi
circular: datosͲteoríaͲdatos, en la cual se parte de la observación de la realidad (datos) para
formularunahipótesisexplicativa(teoría)quefinalmenteseráconfirmadaomodificadaporuna
nueva observación de la realidad (datos). Este método, o estrategia metodológica, es en la
actualidadelprocedimientodetrabajodelamayoríadelasCienciasaunquepresentealgunas
diferenciassegúnsuámbitodeaplicación.
profundizar demasiado en ellos. De hecho, es muy posible que en las próximas páginas aparezcan
algunostérminoscuyadefiniciónformaldesconoceellector;apesardeello,elsignificadocoloquial
de los mismos le debería de bastar para hacerse una idea adecuada y suficiente de lo que se está
exponiendo.
Siguiendo las líneas directrices generales que se establecen en el método
científicoqueacabamosdecomentar,ellargoyenocasionestortuosoprocesoderealizacióndeuna
investigaciónsepuederesumir,arasgosgenerales,entresgrandesetapas:
Ͳ fundamentaciónteóricaomarcodereferenciateórica,
Ͳ desarrollo
Ͳ yconclusión,
delmismomodoquesucedeenlaliteraturaoenelcine(planteamientoinicial,nudootramacentral
ydesenlacefinal).
A su vez, cada una de estas tres partes contiene diferentes pasos o fases por las que el
investigador transita constantemente adelante y atrás, de manera que debemos de desterrar la
equivocada idea de que la secuencia metodológica que utilizamos al investigar es un camino
unidireccional por el que nos movemos sin posibilidad de retroceder, y reforzar así el concepto de
métododecaráctermásbiencircularcomosedecíaenlapáginaanterior.
1.2.1. A) Fundamentación:
La primera parte, la fundamentación teórica (o también marco teórico), constituye
los cimientos de la investigación y, como ellos, debe de ser sólida si no queremos que se nos
derrumbeeledificio(lainvestigación)quepretendemosconstruirapartirdeella.
En esta parte se afrontarán las tareas de: determinar cuál es el problema que deseamos
estudiar y representarlo en forma de una pregunta científica en función de la cual se fijan los
objetivos de la investigación; abordar una exhaustiva revisión bibliográfica que nos permita saber
quéconocelaCiencia(ennuestrocasolaPsicología)acercadeél;paraterminarconlaformulación
deuna,omás,hipótesisqueseconfigurencomounintentodesoluciónalacuestiónproblemática
planteada.
1.Ͳ Aunque no es fácil decir exactamente cuál es el punto de partida de una investigación,
necesariamenteelprimerpasoeslaidentificacióndelproblemaainvestigar,yaquecomoesobvio
si no hay problema no hay investigación, y si no sabemos lo que buscamos no lo reconoceremos
cuandoloencontremosapesardequelotengamosdelantedenuestrosojos.
Resumiendo mucho esta cuestión cabe decir que el problema a investigar debe de ser
importante para la comunidad, admitir una observación empírica y debe de tener una solución
posible que haga que sea susceptible de ser investigado. Cómo conseguir todo esto, escapa al
objetivo de estas páginas que, como ya decíamos antes, tienen la intención y la obligación de
enseñaralgunoselementosdeEstadística.LaMetodologíaylosDiseñosdeInvestigaciónhabráque
dejarlosparaotromanual.
2.ͲUnavezacotadoelproblemaquedaorigenanuestrainvestigación,eshabitual(aunque
nototalmenteobligatorio)expresarloenformadepreguntadecaráctercientífico,queescomoel
sonido del disparo de salida que pone realmente en marcha el proceso secuencial investigador
basado en lo que viene descrito por el método científico. Es normal que el enunciado de esta
pregunta pase por diferentes estados evolutivos a medida que el investigador va ampliando sus
conocimientossobreeltemayvaconcretandomásaquelloquedeseaaveriguar.
3.Ͳ El contenido de esta pregunta científica influirá directamente en los objetivos para los
cualesnosplanteamosrealizaruntrabajoinvestigador.Elobjetivo,comoeslógico,establecequése
pretende conseguir realizando una investigación concreta. Según el caso, se puede plantear 1
objetivo general que venga acompañado de varios objetivos específicos donde se concretan las
intencionesdelinvestigador;obiensepuedenplantear1ómásobjetivosprincipalesseguidode1ó
más objetivos de carácter secundario. Es norma general que los objetivos vengan redactados con
verbos escritos en infinitivo, del tipo: comprobar, demostrar, averiguar, verificar, determinar,
establecer,…etc.
4.ͲParalelamentealos2pasosanteriores,sehabrácomenzadoconlarevisiónbibliográfica
quenospermitiráconocercuáleselestadodelacuestiónjustoenelmomentoenquenoshemos
planteadonuestrainvestigación.Esteesunmomentocrucialaliniciodeunainvestigación,puesalo
largodeél,entreotrascuestiones,conseguiremoslainformaciónnecesariaparadecidirsivamosa
continuaronoconnuestropropósitoinvestigador,asícomolasideasapartirdelascualesdecidir
cómosevaaenfocartodoelproceso.
5.ͲLlegadosaestepunto,estapartedelprocedimientoculminarealizandolaformulaciónde
almenos1hipótesiscientíficaqueexpongalatentativadesoluciónalapreguntacientíficaquese
enuncióantes.Esdecir,quelahipótesisesunintentodedarunasoluciónalproblemainicialmente
planteado, de manera tal que esta solución hipotética sea: lógica, verosímil, sencilla y, sobre todo,
empíricamentecomprobable.
Las hipótesis están directamente relacionadas con lo que se ha planteado en los objetivos.
De hecho, habitualmente, se redactan en términos afirmativos casi con el mismo contenido de su
correspondienteobjetivo.Enocasiones,sepuedenexpresarentérminoscondicionales,oinclusoen
formanegativa,peronuncacomouninterrogante.
Cuando tengamos mucho más avanzado nuestro estudio (en el Tema 12 incluido en el
Capítulo 4 de este manual), veremos que también existen hipótesis estadísticas, que no hay que
confundirconlasdetipocientíficoqueseacabandeexplicaraunqueestén,lógicamente,vinculadas.
Demomento,podemosadelantarquelahipótesisestadísticaesuningeniomatemáticoquepermite
la comprobación estadística de la hipótesis científica; es decir el mecanismo matemático desde el
que se llegará a tomar una decisión de aceptación o de rechazo de la solución que la hipótesis
científicaplanteasobreelproblemaobjetodelainvestigación.
Completada esta primera parte de fundamentación, sus elementos pasan a un estado de
latencia, pausaoespera,yaqueseguramenteseránrevisadosconfrecuenciamientrasseprosigue
conlassiguientesetapasdelprocesoinvestigador.
1.2.1. B) Desarrollo:
Estoesloquepodríamosllamarelnúcleocentraldelainvestigación,quenoquiere
decirquesealaetapamásimportante,yaqueimportantes,eimprescindibles,sontodas.Pero,por
otroladonodejadeserciertoqueparamuchosdenosotrossíqueeslamásatractivayentretenida.
Quizás, de todo el proceso, es aquí donde la sucesión de pasos tiene alguna importancia,
aunquesinolvidarquesiempre,ocasisiempre,sepuedevolveratrás.
1.Ͳ La primera cuestión es decidir cuáles van a ser las variables que intervienen en la
investigación,segúnseestableceenlosobjetivosehipótesisplanteados.
El término variable, evidentemente en sentido coloquial significa “algo que varía”, es decir
algúnaspectoobservable(enelcasodelaPsicología,enlossereshumanos)quesepuedepresentar
dediferentesformas,estoes,quecambiadeunaspersonasaotras;einclusoenlamismapersona,
puedequecambiedeunosmomentosaotros.EnelTema3,dedicadoalarecogidadelosdatosque
senecesitanparaelposterioranálisisestadístico,sematizamuchoestadefinición;perodemomento
comoideageneralnosvale.
Laidentificacióndelasvariablestambiénimplicalaeleccióndelosinstrumentosdemedida
quesemuestrencomolosmásadecuadosacadacaso.Esobvioqueporejemplo,sisedeseamedir
el tiempo de reacción de las personas ante la presencia de un determinado estímulo visual,
necesitaremosuncronómetrodealtaprecisióncapazdediferenciarentremilésimasdesegundo.
2.ͲLasegundatarea,esestablecereltipodediseñodeinvestigaciónquevamosallevara
cabo.Deestatareaesdeloqueseocupa,otraasignaturadeláreadelaMetodologíaenPsicología,
habitualmente denominada “Diseños de Investigación Psicológica”. Por tanto, es evidente que en
este momento no vamos a entrar en detalles. Como mucho podemos adelantar, muy a grandes
rasgos,quetenemosqueelegirentre2grandesopcionesdemetodologíadeinvestigación:
Ͳ la no manipulativa u observacional, donde el investigador apenas tiene control sobre el
fenómenoqueestáestudiandoysepuededecirqueloquepretendeescaptarlarealidad
ensuentornonatural,sinrealizarningúntipodeintervención;
Ͳ y la manipulativa o experimental, donde el investigador pretende interpretar estos
fenómenos, provocándolos sin esperar a que sucedan por sí mismos; de forma tal que
resultaimprescindibletenerunelevadogradodecontrolsobreellos.
3.Ͳ El siguiente paso es elegir los sujetos dónde se presenta el problemaͲobjetivo de la
investigación. Como se estudiará con detalle más adelante (Tema 2), una correcta elección de los
individuosesclaveparaquelasconclusionesfinalesdelainvestigacióntenganalgunavalidez.
4.Ͳ A continuación, sólo en el caso de los diseños de tipo manipulativo se procede a la
intervención delinvestigadorprovocandoyvariandolascondicionesquedebendedarseparaque
ocurraelfenómenoͲproblemadeestudio.Enelcasodelosdiseñosbasadosenunametodologíade
tipoobservacionalnomanipulativo,simplementeseprosigueconelsiguientepaso.
5.ͲTraslocual,seprocedealaobservacióndelasvariablesquemidenelcitadofenómenoa
estudiar. Este es el momento en el cuál se consiguen los datos, numéricos, sobre los que actúa
directamente la Estadística, y sin los cuales no es posible alcanzar una conclusión final sobre las
hipótesiscientíficasplanteadas.
Lospuntos4y5queacabamosdecomentarsonlasfasespuramenteprácticas,oempíricas,
de una investigación. De hecho al conjunto de ambos se le suele llamar aplicación empírica del
diseño.EselmomentodondeelinvestigadorͲpsicólogotieneuncontactomásomenosdirectocon
laspersonasaquienesinvestiga.Yes,porello,unmomentotrascendentalenelproyecto,puesde
nuestra propia forma de actuar, de intervenir, de interaccionar,… es decir de nuestra propia
conducta,dependequelosdatosqueobtengamosnosaportenelgradodeconfianzanecesariopara
que las conclusiones que de ellos se puedan extraer tengan fiabilidad y validez. Los términos
fiabilidadyvalidezsonespecíficosdellenguajedelametodologíacientífica.Susdefinicionessonmás
complejas de lo que pueda parecer y este no es el manual para afrontarlas. No obstante, el
significado coloquial de las mismas nos basta perfectamente para nuestros objetivos actuales, es
decirque:fiableesalgoquetedaconfianza,yválidoesalgoquesirveparaalgo.
6.ͲObtenidalainformaciónnecesariadelossujetos,elanálisisestadísticodeestosdatosy
suscorrespondientesconclusionesdelmismorango,esdecirestadísticas,ponenelpuntofinalaesta
2ªgranpartedelcaminoquerecorreunainvestigación.Esposiblequequizáhayaquerecordar,una
vezmás,elcaráctercirculardeesteprocesopuestoquesilosresultadosobtenidosenestepuntono
sonsatisfactorios,elinvestigadorsiemprepuedevolveralcomienzo,establecerunanuevahipótesis
yrehacertodoeltrabajo.Sobrelastécnicasestadísticasqueseempleanenestemomentotrataeste
manual.EstoesloquevamosaestudiarapartirdelCapítulo2…yespecialmenteeneltrascendental
Capítulo5quecontienelasgrandesherramientasquelaEstadísticaponeanuestradisposiciónpara
podercomprobarelgradodecertezadenuestrashipótesisdeinvestigación.
1.2.1. C) Conclusión:
Llegadosaestepunto,elfinaldelainvestigaciónestámuypróximo.Sinembargo,lo
quequedaporhaceresdevitaltrascendencia.Vamosconello:
1.Ͳ Obtenidas unas conclusiones estadísticas satisfactorias y válidas, ahora debemos de
convertirlas en conclusiones científicas. Para ello, toda la teoría acumulada durante la parte de la
fundamentación inicial del proyecto, resulta ser absolutamente imprescindible. Debemos de
compararloquenosotroshemosobtenidoennuestrainvestigacióncontodoaquelloqueyasesabía
sobreelproblemaanalizado,enloquesellamaladiscusiónderesultados.Esteprocesoeselque
nosllevaráhastalasconclusionesfinalesydefinitivassobreelproblemaobjetodelestudio.Puede
que en esta discusión, acabemos contradiciendo las teorías existentes hasta la fecha, lo que
supondríaundescubrimientocientífico,perotambiénpuedequesololohagamosenparte,puede
quesimplementelaspongamosenduda…opuedequetansolologremoscorroboraraquelloquede
algunamanerayasesabía.Entodocaso,hastalaausenciadeconclusión,yaesensíunaconclusión.
2.Ͳ Paralelamente, habrá ocasiones en que nuestras conclusiones se puedan convertir en
Leyesexplicativasdelaconductahumana.Esteeselmomentoparahacerlo.Noobstante,tampoco
debemosdetenerobsesiónconlaelaboracióndedichasleyes.
3.Ͳ Finalmente, solo nos queda escribir y publicar un informe, o un artículo,… o utilizar
cualquierotromedio,paracomunicarlealacomunidadcientíficalosresultadosdenuestroestudio.
Investigar por el simple placer de investigar, está bien; pero lo que realmente satisface, es que lo
demásconozcannuestrotrabajo.
La aplicación de la Metodología Científica a la Psicología, ha cristalizado
estructuralmente en 3 disciplinas complementarias: Diseños de Investigación (antiguamente
denominadaPsicologíaExperimental),Psicometría,yEstadística(tambiénllamadaAnálisisdeDatos):
MÉTODOLOGÍACIENTÍFICAENPSICOLOGÍA
paraplanear pararealizar parael
laInvestigación laMedición Análisisdedatos
DISEÑOS
PSICOMETRÍA ESTADÍSTICA
DEINVESTIGACIÓN
Aunquelasecuenciadeintervencióndecadaunadeellas,dentrodelaMetodología,seataly
como se aprecia en el esquema gráfico anterior, es decir: Diseños o Psicometría o Estadística, el
aprendizajedelasmismasnopuedeseguir,enningúncaso,elmismoorden1.
La materia de Diseños de Investigación en Psicología, también denominada Métodos de
Investigación,contienetodaslasformasmetodológicasposiblesqueelinvestigadortienealalcance
de su mano para llevar a buen puerto, correctamente, su proyecto de investigación. Pero, no sólo
eso;nosenseñaaplanificareltrabajo,aelegireldiseñoespecíficoqueeselmásadecuadoparalos
objetivosyvariablesdenuestroproyecto,adesarrollarlodeformaadecuada,nossirvedeguiónpara
saberencadamomentoquéhaceryquépasovaaserelquevamosadaracontinuación,eincluso
establecelasnormasquesedebendetenerencuentaalahoradecomunicarnuestrosresultadosen
informesoartículoscientíficos.
LaPsicometría,contienelosmétodosformalesquenecesitamosparaconstruirinstrumentos
deobservaciónobjetiva,esdecirdemedida,delaconductadelserhumano.Portanto,nosenseña
cómo elaborar instrumentos de medición psicológica, cómo mejorarlos, cómo usarlos de forma
imparcial, y cómo interpretar la información que nos dan acerca de las personas. La medición,
usandonúmeros,delosrasgospsicológicosquesemanifiestanenelserhumanoesabsolutamente
1 Dehecho,porejemplo,paraelestudiodelaPsicometríasonabsolutamenteimprescindiblesconocimientosmuysólidosdeEstadística,
er
porloqueentodaslasfacultadesdePsicologíalasasignaturasdeEstadísticahanestadotradicionalmenteen1 curso,mientrasquela
Psicometría se ubica en 2º o incluso en 3º. Por su parte, el estudio de los Diseños de Investigación, que en alguna Universidad se
denominaMétodosdeInvestigación,puederealizarsesinconflictodeformaparalelaalaEstadísticayaunquehastaahorahasidomás
habitualencontrarladespuésdeella,comoalaPsicometría,lareformadelosplanesdeestudioamparadosenelacuerdodeBolonia
seguramentelatrasladaráacercándolaallaEstadística.
imprescindibleparaquelaPsicologíapuedainvestigarsobreellos,yaqueapartirdelosresultados
queseobtienenensuaplicaciónrealaindividuosy/ogrupossellevanacabolosanálisisestadísticos
de datos desde los que, posteriormente, se extraerán las conclusiones finales de un proyecto de
investigación.Ynosóloeso,laPsicometríaestambiénlaramadelametodologíaqueestablecelas
normasbásicasparalautilizacióndelaspruebaspsicológicascomomediodediagnóstico.
YlaEstadística,...eso,…¿ylaEstadística,paraquésirveenPsicología?Partedelarespuesta,
debería de ser obvia, tras lo que hemos venido comentado en las páginas anteriores sobre la
necesidad de investigar que tiene toda Ciencia. Pero vamos a tratar de concretar algo más, en su
aplicaciónalaPsicología.
LaPsicologíacuandoseescindedelaFilosofíaseautodefinecomocientíficaconlaintención
deacercarsealrestodelascienciasnaturalesdecarácterpositivista(comolaFísicaolaQuímica,por
ejemplo)alaseverarquesuintenciónesdescribir,explicar,ypredecir,losfenómenospropiosdelas
conductasdelaspersonas.LareconocidaobradelpsicofísicoalemánGustavT.Fechner"Elemente
derPsychophysik"(1860)hasidoconsideradaoficialmentecomoeliniciodeesaetapa,puestoque
porprimeravezseutilizaunenunciadoformalizado,esdecirmatemático,paraexplicarunfenómeno
psicológico como es el de la relación entre los estímulos que percibimos las personas y las
sensacionesqueestosnosproducen.
Desdeentonces,laPsicología,aligualqueotrasCiencias(comolaSociología,laPedagogía,la
Medicina, o la Biología, por citar solamente otras también relacionadas con el ser humano) ha ido
incorporandopaulatinamente,perodeformaimparable,lacuantificaciónylametodologíacientífica
como medio de elaboración y comprobación de sus leyes y teorías, y como procedimiento de
realización de sus inferencias y predicciones. Esto implica que la Psicología actual, alcanza los
conocimientosnecesariosparalaformulacióndesusLeyesyparalarealizacióndesuspredicciones,
delmismomodoenquelohacenotrasmuchasáreascientíficas.
DoshansidolascorrientestradicionalesquehanguiadoalaPsicologíaensucaminarporla
investigacióncientífica:lamanipulativaͲexperimentalylaasociativoͲcorrelacional.
Ͳ La investigación manipulativaͲexperimental centra su atención en las diferencias entre
lassituacionesambientalesoestimulares,modificándolasconlaintencióndeestudiarsu
posibleefectocausal.
Ͳ La investigación asociativoͲcorrelacional, en cambio, enfoca su punto de mira en las
diferencias existentes entre personas y grupos, buscando patrones de conducta
asociativos.
Estasdoscorrientessonlabasedelosdosgrandesgruposdediseñosmetodológicoscitados
enlapágina24:losdiseñosobservacionalesfrentealosdiseñosexperimentales.
En esta misma línea, debido a que los sucesos que son objetivo de investigación para la
Psicología(elcomportamientodelaspersonas,susrelacionesconlosgrupossociales,lapercepción
de los estímulos, los rasgos de personalidad, las aptitudes,...) son variables en sí mismos 2, resulta
imprescindible el uso de una metodología específica acorde con ello. Esta metodología, que forma
partedela Matemática, eslaEstadística.De maneraqueasí nosencontramosconotrareferencia
2 Seguramenteloúnicoquelossereshumanostenemosencomún,esquetodossomosdistintos.Laconductahumanaesvariableen
cuanto difiere comparando grupos y en cuanto que un sujeto, debido a factores personales internos y externos, no se comporta
siempredelamismamaneraaunqueseencuentreantesituacionesidénticas.
más de la necesidad de la utilización de la Estadística como herramienta científica, en este caso
concreto,enconexiónconlaPsicologíaoconlainvestigaciónpsicológica.LaEstadísticaespues,el
instrumentooperativoqueponealalcancedelaPsicologíatodounconjuntodeprocedimientosy
herramientasquefacilitanelanálisisobjetivodelasmanifestacionesdelaconductahumana.
AntesdeproseguiresmuyconvenienteaclararqueexisteunaEstadísticaTeóricaoTeóricoͲ
MatemáticayunaEstadísticaAplicada.
La Teórica es la encargada, por un lado, de investigar sobre sus propias herramientas ya
existentes;yporotrolado,dedesarrollarotrasnuevas,mássimples,máspotentes,másadecuadas;
por ello, permanentemente se encuentra inmersa en un proceso de constante creación y
perfeccionamiento. Exige unos muy densos conocimientos de matemáticas y gran habilidad en el
manejodesusinstrumentos.Portodoello,quedafueradelalcancedelamayoríadenosotros,así
quedejemosesteplaceralosMatemáticosyalosEstadísticos.
La nuestra, la que nos ocupará a lo largo de las próximas páginas, es la otra, la Estadística
Aplicada, es decir, aquélla que utiliza estas herramientas (las construidas por los “teóricos”) en el
entornodelaobservacióndelarealidad:parainvestigar,paradescribir,paraexplicar,parapredecir,
yfinalmenteparaconcluir.
Enconsecuencia,yaunqueladefiniciónformalyconcretaseabordará,comoyasehadichoa
lolargodelTema2,enestemomentoyaestamosenposicióndeafirmarque:
La Estadística Aplicada se puede definir como el conjunto de técnicas que
permiten al investigador resumir, organizar y trasmitir información, así como
realizargeneralizaciones(inferenciasoextrapolaciones)desdeunconjuntopequeño
de objetos hasta un conjunto mayor; consiguiendo con éste análisis tomar
decisionesyllegaraconclusionesacercadelasleyesquerigenlaconductahumana,
odentrodecualquierotroáreaespecíficodelSaber.
Definición que reafirma una vez más la estrecha vinculación que la Estadística tiene con la
InvestigaciónyconelavancedecienciascomolaPsicología.
Es evidente que en este manual nos vamos a enfrentar a la Estadística solamente desde el
punto de vista de un usuario, es decir que nos interesamos por ella como el que se interesa por
conocer cómo utilizar su microondas para poder calentarse su café y le da lo mismo cuál es el
fundamentofísicoyteóricomedianteelcualcalientanestosaparatos.Algunosautores(desdeTukey,
1962;hastaSanMartínycols.,2001,porcitarejemplosalejadoseneltiempo)proponenquepara
dejarclaraladiferenciaentreambosterrenos,alámbitodelaaplicacióndelasherramientasydelas
técnicas estadísticas en los distintos campos de cada Ciencia se le denomine Análisis de Datos,
términoquesevaextendiendocadadíamás,envezdeldeEstadísticaAplicada.Puesbien,estamos
deacuerdo;aunquehonestamentecreemosqueesunacuestiónsemánticasinmayortrascendencia,
noobstanteciertamenteconveniente.
Parairfinalizando,yamodoconclusiónatodoloexpuestoprácticamentedesdeeliniciode
este tema introductorio, vamos a responder de una forma más específica a la pregunta que se
formulabaantes:¿paraquélaEstadística?,omásconcretamente¿paraquélaEstadísticaAplicadaa
laPsicología?
Algunas de las múltiples y variadas respuestas que se pueden dar como ejemplos de la
utilidadquetienelaEstadísticaparalaPsicología,son:
- porqueconellapodremosafrontarelestudiodelaconductadelserhumano,tantocomo
individuocomoenintegraciónensuredsocial;
- y,desdeesteestudio,predecirunaconductafutura;
- porquesolamenteatravésdeellapodemosanalizarlasobviasdiferenciasindividuales;
- porqueconellapodemoscomprobarlaeficaciadeunaterapia;
- odeterminarcuáleselpuestotrabajodonderindemejorunapersona;
- osaberlascapacidadesdeunadolescenteconvistasaorientarleensufuturolaboral;
- porquenospermiteanalizarlasopiniones,creenciasyactitudesdelaspersonas;
- porque nos proporcionará la ayuda imprescindible para el desarrollo de los métodos de
mediciónpsicológicos;
- porque es básica en la investigación, en general, sobre los aspectos cognitivos,
emocionales,ysociales,delserhumano;
- yporquenospermitelaelaboracióndeLeyesPsicológicassobreelcomportamiento.
Esperamos que, con todo lo dicho, le quede al lector suficientemente probado el estrecho
vínculodelaEstadística(dentrodelÁreadelaMetodologíadelasCienciasdeComportamiento)con
elrestodelasmateriasoasignaturasnecesariasparalacompletaformacióndelPsicólogo;nosolo
comopotencialinvestigador,sinotambiéncomoprofesionalenejerciciodentrodelasqueseránsus
futurascompetencias.
Dichotodoloanterioryparaterminarestetema,resultanecesariocomentar
que, como es sabido, en épocas anteriores los procesos de cálculo inherentes al empleo de las
técnicasestadísticaseran,frecuentemente,largosytediosos.
Más tarde, con la aparición de las calculadoras de bolsillo, se consiguió mejorar en gran
medidaestasituación,yaquealgunasdelasherramientasestadísticasmásbásicasaparecieronentre
lasfuncionesqueestasmáquinasincorporabandefábrica.
Casi paralelamente, las computadoras comenzaron a simplificar el trabajo de los
profesionales, facilitándoles enormemente sus cálculos. Hoy en día, es bastante común que todo
estudianteuniversitariodispongadesupropioordenadorpersonal,yaunquelosmediostécnicosde
todas las universidades, públicas y privadas, no son todo lo completos que sería de desear, no es
demasiado difícil el acceso del estudiante a los diferentes programas de análisis estadístico que se
hanidocreandoenlosúltimosaños.
Entreellos,laaplicacióninformáticaSPSS®,queenelmomentodeescribirestaslíneasestáa
puntodesuversión16,esseguramentelamásdifundidaenlaactualidad.SPSSfueronoriginalmente
las siglas en inglés de Statistical Package for the Social Sciences (Paquete Estadístico para las
CienciasSociales).
Estamosanteunpotentesoftwareestadístico,pormódulos,(creadoporN.Nie,C.Hull,yD.
Bent)quecomenzósudesarrolloen1968bajoelamparodelaUniversidaddeStanford,CaliforniaͲ
EE.UU., para su empleo específico en las Ciencias Sociales y de la Conducta Humana (Psicología,
Sociología,Pedagogía,…).HullyNiefundaron,yadeformaindependiente,laempresaSPSSInc.en
1975 y desde entonces su crecimiento, tanto tecnológico como económico, ha sido imparable. La
filialparaEspañasepuedeencontrarenlapáginawebhttp://www.spss.com/es/
Hace poco tiempo, SPSS modificó el significado de sus siglas por: Statistical Product and
Service Solutions, que se puede traducir algo así como Entrega (o Servicio) de Soluciones y
Resultados (el término equivalente al literal Producto) Estadísticos, debido a que cada día tiene
mayorpresenciaenmuchasotrasáreascercanascomolaMedicinaolaBiología,einclusoenotras
notanpróximascomopuedenserlaFarmacia,laEconomía,elMarketing,laDemografía,oinclusola
Meteorología, o el Turismo; áreas todas ellas, donde la toma de decisiones y la comprobación de
hipótesissonfundamentales.
Esta facilitación de la operatividad en el cálculo ha provocado que en la actualidad los
mejoreslibrosespecializadosennuestramateria,haganmayorhincapiéenelaspectoconceptuale
interpretativodelasherramientasestadísticasqueenlapartenetamentematemáticayoperativa.Es
decir,quehoyendíaresultaobsoletocentrarelestudiodelAnálisisdeDatos(oEstadísticaAplicada)
enlasecuacionesyprocesosdeloquepodríamosllamarlos“cálculoshechosamano”.
Yéstahasidotambiénunademisprincipalesintencionesalahoradeelaborarelpresente
manual.ComoyaseadvertíaenlaPresentación,antetodosepretendequeelestudianteaprendaa
manejarlastécnicasdelaEstadísticaAplicadaalaPsicologíafundamentalmentedesdelospuntosde
vistade:
- laeleccióndelasherramientasmásadecuadasacadasituaciónquesevaaencontraren
elfuturo,
- ylainterpretacióndelosresultadosestadísticosobtenidosenellas(lainmensamayoría
mediantedichopaqueteSPSS®);
evidentemente,seincluyenlasnocionesbásicasparaelaprendizajedelmanejodelcitadoprograma
queseprecisaparallegarhastalosresultadosdeseadosenelanálisisestadístico.
Por ello, durante la exposición de la materia solo se han incluido aquellas ecuaciones o
fórmulas de cálculo, que son absolutamente imprescindibles para la correcta comprensión de los
conceptosy/oherramientasestadísticas,sinprofundizarniensugestación,niensudesarrollo,nien
suutilización.
Tema 2
¿ QUÉ ES LA
ESTADÍSTICA ?
2.1.ͲPreámbulo
2.2.ͲPoblaciónymuestra
2.3.ͲMétodosdemuestreo:conceptosgenerales
2.4.ͲParámetroyEstadístico
2.5.ͲYporfin…ladefiniciónformaldeEstadística
2.1.- Preámbulo
3
Seráporelloquenoesdifícilescucharcosascomo:
9 Estadística:Cienciasegúnlacualsiunhombretienelacabezaenuncongeladorylospiesenunhorno,sutemperaturamedia
esnormal.Otambiénlamuyconocida:Sitútecomes2pollosyyoninguno,segúnlaEstadísticanoshemoscomido1pollo
cadauno.
9 LaEstadísticaesunarmamuypeligrosa,...sobretodoenmanosdelospolíticos.
9 UnEstadísticoesunespecialistaqueexplicarámañanaporquénoocurrieronlossucesosquepronosticóayer.
9 Estadística:elArtedementirconnúmeros.
9 Ocomodicenlosdeportistas:Lasestadísticasestánpararomperlas(enelsentidodeque“paraqueseincumplan”).
9 Lafamosa:HaydostiposdeEstadísticas:lasqueseinvestiganylasqueseinventan.Ydeahí,porúltimo,laterriblesentencia:
Nocreasenningunaestadísticaquenohayasfalseadotúmismo.
día,piensocuántarazóntenía.Todoslosfenómenosquerodeanlavidadelserhumanoestánsujetos
aunagrancantidad deelementosofactores;unos lospodemoscontrolarmásomenos,otrosno.
Constantemente intentamos predecir qué va a ocurrir; y después observamos qué es lo que en
verdad sucede. Y entonces, sin darnos cuenta, estamos haciendo Estadística. Porque, tal y como
veremosmástardeconmásdetalle,laEstadísticaobservaunacontecimiento,loanaliza,lodescribe,
ydespuéspredicequéocurrirálapróximavez.Elproblemaesqueenestapredicciónnuncasetendrá
un 100% de certeza. Pero no por ello dejaremos de intentar, cada vez, conseguir un poco más de
probabilidaddeacierto,decredibilidad.
Ahondandoenlaideaanterior,esimportanteinsistirenalgoqueyasehadichoysobrelo
quetambiénsevolveráposteriormente,setratadelhechodequelaEstadísticaesuneficazconjunto
deherramientasquenospermiteirdeloparticularalogeneral,estoes,realizarextrapolacioneso
generalizaciones (técnicamente: inferencias) a partir de un conjunto relativamente pequeño de
datosobservados,haciaunconjuntomayorquenosresultaimposibledeobservarensutotalidad.Y
enestaimposibilidadradica,engranparte,laausenciadelacertezatotal.
Pero,tambiénpodemosdecirquelaEstadísticaesunaformadebúsquedadelaverdadque
se ha desarrollado desde un proceso de pensamiento lógico y básico en el ser humano, que nos
permitetomardecisionesdecaráctergeneralapartirdelainformacióndelaquedisponemos.
Sin la intención de ser reiterativos, pero insistiendo en ideas ya expuestas en el tema
anterior,sepuedeseñalar,quegraciasalaEstadísticasomoscapaces:desaberquéterapiaeslamás
adecuadaparaciertaalteraciónpsicológicaoquémedicacióneslamáseficazparaunadeterminada
enfermedad;opodemoslanzarnosalabúsquedademétodosquereduzcanelabsentismoescolar,el
laboralpordepresión,elcáncer,elSIDA,oelataqueincontroladodeunvirus;odeterminarenqué
trabajo rendirá más satisfactoriamente una persona; o averiguar qué tipo de estímulos externos
provocanciertasrespuestasenelserhumano,opodemoshacerunestudiodemercadoquepermita
aventurar los riesgos y los beneficios de un nuevo negocio;... que son meros ejemplos, entre
múltiplesposibilidadesy/oaplicacionesdelaEstadísticaendistintasCienciasynosóloenPsicología.
PortantolaEstadísticaserevela,unavezmásysiguiendolalíneatrazadaenelTema1,como
unaherramientaimprescindibleenlaInvestigaciónCientífica,tantoenlaPsicologíacomoenelresto
de las Ciencias Humanas y Sociales, así como en muchas otras más o menos directamente
relacionadasconelserhumano(comolaMedicina,laBiología,olaEconomía).
Y si algún lector piensa que no va a necesitar saber Estadística porque no está entre sus
intenciones futuras investigar, se equivoca, porque el conocimiento de la misma le resultará vital
parapoderentenderlaspublicacionescientíficasdesuespecialidadquecontodaseguridadtendrá
que leer puesto que serán necesarias para su formación, y permanente actualización, como
profesional. El lenguaje científico y la terminología estadística son absolutamente imprescindibles
paratodapersonacuyaprofesiónestérelacionada,másomenosdirectamente,conlaobservación
defenómenosasociadosalserhumano.
Paraprofundizarenlacomprensión delconcepto denuestraEstadísticaAplicadaoAnálisis
de Datos, como se le quiera llamar, y llegar hasta una definición formal de la misma al final del
presenteTema2,resultaimprescindiblemanejarantesunaseriedetérminospropiosqueresultan
clavesparaentenderla.Comenzamosconellosdeinmediato.
Cuando el investigador se plantea un problema como objeto de análisis,
define un fenómeno que hay que observar en alguien. Quiénes son ese “alguien” da lugar a los
conceptosdepoblaciónymuestra.Esdecir,quesinospreguntásemos:¿aquiénvamosainvestigar?,
larespuestavendríadadapordichostérminos.
Vayamosconsusdefiniciones.
Se denomina población (o universo estadístico), en general, a: un conjunto
deelementosodeobjetosque,segúncriteriosespecificadosporelinvestigadorypor
el objetivo de la investigación, tienen al menos una característica, o propiedad
directamente observable, en común y que les define precisamente como una
poblaciónqueesdiferentedeotrasyhacialaquesedesearealizarunainferencia.
Según la definición anterior, la población es el objeto acerca del cual se va a realizar el
estudio;esdecir,es“aquello”deloquesepretendeaveriguaralgo.Este“algo”seconstituyecomoel
objetivoprincipaldetodainvestigación.Aconcretarquéesestealgoycomoseleobserva,sededica
engranparteeltema3;demomentopodemosadelantarquesonlascaracterísticasvariablesdelas
quehablábamosanteriormenteenlaspáginas27y24.
En consecuencia, la intención del investigador es pues, conocer o describir (en términos
generales) algún aspecto variable de la “conducta”, o alguna característica, de los elementos que
integranlapoblación.Porello,resultaimprescindiblequelapoblaciónquedeperfectamentedefinida
hastaensumásmínimodetalle,puestoqueellavaaserelámbitodereferenciasobreelquevana
recaerlasconclusionesfinalesdelainvestigación,sinquesepuedanenningúncasoextendermás
alládeéstemarco.Estamosanteunconceptoqueescercanoaldeuncenso,puestoquecontienea
latotalidaddelosobjetosquepuedenserestudiados.
Debido a este carácter que tiene la población, de espacio hacia el que se pretende
generalizar los resultados y conclusiones de la investigación que se va a realizar, en bastantes
manualesseladenomina:poblacióninferencialopoblaciónobjetivooinclusopoblacióndiana.
Sin embargo, no es extraño que al definir los elementos particulares que componen una
población,nosencontremosconquealgunosdeellossoninaccesiblesparaelestudio,porejemplo
porqueexistenerroresenel“censopoblacional”,oporqueellistadoestáincompleto.Estacuestión,
conlleva su correspondiente exclusión de la población. El resultado de la misma da lugar a la
denominada población marco que es la que contiene al conjunto real de elementos que están a
nuestroalcanceparaserinvestigadosuobservados.Noobstantepodemosdecir,quehabrámuchas
ocasionesenquelapoblaciónmarcocoincidaplenamenteconlapoblacióninferencial.
OtraterminologíaconlaquetambiénnospodemosencontrarenlosmanualesdeEstadística
yenlosartículoscientíficos,denomina:universogeneralalapoblaciónteórica,abstracta,haciala
queelinvestigadordeseageneralizarsusconclusiones(lapoblacióndiana),yuniversodetrabajoala
operacionalización concreta de ese universo general en unidades o elementos que son realmente
accesiblesparaelinvestigador(lapoblaciónmarco).
Desdehacevariospárrafos,sevienehablandodeloselementosquecomponenlapoblación,
peroconcretamente,¿quiénessonesoselementos?
Para los matemáticos expertos en la Estadística Teórica, las poblaciones son siempre
números: conjuntos infinitos de números; concretamente los valores numéricos que se podrían
obteneralobservaraquellacaracterísticadeinteréscientíficoquehamotivadolainvestigación.De
maneratal,quecadanúmero(realonatural)esunelemento.Porello,apriori,unapoblaciónestaría
compuesta por un número infinito de elementos (como infinitos son los números) aunque en
realidad,casitodasellassonfinitas(elmenosparaunmomentotemporaldado).
PeroparalaEstadísticaAplicada,loselementosdelaspoblacionessonlos“propietarios”de
esosvalores:losobjetosdóndesevaarealizarlamediciónquegeneradichosnúmeros.Esdecir,
queestoselementosdelosquehablanlasdiferentesdefiniciones,sonaquellosobjetosenquienes
sevaarealizarunaobservacióncientífica(medición)enfuncióndelobjetivodelestudio.
En este segunda línea, son ejemplos de poblaciones diana u objetivo: los universitarios
españolesmatriculadosenelpresentecursoacadémico;lapoblación(dehabitantes)empadronada
en Castilla y León en el año 2007; los pacientes que sufren cierto trastorno psicológico (en un
determinadolugar,enelespacioyeneltiempo);losniñosescolarizadosenEuropa,lasparejasque
acudenaserviciosdeorientaciónfamiliar,etc…;oincluso,enotrascienciasafinespuedenser:virus,
células,bombillas,alimentos,…,olaspiezasqueseconstruyenconlamaquinariadeunafábrica,olas
empresasensímismas.
Laadecuadadefinicióndelelementoesmuyimportante,puestoquedeélesdequiensevaa
extraerlainformación,atomarlosdatosconlosqueserealizaráelposterioranálisisestadístico.Esta
eslarazónporlaque,frecuentemente,enlosartículoscientíficosdecorteestadísticoseindicancon
precisiónlascausasdeinclusiónydeexclusióndeloselementosainvestigar.
Específicamente, en la aplicación de la Estadística a las CC.HH. como la Psicología, cuando
decimos elementos, en la inmensa mayoría de los casos, estamos hablando de: seres humanos, de
sujetos, personas o individuos (o cualquier otro sinónimo con el que los queramos llamar), que
tienenalgunapropiedadcaracterísticaydiferencial,encomún.Laformamásrutinariadereferirnosa
ellosesladesujetos;sinembargo,enlosartículoscientíficospublicadosenlosúltimosañoshayuna
evidentetendenciaautilizareltérminoparticipantes(enelestudio)cuandoloselementosdefinidos
sonsereshumanos.
Las diferentes definiciones de población que acabamos de citar permiten concluir que
cualquier grupo de sujetos es una población inferencial. Pero, haciendo uso de un mínimo sentido
lógico, y tras los ejemplos citados arriba, cualquier lector podrá suponer sin dificultad que las
poblacionesqueposeenverdaderointeréscientíficoparasuestudio,generalmente,estánformadas
por un número tan elevado de elementos que se pueden considerar a efectos prácticos como
infinitas(talycomoocurríaparalosmatemáticos)aunquerealmentenolosean;yaqueentodocaso
nosonasequiblesparaelinvestigadorensutotalidad.Esdecir que,enningúncaso,estaremosen
condiciones(reales)detrabajarcontodoslosobjetosquecomponenlapoblaciónmarco.
Y de ahí la imperativa necesidad de extraer muestras; el segundo concepto clave en la
búsquedadeunadefiniciónformaldelaEstadística.
SedenominaMuestraaunsubconjunto,representativo,deelementosdela
población.Esdecir,aunapartereducidadelapoblaciónquehasidoelegidaconla
intencióndequerepresenteatodalapoblaciónmarcoobjetodelainvestigación.
La característica de representatividad es fundamental para que tengamos una buena
muestra. De las muestras que no representan adecuadamente a la población se dice que son
sesgadas, por lo que el término que se usa para las muestras que logran esta representatividad
estadísticaeseldeinsesgadas.Endefinitiva,queparaqueunamuestrarepresenteadecuadamente
alapoblacióndebeserunamuestrainsesgada.
Como se comentará más adelante, la primera razón para sesgar una muestra es la de no
asegurarse que todos los elementos de la población marco pueden ser muestreados, cuestión que
ocurre más veces de lo que parece. Con la utilización de una muestra sesgada (aunque el
investigador no tenga constancia de esta circunstancia) hay muchas posibilidades de que las
conclusionesfinalesobtenidasesténfalseadasyportantoinvalidenlainvestigación.
Encambio,unagarantíadequeestamosenelcaminoadecuadoparaobtenerunamuestra
insesgada es utilizar correctamente un Método de Muestreo, el que sea más apropiado en cada
ocasión. De hecho, la utilización de una técnica de muestreo podríamos considerarlo ya como el
primereslabóndelacadenadetrabajodelaEstadística,puestoquesinélnoestaremosenelcamino
correctoparallevaracaboelrestodelanálisisdedatos:
POBLACIÓNDIANA
MÉTODODEMUESTREO MUESTRAINSESGADA
POBLACIÓNMARCO
Por otro lado, la utilización del muestro estaría justificada como una forma de economizar
esfuerzo, tiempo y dinero en la realización de una investigación, con lo que se lograría una mayor
rapidez en la obtención de datos y en el acceso a la información; y es que investigar es algo que
tambiéndebemosdecontemplardesdelaperspectivadelaeconomía.
Habitualmente el número de casos, o elementos, que componen la totalidad de una
población se representa con el símbolo (en mayúsculas), mientras que el tamaño de la muestra
extraída, se representa con la letra (en minúscula); aunque no es extraño ver otra simbología, o
incluso que se intercambien estos símbolos, por lo que animo al lector a que examine en cada
contexto,conunalógica yconvenienteflexibilidad,cómoseutilizalasimbologíaenesecaso.Para
estemanualseguiremoselconvenioqueacabamosdecitar.
Eltamañodeunamuestradebedeserdeterminadoporelinvestigadorantesdecomenzar
consutrabajoydetalmaneraqueleproporcionelainformaciónnecesariacomopararesponderde
forma sobradamente creíble a las cuestiones planteadas en el(los) objetivo(s) de la investigación.
Ésta es una cuestión de capital importancia y que sin embargo está desatendida por muchos
profesionales.Esciertoqueconseguirunamuestra,enbastantesocasionesesunatareadifícil;pero
ellonoimplicaquesedebaolvidarqueparaquenuestroestudiotengavalidezcientífica,debemos
detrabajarconunamuestrainsesgadaysuficientementegrande.
Porlogeneraleltamañomuestralesunpequeñoporcentaje(menosdel10%yenlamayoría
deloscasosrondael5%)deltamañodelapoblaciónmarco,ysefijaenfuncióndecuestionescomo
porejemplo:
- eltipodeinvestigaciónylosobjetivosqueseformulanenlamisma,
- elnúmerodedatosquesevanarecoger/observardecadaelemento,
- losmétodosdeobtención/medidadedichosdatos,
- y, fundamentalmente, el grado de precisión y exactitud que se desea conseguir para las
conclusionesestadísticas;
todo ello sin olvidar, lamentablemente, las limitaciones económicas (de tiempo y dinero) que
tengamos; de hecho es más que conveniente, realizar un presupuesto previo del coste de la
investigación.
Enestalínea,yamododeejemplos:paraunestudioquepretendarelacionar2omásdatos
obtenidosencadaelemento,seríannecesarioscomomínimo30sujetos;ysiloquesepretendees
compararunossubgruposconotros,cadaunodeellosdeberíadetenercomomínimo15elementos;
si vamos a utilizar una encuesta como método de obtención de los datos 4, deberíamos tener al
menos 100 participantes en cada subgrupo principal y entre 20 y 50 en cada uno de los distintos
subgrupossecundarios.
Por otro lado cuando sea imprescindible encontrar relaciones entre variables presentes en
unmismofenómenopormuydébilesquesean,odetectardiferenciasaunqueseanmuypequeñas,
seránecesarioaumentarconsiderablementeeltamañodelamuestra.
Asimismo,otrasrazonesqueimplicanaumentareltamañoson:lanecesidadderecogerun
elevadacantidaddeinformación(muchosdatos)decadaelemento(paraciertastécnicasdeanálisis
estadísticopodemosnecesitarmultiplicarhastapor10elnúmerodedatosquesevanaobservaren
cadasujetoparaobtenereltamañomínimodemuestra),utilizarmétodosdemediciónquenosean
muy fiables, o alcanzar una muy elevada exactitud en los resultados. En cambio, a medida que el
tamañodelapoblaciónmarcocrece,elporcentajeamuestrearsiemprevasermenor.
No obstante, conviene comentar que el investigador (en especial, el novato) no debe de
obsesionarseconextraerobligatoriamentemuestrasmuygrandes,conlacreenciadequeellaslevan
a proporcionar mejores resultados. Para nada esto es así. Más bien, al contrario; la utilización de
muestrasdemasiadograndes,puedenllevarnosaconclusionesequivocadas.Lamentablemente,aún
noestamosendisposicióndecomprenderelporquédeestaafirmación,yellector/estudiantedebe
de esperar pacientemente a que llegue el momento adecuado para ello (que será a lo largo del
capítulo5deestemanual).Entodocaso,nodebemosolvidarlaafirmaciónyarealizadaenpáginas
anteriores, de que la Estadística extrae adecuadamente conclusiones para grandes conjuntos de
datos(lapoblación)desdeunapequeñacantidaddelosmismos(lamuestra).
Si el lector necesita una cifra de casos o individuos que le de cierta tranquilidad sobre la
adecuacióndeltamañomuestral,éstasepodríaestableceren30.Esdecirqueconmuestrastan
asequibles como son 30 sujetos, ya se pueden obtener resultados estadísticamente sólidos y
científicamenteinteresantes.Escierto,apesardeesto,quesiestamosendisposicióndeutilizarmás
elementos, en concreto más de 120 ó 150, el grado de confianza de nuestras conclusiones
aumentarásustancialmente.
4
Laencuestayotrosmétodosderecogidadedatos,secomentanmásadelanteenelTema3,apartado3.2(páginas53Ͳ54).
Al cálculo de cuál será el tamaño mínimo de que garantice estadísticamente un elevado
gradodeveracidadalasconclusionesdenuestrosanálisis,sededicaconcretamenteelapartado12.3
(Tema 12) en el Capítulo 4 del presente manual. Por tanto, una vez más, paciencia,… que todo
llegará.
Además de todo lo que acabamos de comentar es necesario que tengamos en cuenta que
unacosaeslamuestradeseadaodiseñada,queeslaquesedefineapriorialiniciodeltrabajo,y
otralamuestraobtenidaqueeslaquefinalmenteseconsigueenlaprácticayconcuyosdatosse
utilizanlastécnicasestadísticas.
Ello se debe a que no es raro que haya diferencias entre ambas, por ejemplo por causas
como:sujetosquenodevolvieronelcuestionariorellenado,participantesquenosepresentaronel
díaqueselescitó,medicionesuobservacionesquehayquedesechardebidoalasospecha,oala
evidencia,delapresenciadeciertoserrores,etc…
Si la pérdida de casos, no supera al 10% de la muestra diseñada, y si el de la muestra
obtenidaaúncumpleconnuestrosrequisitosprevios,nohayproblemaalgunoqueafecteanuestros
análisisposteriores.Encasocontrario,nosveríamosobligadosarepetirlatareadelmuestreo.
La moraleja de esta cuestión, es que una vez estimado el número mínimo del que
hablábamos arriba, siempre conviene extraer una cantidad mayor de participantes previendo la
posibilidaddepérdidadeunapartedelosmismos.
Para finalizar, un resumen gráfico de todos los conceptos claves comentados en este
apartado,sepuedeapreciarenelsiguientediagrama,dondesehatratadoderepresentarcómola
poblaciónmarcoestáincluidadentrodelapoblacióndiana,ycómolamuestradiseñada(dentrode
ellaestálaobtenida)setomasiempredelapoblaciónmarco:
Poblaciónobjetivo/diana(ámbitoalquesevanageneralizarlasconclusiones)
Poblaciónmarco(elementosrealesamuestrear)
Muestradiseñada
Muestraobtenida
El término muestreo que ya ha aparecido en el apartado anterior se define,
obviamente, como el procedimiento que se sigue para extraer muestras insesgadas de una
poblaciónmarcoconelobjetivodeconseguirquedichasmuestrasverdaderamenterepresentena
lapoblacióninferencial.
El problema es, precisamente, saber si la muestra diseñada, y la obtenida que finalmente
vamosautilizar,esrepresentativaonodelapoblación.Esrelativamentefrecuentequeelsesgode
unamuestraseproduzcaporqueelinvestigadorsedejallevarporsuspreferenciaspersonales,opor
lacomodidad,alahoradeseleccionarloselementosquelacomponen.
Porelcontrario,enlíneasgenerales,cabesuponerqueunamuestraesinsesgadasiparasu
construcciónempleamosunmétododemuestreoadecuado,obienalmenoselmejorquepodamos
utilizar dadas las circunstancias específicas de nuestro estudio. Sólo así, podremos decir que la
muestraesestadísticamenterepresentativadelapoblacióndiana.Obviamente,eltipodepoblación
aestudiartienequevermuchoenesto.Esmásfácil,porejemplo,tomarmuestrasdeuniversitarios
quedeadictosalacocaína;deahíelcomentarioanteriorsobrenuestrasituaciónespecífica.
Unavezcalculadoelnúmerodecasosdelamuestradeseada,engeneral,elprocedimiento
delmuestreodebeseguirestas3fases:
1ª) Definición de la población objeto del estudio y de la unidad de muestreo. Se denomina
unidaddemuestreoatodoslossubconjuntos,nosolapados(esdecir,sinintersección)que
cubrenlapoblacióncompleta.Normalmente,launidaddemuestrosuelecontener1único
elemento;peronopodemosolvidarquepodríaconteneramásde1(porejemplo:atodos
losmiembrosdeunamismafamilia).
2ª) Obtención del censo total de las unidades de muestreo que componen la población
marco (que podría redefinirse, entonces, sencillamente como el listado de unidades de
muestro).Silaunidaddemuestreocoincideconunúnicoelemento,elmarcoequivaleala
listacompletadeloselementosdelapoblación.
Elcensoseconsigueatravésdeorganismosoficiales(Ministerios,Ayuntamientos,Colegios
Oficiales,bancosdedatosdeHospitales,relacióndealumnosmatriculadosenlaSecretaría
de una Universidad,…) y no de lugares tan pintorescos como guías telefónicas o páginas
amarillas,internet,etc…Partirdeunlistadoincompletodeluniversoestadístico,esunade
las formas más habituales de sesgar una muestra, ya que no se garantiza que todos los
elementos de la población tengan la opción de ser muestreados. Una práctica,
relativamente común entre los investigadores, cuando no se puede acceder al censo
completo,consisteenaumentareltamañodemuestraparaquedeestamanerasepuedan
diluirloserroresqueestesesgoproduciría.
3ª) Seleccióndelamuestra(deltamañoestimadoapriori)utilizandolaTécnicadeMuestreo
queseamásadecuadaparacadacasoparticular.
TodaslasTécnicas,oMétodos,deMuestreoquetenemosanuestradisposición,sepueden
clasificar en 2 grandes bloques: Probabilísticos y NoͲprobabilísticos, según que la utilización de la
aleatoriedadenlaseleccióndeloselementosdelamuestraseintegreonoeneldiseñodelamisma.
Concretamente:
1. Se dice que el muestro es probabilístico cuando se conoce la probabilidad de que cada
individuo o elemento de la población esté incluido en una muestra, aunque esta
probabilidad no sea necesariamente la misma para todos ellos. De esta manera se
determina cuál es la probabilidad asociada a cada una de las posibles muestras que se
puedenformar.Losmuestreosprobabilísticosson,portanto,losúnicosquenospermiten
conocer el grado real de representatividad que tiene la muestra con respecto a su
universo, y por ello dota a las conclusiones de un grado de veracidad conocido, es decir
que lo que se observa en la muestra será cierto para la población con un determinado
margen de error. La causa que caracteriza a un muestreo como probabilístico es la
utilización de un procedimiento puramente aleatorio en la selección de los elementos
concretos que componen la muestra. Por esta razón, también es común denominarlos
comométodosaleatoriosdemuestreo.
2. Los muestreos no probabilísticos, son aquellos en que la probabilidad anteriormente
comentadaesdesconocida;porloqueelinvestigadortomalamuestraquelepareceque
es la más representativa o bien la que le es más asequible. Es decir, que ante la
imposibilidad de realizar un muestreo de tipo aleatorio, el investigador utiliza aquellos
elementosdelapoblaciónqueleresultanmásaccesibles,oquecumplenmejorconciertas
propiedadescaracterísticasdelapoblaciónobjeto.Apesardequeparezcaqueno,estono
implicaqueseaimposibleconseguirconellosmuestrasestadísticamenterepresentativas
de la población; lo que ocurre es que no tenemos información acerca de su grado de
representatividad.
A continuación vamos a explicar, brevemente, algunos de los métodos de muestreo que
estánincluidosenambosgrupos.
Los métodos probabilísticos, o aleatorios, más difundidos y utilizados en
investigaciónpsicológica,son:
- elmuestreoaleatoriosimple(conysin,reposición);
- elmuestreosistemático;
- elmuestreoestratificado(proporcionalydesproporcionado);
- yelmuestroporconglomerados.
Elquepodríamosdenominardiseñobásicoeselmétododemuestreoaleatoriosimpleque
consiste en seleccionar unidades de muestreo (que normalmente coincidirán con elementos,
aunqueyasabemosquenotieneporqueserasíobligatoriamente),deformaquecadamuestratenga
la misma oportunidad (o probabilidad) de ser la seleccionada. Decimos que es el diseño básico,
porque en todos los demás métodos, el procedimiento final de selección de las unidades de
muestreo(odeloselementos)eselcorrespondientealaleatoriosimple.
Veámosloconmásdetalle:
2.3.1. A) Muestreo aleatorio simple:
Abreviadamente conocido con las siglas: m.a.s., las iniciales del nombre completo.
Persiguecomoobjetivoquetodosloselementosdelapoblacióntenganlamismaprobabilidaddeser
seleccionadosyquecomoconsecuenciatodaslasmuestrasposiblestenganlamismaprobabilidadde
ocurrencia.Paraquesecumplaesta característica, esimprescindiblequecadaelemento individual
delapoblaciónseaextraídodeformacompletamentealeatoria.
Noobstante,latécnicaadmite2variantes:conysinreposición.Sedicequeelm.a.s.escon
reposición cuando cada elemento seleccionado es devuelto a la población antes de la siguiente
extracción. De esta manera todos los objetos unitarios de la muestra son elegidos
independientementeunosdeotrosytodosloscasosdelapoblaciónmantienenunaprobabilidad
contante (ͳȀ) de ser incluidos en la muestra. Esta forma de trabajo es imprescindible cuando la
poblaciónesfinitayelvalorNnoesdemasiadoelevado.
Por el contrario, decimos que el m.a.s. es sin reposición cuando los elementos que son
elegidos en cada extracción aleatoria no son devueltos a la población. Ello implica, que la
probabilidaddequeunobjetoconcretoseaseleccionadoyanoescontanteentodoelproceso,sino
queaumenta:1/N;1/N1;1/N2;1/N3;…;enconsecuencianopodemosdecirqueelresultadode
cadaextracciónseacompletamenteindependientedelaanterior,aunquesigasiendoaleatoria.Esta
formadeproceder,solosedebedeaplicarenpoblacionesinfinitas,oalmenostangrandesquecasi
podrían parecerlo, de manera que el valor de las probabilidades anteriores sea prácticamente
idéntico.
Lospasosqueintegranelprocedimientodeunm.a.s.,sonlossiguientes:
1º) Senumeranlosobjetosdelapoblaciónmarcodesdeͳhasta.
2º) Sedeterminaeltamañodelamuestraaextraer5.
Ya se ha dicho que esta cuestión se debe realizar siguiendo principalmente determinados
criteriosestadísticos,quecomoyacomentamosenlaspáginas37Ͳ38nopodemosestudiarhasta
elTema12,sibienesciertoquenoesextrañoquetambiéndependadelosrecursoshumanos,
técnicosyeconómicosdelpropioinvestigador.
3º) Seeligealazarunpuntodeiniciodentrodeunatabladenúmerosaleatorios.
La tabla en cuestión es un conjunto de dígitos (del 0 al 9), desordenados y que no muestran
ningúnpatrónderepeticiónniningunatendencia,quehansidogeneradosaleatoriamentedetal
maneraquetodosellosaparecenenproporcionessemejantes.Suobjetivoesconfigurarnúmeros
decarácterordinal,paralaidentificacióndelossujetosenellistadodelmarcocitadoenelpaso
1º.EnelAnexo1,incluidoalfinaldeestemanual,seencuentraunejemplodetabladenúmeros
aleatorios, de las muchas (todas distintas, pero todas igualmente válidas) que aparecen en
cualquierlibrodeEstadística.
5
LaproporcióndeltamañonconrespectoalNtotalseconocecomotasaofracciónocuotademuestreo(Ȁ);yhabitualmentese
expresacomoporcentaje(ȀuͳͲͲ)
4º) Endichatabla,seformancolumnasdenúmeroscontantosdígitoscomotengaeltamaño
de la población a muestrear (por ejemplo, haremos columnas de 5 en 5 dígitos, si el
númerodecasosfuese:ൌ͵ͺͷͶ).
5º) Apartirdelpuntodeinicio,ydesplazándoseporlatablademaneraquesevaleyendode
arribaabajohastaacabarlacolumnayposteriormentesiguiendoporlascolumnasincluidas
a su derecha, se admiten en la muestra a todos los números que aparezcan que sean
menores al valor de , obviamente descartando las repeticiones si las hubiera, y hasta
completarelnúmerodecasos()quecomponenlamuestra.
Elnúmeromásaltoqueseadmitiríasería,porlógica,eldeúltimocaso(queesiguala;enel
ejemplo anterior: ͵ͺͷͶ). Los valores mayores a que aparezcan al avanzar en la tabla se
desechan.
La muestra en sí, objeto de la futura observación y análisis, la componen los sujetos (o
elementos)aquienescorrespondenenellistadodelapoblaciónmarco,losnúmerosaleatoriosque
seacabandeobtenerporelprocedimientoexplicado.
2.3.1. B) Muestreo sistemático:
Estemétodo,esunaformadeabreviareltrabajoquetenemosquerealizarparaun
muestreoaleatoriosimple.Resultaespecialmenteinteresantecuandosedisponedeunapoblación
marco,finitaypreviamentelistada,yqueseencuentraordenadaconrespectoaunapropiedadde
los elementos que es intrascendente para los objetivos la investigación (por ejemplo, por orden
alfabético)peroquesigueunpatrónhomogéneo.
Laideaenlaquesebasaestemétodo,es:seleccionarparalamuestraa1decadaobjetos
siguiendointervalosnuméricosiguales.Esdecir,porejemplo,delapoblacióndereciénnacidosen
ciertoHospitalenelpasadotrimestre,sedecideseleccionarparalamuestraa1decada4neonatos;
elmuestreosistemáticofuncionademaneraquesisecomienza,aleatoriamente,enelquefueel2º
nacimientotraslafechadeiniciodelestudio,lossiguientesbebésincluidosenlamuestraserán:el6º
ennacer,el10º,el14º,el18º,……(enintervalosigualesde4en4),…hastacompletareldeseado.
Es evidente la ventaja que aporta este muestreo, especialmente en lo referente a la
economía de esfuerzo y a la rapidez para determinar qué elementos componen la muestra. Pero,
además, es muy posible que pueda aportar más y mejor información, sobre la población, que el
m.a.s.yaquetodamuestrasistemáticaseextiendeuniformementealolargodetodosloselementos
delapoblaciónmarco,cuestiónqueelmuestreopuramentealeatorionopuedegarantizar.
Lospasosdelprocedimientoparaunmuestreosistemático,sonlossiguientes:
1º) Senumeranlosobjetosdelapoblaciónmarcodesdeͳhasta.
Si estos objetos ya tuviesen asignada una numeración particular (por ejemplo, el número del
expedienteacadémicodelosalumnosdeestaUniversidad),comoquieraquenuestromarcono
tieneporqueconteneratodoslosobjetosdesdeelnº1,sereͲnumeranlosquenosinteresan,de
ͳaǡsiguiendoelmismoordenestablecidopordichanumeraciónprevia.
2º) Sedeterminaeltamañodelamuestraaextraer,delamismamaneraqueenelm.a.s.
3º) Enfuncióndeestetamañodemuestra,secalculaelintervalodemuestreo:ൌȀ6
6
Noconfundiresteintervalodemuestroconlatasademuestreodefinidaanteriormente,yaqueunaeslainversadelaotra:Ȁen
lugardeȀ.
4º) Como en el método anterior: en la tabla de números aleatorios se forman columnas de
números con tantos dígitos como tenga el tamaño de la población marco a muestrear
(porejemplo:columnasde4dígitossiൌͳͷʹͲ).
5º) Seeligealazar,endichatabla,unpuntodeinicio,talquesuvalorsea:d.
Porejemplo:si ൌ ͳͷʹͲysedecideuntamañoൌ,elintervalodemuestreoes ൌ Ȁ ൌ
ͳͷʹͲȀൌʹͲ,queindicaquesevaaseleccionara1decada20elementos.Enfuncióndeesto
el valor del punto de inicio () para la muestra debe ser igual o menor a 20. Supóngase,por
ejemplo,queelazarquisoquefuese7.
6º) Apartirdeesepuntodeinicio,seincluyenenlamuestratodoslosnúmerosmenoresa
(sinrepeticiones)hastacompletarlamuestra“saltando”deenelementos.Esdecir,que
sielprimerelementomuestreadoes:;el2ºes:Ǣel3ºesʹ;el4ºes͵;etc…;
hastaelúltimoquesería:ሺͳሻ.
Siguiendo con el ejemplo: para ൌ ͳͷʹͲ y ൌ ʹͲ, e imaginado que el azar determina que el
puntodeinicioseaelantescitadonúmero7(queseríayaelprimerodelamuestra);entoncesel
restodeobjetosdelamuestrasistemáticaseríanloscorrespondientesalosnúmeros:27,47,67,
87,…hastafinalizarenel1507.
Como ya se dijo en el m.a.s., la muestra en sí la componen los individuos a quienes
corresponden en el listado de la población marco, los números que se acaban de obtener por el
métodoexplicado.
2.3.1. C) Muestreo estratificado:
Hay situaciones en las que la población diana está formada por subpoblaciones,
capas,oestratos,claramentediferenciadosenfuncióndeotracaracterísticadeloselementosque
noestáentrelasvariablesobjetivodelainvestigación.Porejemplo,enunestudiosobreel“gradode
percepción nacionalista”, en la España actual las diferentes comunidades autónomas serían, sin
ningunaduda,estratosdiferenciados.
De lo anterior, se deduce que esta técnica de muestreo, se emplea con la imprescindible
condición de que la variabilidad (las diferencias) existentes entre las subpoblaciones sea grande
(estratos heterogéneos), mientras que dentro de ellas exista una relativa homogeneidad entre los
elementos.
Este método trata de conseguir una muestra que sea más eficaz que la obtenida con el
m.a.s.,quegaranticeunmayorgradoderepresentatividadyaquesevanaseleccionarelementosde
todosycadaunodelos
estratosdefinidosdentrodelapoblación.
Noobstanteunavezprecisadoslosestratos,paralaseleccióndelosindividuosconcretosse
empleaelm.a.s.segúnelprocesoexplicadoanteriormente,obteniendoasíunamuestradecadauno
deellos.Portantolamuestratotalserálasuma,launión,detodasestassubmuestras.Ladiferencia
clave,entonces,entreestemuestroyelanteriorm.a.s.radicaenlaformadeobtenerelnúmerode
elementos a muestrear, que no se hace de forma total, sino para cada uno de los estratos
independientemente.
Elnúmerodecasosaseleccionardecadaunodelos
estratos,puedeserproporcional,o
no,altamañoquetienelasubpoblacióndentrodelapoblaciónmarco.Porestacuestión,existendos
variantesdeestetipodemuestreo:elestratificadoproporcionalyelestratificadodesproporcionado.
1.Ͳ Muestreoestratificadoproporcional:queseutilizacuandosesabequelavariabilidadque
seobservadentrodecadaestratoessimilarentodosellos.
2.Ͳ Muestreoestratificadodesproporcionado:queseempleacuandohaypruebasdequela
variabilidad observada dentro de los estratos varía ostensiblemente de unos a otros; es
decirquehaysubpoblacionesquesonmuchomáshomogéneasqueotras.
En el 1º de ellos, como su propio nombre indica, el tamaño de cada una de las
submuestras se calcula proporcionalmente al del estrato (en lo que se denomina: afijación
proporcional). Es decir que la proporción, o porcentaje, de elementos muestreados de un
determinadoestratoeslamismaqueelpesoquetieneenlapoblación.Así,porejemplo,sila
comunidad de CastillaͲLeón tiene al 5,5% de los ciudadanos que están empadronados en
Españaa1deenerode2008,unamuestradeestasubpoblacióndeberíadecontenertambién
al5,5%deltamañodelamuestratotal.
Encambioenel2ºdelostiposcitados,lostamañosdecadaunadelassubmuestras
se desproporcionan (y a esto se le llama: afijación óptima) en función de la variabilidad
observada dentro de cada estrato. Es decir que partiendo del tamaño de la muestra que le
corresponderíaacadaestratosegúnelmétodoproporcionalanterior,serealizancorrecciones
enfuncióndelavariabilidad.Lalógicamediantelacualseestablecenlosvaloresdedichos,
es:quedeaquellosestratosquesonmáshomogéneos,altenersujetossemejantesentresí,
nosresultasuficienteextraermenossujetosdelosqueseríanapriorinecesarios;mientrasque
en los estratos que tengan una mayor dispersión, al existir mayores diferencias entre
individuos,tendremosqueseleccionarmássujetosdelosqueenunprincipioseríannecesarios
paratratarasídeconseguirqueentrenenlamuestraindividuosrepresentativosdetodotipoy
condición.Enelejemploanterior,suponiendoquesupiésemosqueelestratodeCastillaͲLeón
esmáshomogéneoquelamayoríadelasdemáscapaspoblacionales,semuestrearíanmenos
del5,5%deloscasoscitadoarriba.
En conclusión, que se extraen más casos (de los fijados proporcionalmente) de los
estratos más heterogéneos; mientras que se toman menos casos (de los calculados por
afijación proporcional) de los estratos más homogéneos. El cálculo se realiza mediante una
ecuaciónparalaqueenestosmomentosaúnnotenemossuficientesconocimientos.
Lospasosensí,delprocesodeextraccióndecasosenunmuestreoestratificado,sepueden
resumiren:
1º) Se determina el tamaño de la muestra total a extraer y se reparte en tamaños para
cada una de las
submuestras representativas de los estratos que previamente fueron
definidosporelinvestigador.
En este punto, es cuando se tiene en cuenta si se trata de un caso de muestreo proporcional
(afijaciónproporcional)odeunodesproporcionado(afijaciónóptima).
2º) Seprosigueexactamenteigualqueconelm.a.s.(conlospasosexplicadosenpáginas41y
42)hastacompletarelnúmerodecasosquesehaestimadonecesarioparacadaunadelas
submuestras.
Estaesunadelasrazonesporlaque,alcomienzodelapartado2.3.1.,sedecíaqueelm.a.s.esla
técnicabásicadetodoslosmétodosdemuestreoprobabilísticos.
Esmuysimilaralanteriormétodoestratificado,yportantofácildeconfundirconél,
dado que se emplea también cuando la población está divida en capas. Pero, la diferencia está en
queseconocequehayescasavariabilidadentreellas(homogeneidadentreestratos),alavezquese
existen grandes diferencias entre los elementos que las componen (heterogeneidad interna o
intraestrato).Así,queenciertamedida,esunasituacióncontrariaalaanterior.
Asimismoesunmétodoconuncoste,tantodetiempocomodedinero,muchomenorqueel
de un muestreo aleatorio estratificado ya que las unidades de muestreo no son los elementos
individuales,sinoquesonconjuntos(oconglomerados)deellos,esdecirgruposdeindividuos(por
ejemplo: familias, todos los trabajadores de una empresa, los alumnos de una misma clase, etc…).
Así, en lugar de considerar que la población marco la componen individuos, se considera que la
componenconglomeradosdelosquehayqueseleccionarunamuestraaleatoria.
También por similares razones de economía, es una técnica especialmente útil cuando los
objetosdelapoblaciónamuestrearseencuentranmuydistantesentresíyresultaríamuycostosoir
arecogersuinformaciónde1en1.
El procedimiento para desarrollar esta técnica también se basa en el muestreo aleatorio
simple;ysepuederesumirasí:
1º) Sedeterminaeltamaño delamuestratotalaextraer,delamismaformaqueenotros
métodosanteriores.
2º) Seespecificanlosconglomerados,apropiadamente,segúnelobjetivodelainvestigación.
Enocasioneslosconglomeradosseránnaturales(losmiembrosdeunamismafamilia).Pero,en
otroscasos,elinvestigadordebedeformarlosélmismorespetandosuheterogeneidadinterna,
esdecirquedebendecontenerobjetosdetodotipoycondición.Enestasituaciónelnúmerode
elementosquecontienecadaconglomeradosecalculaenfuncióndeltamañodelapoblación
marco y del número de individuos de la muestra total que se desea conseguir. Por ejemplo,
paraunapoblaciónde50.000objetos,sepuedenhacer1.000conglomeradosde50elementos
cada uno; pero también sepodríahacer:2.000 de 25,ó 5.000 de10,… ó500de100,etc… La
mejoropcióndependedelascaracterísticasparticularesdecadapoblación,yenespecialdesu
grado de variabilidad con respecto a las variables objetivo de la investigación. Concretar esta
cuestiónquedatotalmentefueradenuestroalcanceenestosmomentos.
3º) Senumeranlosconglomeradosdesdeͳhasta.
4º) Se seleccionan aleatoriamente tantos conglomerados como sean necesarios, utilizando
paraellolamismaformadeprocederdeunam.a.s.
Paraentenderbienesteúltimopaso,esnecesariosaberytenerencuenta,quelamuestrafinalla
componenlasuma(launión)detodosloselementosincluidosencadaconglomeradoextraído;
es decir, que siguiendo con el ejemplo anterior, si el total fuese de 300 casos, se podría
conseguircon6conglomeradosdelosquetienen50objetos,perotambién:con12de25cada
uno,ocon30delosde10,…,ocon3delosde100elementos,etc…
Paraterminarconesteapartado,hayquedecirqueaúnexistenmásmétodosdemuestreo
decortepuramentealeatorio,einclusoquedeloscitadosquedanmuchascuestionesporcomentar,
peroqueenestaspáginassolosepretendíadarunaspinceladasdeloquesuponeelmuestreocomo
puntodearranquedelasinvestigacionesconmetodologíaestadística.
Los métodos de muestreo de tipo no probabilístico (a lo que también
podríamosllamar“noaleatorios”)másconocidos,son:
- elmuestreoporconveniencia;
- elmuestreointencionado;
- elmuestreoporcuotas;
- elmuestroencadena;
- yelmuestreovoluntario.
2.3.2. A) Muestreo por conveniencia:
Se denomina así al muestreo en el que se seleccionan a los casos (elementos o
individuos)porsuaccesibilidad,disponibilidady/oadecuaciónalobjetivodelestudio.Porejemplo:
losalumnosdenuestrapropiaclase,elpúblicoqueacudeaunespectáculoundíadeterminado,la
gentequeestáenunlugarconcretoyaunahoraexacta,etc…
Aunque este procedimiento facilite mucho la tarea del investigador, no hay una evidencia
sólida de que la muestra sea representativa (o insesgada) de la población. Esto no significa que
nuestrosresultadosnovayanaserútiles,sinoquedebemosdetenermuchaprecauciónalahorade
generalizarlos.Porellohayquecuidarquelossujetosqueelegimosseanlomásparecidosposiblea
losdelapoblación,oalmenosaunagranpartedeellos.
2.3.2. B) Muestreo intencionado:
También conocido como muestreo de juicios, tiene como objetivo fundamental
seleccionar a los elementos que más información nos proporcionarán en función del conocimiento
quetieneelinvestigadorsobrelapoblaciónobjetivoydeloquesepretendeestudiardeella.
Portantolaopiniónoelconsejodeotrosprofesionalespuedenserimprescindiblesparala
eleccióndeloscasosquemejorrepresentenalapoblación.Así,porejemplo,parainvestigarsobre
las condiciones de trabajo en los hospitales psiquiátricos de España, será preferible muestrear de
forma intencionada a trabajadores que lleven varios años en el mismo centro (y no a recién
ingresados)yencentrosquelleventambiénvariosañosenfuncionamiento(ynolosrecientemente
abiertos),porloquelapoblaciónmarconoestaríacompuestaportodoslosprofesionalesdetodos
loshospitales.
2.3.2. C) Muestreo por cuotas:
Estemétodoseempleacuandoesposibley/onecesariofijarparalacomposicióndel
delamuestratotal,porcentajesdeelementosenfuncióndeciertascaracterísticasdelosmismos.
Porejemplo,establecercuotasdemuestreoporcaracterísticasdelossujetoscomo:sexo,edad,raza,
niveleducativo,lugarderesidencia,etc…
Es especialmente interesante cuando en la población se observa que estas características se
presentan en tasas muy distintas; por ejemplo, si la población diana fuese la de estudiantes de
Psicología,enEspañaactualmentealrededordeun80%delosmatriculadossonmujeres,demanera
queunmuestreopuramentealeatorionogarantizaríaqueenlamuestrasetuvieseentornoaese
80% de mujeres. En este ejemplo, las cuotas establecerían que hay que seleccionar a un 80% de
mujeresyun20%dehombres.
Es interesante comentar la semejanza entre éste método y el muestreo estratificado
(probabilístico),yaquesepodríanconsiderarestratosalascaracterísticasquejustificanlaexistencia
decuotas(elsexo,enelejemploanterior).Ladiferenciaentreambosestáenelusodealeatoriedad,
ono,enelmomentodeextraerloselementosconcretosqueseránincluidosenlamuestra.
2.3.2. D) Muestreo en cadena:
Tambiéndenominadocomomuestreodeboladenieve.Precisamenteelsímildela
boladenievequecreceycrecesobresímismacuandocaeporlaladeradelamontaña,sirvepara
explicarsuutilidad.
Enocasionesloscasosquecomponenlapoblaciónobjetosondifícilesdelocalizar,porloque
la población marco es muy reducida o inaccesible. Por ejemplo: drogodependientes, delincuentes,
afectados por un determinado desastre natural, o por una enfermedad socialmente no aceptada,
etc… En estos casos, éste método en cadena o bola de nieve es muy útil, ya que el procedimiento
consiste en identificar el primer caso y que éste nos lleve al segundo, y él al tercero,… y así
sucesivamente.
2.3.2. E) Muestreo voluntario:
Comosupropionombreindica,correspondeaaquellasmuestrasquesecomponen
deindividuosqueacudenvoluntariamentealestudio.
Estaesunasituacióndondeesmuyfácilobtenermuestrassesgadas,yaquelosvoluntarios
suelensermuydistintosdelossujetosnoͲvoluntarios.Habitualmente,losparticipantesvoluntarios
en una investigación son más inteligentes, más sociales, de un nivel cultural más elevado, más
extrovertidos,mássolidarios,etc…porloquenospuedenllevaraconclusionesmuydiferentesdelas
quesehabríanobtenidomedianteunmuestreoprobabilísticooaleatorio.
Puedeserútil,enfasesinicialesdeloqueseráunagraninvestigaciónposterior,comomedio
decomprobacióndecuestionescomo:elcorrectofuncionamientodelosinstrumentosdemedida,o
delcualquierotroaparatoquesevayaautilizar,laadecuacióndelascondicionesdeobservacióne
intervenciónsobrelossujetos,etc…
Como ya se ha comentado anteriormente, explicar absolutamente todas las cuestiones
relacionadasconelusodelaEstadísticanecesitaríadeunaenciclopediamásquedeunmanual.El
quetieneellectorensusmanosestádirigidomáshacialaelección,elusoylainterpretacióndelas
técnicasdeanálisisestadísticoquehaciaotrascuestionescomopuedeserprecisamenteelmuestreo.
Para este tema, como para otros, al final del libro se incluye una bibliografía recomendada que es
muynecesariaparacompletarlaformacióndelestudiante.
Llegados a este punto, y tras conocer los conceptos de población, muestra y métodos de
muestreo,yasólonosquedacomentarotrosdos(parámetroyestadístico)convistasallegar,¡alfin!,
aladefiniciónformal,ycompleta,delaEstadística.Vamosconellos.
Losrelaciónexistenteentrelosconceptosdeparámetroyestadístico,tiene
ungranparalelismoconlaquesehaexplicadoentrepoblaciónymuestra.
Enconcreto:
Se denomina parámetro, en general, a todo valor numérico que se utiliza
como una propiedad descriptiva de la población. Es decir, que los parámetros
describencómosecomportaelcolectivodeelementosdelaspoblacionesenaquellas
variablesquemotivanlainvestigación.
mientrasque:
Es decir, que el parámetro es la población, lo mismo que el estadístico a la muestra: los
parámetros describen poblaciones de la misma manera que los estadísticos lo hacen con las
muestras.
Esimportanteresaltarelhechodequetantounocomootrosonun“indicadorcolectivo”,es
decirquenosproporcionanunainformacióngeneraldetodosloscasosquecomponenalapoblación
oalamuestra,ynodecadaunodeellosdeformaindividual.
Desdeelpuntodevistasimbólicoconvieneadelantarya,quelosparámetrosserepresentan
por letras griegas tales como: P, V, S, etc…, mientras que los estadísticos se representan con sus
ഥ,,,…)dondecomoseve,elconocidosímbolo
equivalenteslatinas( ഥ (querepresentaalamedia)
parece casualmente ser una excepción de esta regla, aunque en realidad no lo es tanto, ya que el
términomediatienecomoletrainicialla“m”(equivalentelatinadela“mu”griega).
Paraelcálculodecualquierestadísticosimplementeseprecisalainformaciónparticularde
loscasoscontenidosenlamuestrautilizada.Encambio,obviamentelayacomentadaimposibilidad
detrabajarconlatotalidaddeloselementosdelapoblación(cuestiónquejustificóelmuestreo)
impidealinvestigadorelaccesodirectoalosparámetrosparacalcularlosdelamismamaneraque
haríamos con un estadístico. Por esta razón, de un parámetro decimos que solamente puede ser
estimado,pronosticado,deducido,…esdecir:inferido.
Dichodeotramanera,losparámetrossonvalorespoblacionalesdesconocidosqueseinfieren
desde los valores de sus correspondientes estadísticos calculados en muestras de la población de
ഥ)permiteinferirlamedialapoblación(P),etc…
estudio;porejemplo:lamediadelamuestra(
Yprecisamente,éstaesunadelastareasbásicasdelaEstadísticacuyadefiniciónformalya
estamosencondicionesdeabordar;cuestiónqueharemosinmediatamente.
Según se dijo en el Tema 1 (en la página 28 para más señas) el Análisis
Estadístico de datos o Estadística Aplicada, se estructura como un gran conjunto de técnicas que
permiten al investigador resumir, organizar y trasmitir información, así como realizar
generalizacionesoextrapolacionesdesdeunconjuntopequeñodeobjetoshastaunconjuntomayor.
De manera que cuando este análisis se aplica a contextos psicológicos se logra tomar decisiones
acercadelasleyesquerigenlaconductahumana.
Pues bien, para ello estas técnicas de análisis citadas se organizan en dos grandes bloques
denominados:EstadísticaDescriptivayEstadísticaInferencialcuyonexodeunióneslaProbabilidad.
LaEstadísticaDescriptiva,eslapartedelaEstadísticaquerealizalastareas
de:recogida,ordenación,simplificación,representaciónyanálisisdelainformación
contenida en las muestras. Es decir y como su propio nombre indica, describe de
formagloballaconductaobservadaenlascaracterísticasdeinterésdelossujetosque
componenlamuestra.
Enconsecuencia,elresultadodecualquieradelastécnicasyherramientasdeanálisisdeesta
EstadísticaDescriptivasonlosanteriormentedefinidosestadísticos.
Porsuparte:
La Estadística Inferencial es el conjunto de técnicas que nos permiten
generalizar(inferir,inducir)laspropiedadesdescriptivasdelapoblaciónapartirde
la anterior información obtenida en la muestra; o lo que es lo mismo: extraer
conclusiones acerca de los parámetros partiendo de sus correspondientes
estadísticos.
ParallevaracaboestaúltimatareadelaEstadísticaesnecesarialautilizacióndelCálculode
Probabilidades, él es el aparato matemático, el mecanismo, en el que se apoya la Estadística
Inferencial para dar el salto desde lo observado empíricamente (que son los estadísticos de las
muestras)hacialodesconocido(quesonlosparámetrosdelaspoblaciones);estoes,quenoslleva
desdeloparticularhastalogeneral,queesunaintenciónqueyaseexpusoantesdeformareiterada.
Por esta razón, como estudiaremos más adelante con mucho más detalle, todas nuestras
conclusiones estadísticas están siempre sometidas a una probabilidad indicativa de su grado de
veracidad,cuestiónéstaquenoesajenaamuchasotrascienciasyqueparanadapuedeconsiderarse
queinvalidasutrabajo.Dehecho,laCiencianopuedeestarseguraal100%dequeaquellasLeyes
que enuncia son universales e inmutables; numerosos son los casos en que posteriores
investigaciones han contradicho lo que antes se suponía verdadero. Por tanto, que la Estadística
concluya indicando la probabilidad de error (o de acierto) que acompaña a dicha conclusión, nos
pareceanuestrojuicioinclusounaposturaprudente,améndeserunmétodoparticulardetrabajo.
En realidad la Estadística no opera de forma muy diferente a como lo hace, por ejemplo, el
meteorólogo cuando realiza sus predicciones diarias del tiempo que hará en los próximos días, la
diferencia es que éste último no suele decir (ni en el telediario, ni el periódico) cuánto vale la
probabilidaddequelluevaodequesalgaelsolaunquesihableasí(“riesgodeprecipitacionesen…”),
mientrasqueenlosinformesestadísticossiempreseindicaestevalor.Portodoesto,esfrecuente
decirqueen“estadísticanuncasepuedeniafirmar,ninegar,nada,contotalseguridad”;oaquello
de mi primer profesor (ver página 32): “El ser humano, solamente puede estar seguro de un único
hecho:desupropiamuerte;elrestoesEstadística”.
Enresumen,laEstadísticasepodríadefinircomolaCienciaqueaplicatodoelconjuntode
métodosyherramientasnecesariaspara……,puesparaeldesarrollocompletodeloqueapareceen
elsiguienteesquemadondeseintegranlatotalidaddelosconceptosclavesdefinidosalolargode
estetema:
1º
POBLACIÓN
MÉTODOSDEMUESTREO MUESTRA
DESCRIPTIVA
ESTADÍSTICA
2º
probabilidad
Parámetro
describeala ESTADÍSTICAINFERENCIAL Estadístico
población describeala
3º muestra
Tema 3
LA RECOGIDA DE DATOS,
PREVIA AL
ANÁLISIS ESTADÍSTICO
3.1.ͲLaMediciónenPsicología
3.2.ͲInstrumentosdemedidapsicológicos
3.3.ͲAtributos,constructosyvariables
3.4.ͲClasificacióndelasvariablessegúneltipodedatos
3.5.ͲClasificacióndelasvariablessegúnsupapelenlainvestigación
Al comienzo del tema anterior (ver página 34) se dijo que la pregunta: ¿a
quiénvamosainvestigar?,serespondíaconlosconceptosdepoblaciónymuestra.Puesbien,otra
pregunta que nos debemos de plantear cuando vamos a realizar un estudio científico, es: ¿qué
vamosainvestigar?...ylarespuestanosllevaadefinirunnuevoconceptoclave:lasvariables.
El término variable ya ha aparecido varias veces en las páginas anteriores, de hecho ya se
adelantó(enpágina24)quelaideacoloquialdequeunavariableesalgoquevaría,nosservíaporel
momento.
Además,desdelaperspectivadelaaplicacióndelaEstadísticaalaPsicología,reiteradamente
hemosvenidohablandodeestudiar,odescribir,característicasdeinteréscientíficooconductasde
los elementos que componen la población; es decir que estábamos haciendo referencia a la
observacióndealguna(s)particularidad(es)propia(s)delossujetos.Enconsecuencia,implícitamente
estábamos adelantando la necesidad de medir los denominados rasgos psicológicos que son
inherentesalserhumano.
La medición es un proceso imprescindible en toda ciencia empírica. Solamente cuando se
puedeexpresaralgomediantenúmeros,podremosacercarnosasuconocimiento.Porellosesuele
decir que observación y medición son las únicas vías de acceso al conocimiento. Y la Psicología no
puede ser menos. Entre las tareas habituales de los psicólogos, están la cuantificación y la
clasificación de las personas en cuanto a sus características individuales. En otras ciencias afines
relacionadasconelserhumano(Medicina,Sociología,Pedagogía…)ocurreotrotanto.
La medición nos facilita una información objetiva de los individuos, unos datos numéricos
que nos permiten utilizar herramientas basadas en las Matemáticas (la Estadística) y en los que
apoyarnos para tomar decisiones acerca de los sujetos. Además, la utilización de una medición
objetivaposibilitalacomunicacióndelosresultadosobtenidosenlasinvestigacionesconlaevidente
importanciaqueconllevalatransmisiónuniversaldelosconocimientoscientíficos.
¿Es posible medir en Psicología? Es obvio, que se pueden medir utilizando números
características del ser humano como el rendimiento académico, las horas de estudio, la edad, la
estatura,latasacardiacaoelpeso.Pero,¿cómomedirlasensación(deagrado,desagrado,dolor,o
lo que sea) que le produce a una persona un sonido emitido a un determinado volumen?, porque
podemosmedirlaintensidaddelvolumenensí(porejemploconelaparatoespecificoqueevalúael
nivelderuidoendecibelios),pero¿cómomedirlasensaciónqueproduce,queesunprocesointerno
del sujeto y por ello no directamente observable?… he ahí la cuestión. Y de la misma manera, nos
planteamos: ¿podemos medir otros rasgos psicológicos como la ansiedad, la depresión, la
inteligenciaoelestrés?,…porponerunospocosejemplos.
Esta es la tarea que acometió en su momento (entre la segunda mitad del siglo XIX y la
primeramitaddelsigloXX)laramadelaPsicologíadenominadaPsicometría(verpágina26).
Ylarespuestaalaspreguntasqueacabamosdeformulararriba,esindiscutiblementequesí,
quesíesposiblemedirenPsicología.Ynosoloesposible,sinoquecomosepusodemanifiestoal
comienzo, también es necesario e indispensable. De hecho el advenimiento de la Psicología como
Ciencia fue posible sólo cuando demostró que es posible medir lo psicológico de forma similar a
como se mide en otras Ciencias. Objetividad y cuantificación son los pilares básicos en los que se
asientanlasbasesdelamediciónenlasCC.HH.Noobstante,tendremosquedejarlafundamentación
teóricadelcómosemideenPsicología(decómoseconsiguedichaobjetividadycuantificación)para
unposteriorestudiodelaPsicometría,yaquenoolvidemosqueésteesunmanualdeEstadística;y
aunque ambas materias están muy íntimamente relacionadas, ya está dicho que la coherencia del
aprendizaje exige que empecemos por las herramientas estadísticas antes de acometer las
psicométricas.Portanto,hagamosenestemomentounactodefeparacreerquelamedidadelo
psicológicoestanposiblecomolamedicióndelofísico.
Conviene asegurarles a los escépticos, que la medición psicológica permite valorar la
conductahumanaentodassusmanifestacionesmedianteprocesosquenosonajenosalosquese
emplean en otras ciencias. No obstante, estos procesos no son iguales para todo tipo de rasgos
psicológicos, puesto que la naturaleza de cada uno de ellos implica que deban ser evaluados de
diferentemanera.
Cada Ciencia tiene sus propios instrumentos de medida: físicos, químicos,
ingenieros,biólogos,farmacéuticos,médicos,…sabenperfectamentecuálessonycómousarlos.En
lascienciasrelacionadasconelserhumano,psicólogos,pedagogoseinclusosociólogoscompartimos
bastantesinstrumentos.
Unavezexpuestalaposibilidad,ylanecesidad,demedirenlasCienciasHumanas,vamosa
realizar una rápida revisión de los diferentes procedimientos que tenemos de conseguir nuestros
datos,yaquenoolvidemosquenohayinvestigaciónsinlapertinenterecogidadeinformación.
EnPsicologíadisponemosdeunagrancantidadyvariedaddetécnicasderecogidadedatos,
cadaunadeellasconsusventajasysusconvenientes,perotodasellasasentadassobrelabasede
dospropiedades:fiabilidadyvalidez.Sudefinicióndetalladaysuestudiocompletononoscompete
enestemomentopuespertenecealcampodelayacitadaPsicometría.Yaunqueseráallídondelas
abordaremos con toda la profundidad que merecen, vamos a adelantar ahora la idea básica que
sostienecadaunadeellas:
Lafiabilidadeslaconsistenciadelamedición,esdecirelgradodeprecisióno
exactitudquesehalogradoenlaobtencióndelamedida;yserefleja,portanto,muy
bien si al repetir la misma medición en condiciones idénticas obtenemos resultados
similares.
y
Lavalidezeselgradoenquelasconclusionesqueextraigamosapartirdela
mediciónrealizadasonútilesyadecuadasalpropósitoparaelqueserealizólamisma
debidoalqueelinstrumentomiderealmenteaquelloquesepretendíamedir.
Fiabilidadyvalidezsonenrealidadpropiedadesmuchomáscomplejasdeloqueacabamos
deenunciar,perovayaporadelantadoquetodoslosinstrumentosdemediciónpsicológicosquese
han desarrollado en los últimos 60Ͳ70 años, cumplen sobradamente con los criterios mínimos de
fiabilidadyvalidezqueloslegitimaránparasuutilizacióncientífica,tantoparaelusoprofesionaldel
psicólogo,comoparalapurainvestigación.
Debido a razones obvias de espacio, es imposible abordar con detalle todas las formas, o
técnicas,quetenemosanuestradisposiciónparalarecogidadedatos.Además,tampocoesalgode
loquesedebadeocuparenprofundidadunmanualdeEstadística.
Porellonosvamosalimitarahacerunlistadodelasprincipales:
9 Testparalamedidaderasgoscognitivos(inteligencia,rendimiento,aptitud,etc.);
9 Inventariosparalamedidaderasgosnocognitivos(personalidad,actitudes,etc.);
9 Cuestionariosparaobtenerunainformaciónmásgeneral;
9 Escalasparaordenaraloselementossegúnunadeterminadacaracterística;
9 Entrevistasestructuradas(conpreguntascerradas);
9 Observacionessistematizadas(conindicaciónconcretadequéycómoobservar);
9 EncuestasdesarrolladasadͲhocparaelobjetivodelainvestigación;
9 además de cualquier otro aparato de medida compartido con muchas otras Ciencias,
comoson:cronómetros,termómetros,metros,etc..;
9 y por último, instrumentos específicos de otras Ciencias que nos puedan ser útiles en
funcióndelasnecesidadesdelexperimentador.
No obstante, hay que advertir que la terminología utilizada por diversos autores no
diferenciaentre:test,inventariosycuestionarios,yenmuchoscasosesmássimpleutilizareltérmino
pruebapsicológica,queademásesmáscastellano,paraenglobarlosatodosellos.
Lo que sí que es importante decir, para terminar, es que todas estas técnicas permiten
convertir manifestaciones conductuales de las personas en un número que sea manejable por las
diversasherramientasytécnicasestadísticas.
Tantoenlapágina24comohacemuypocoenla52,haquedadodichoque
habíamuchoquematizarsobreelconceptocoloquialdeltérminovariableyplantearunadefinición
másformaldesdeelámbitodelaEstadística.Hallegadoelmomentoadecuadoparaello.
Es muy usual leer y escuchar, especialmente en los contextos psicológicos, como los
términos: atributo, constructo y variable, se utilizan de forma sinónima o equivalente. Y no es
exactamenteasí,aunquelaconfusiónseamuylógica.
Vamosaverlocondetalle.
Asíporejemplo,ysegúnestadefinición:
Sonatributos: ysusmodalidadesrespectivas,serían:
Sexo Varón;Mujer.
Provincia(española)denacimiento Salamanca;Segovia;Madrid;Málaga,......
Intencióndevoto PP;PSOE;...(losdistintospartidospolíticos).
Rendimientoacadémico Comoej.:suspenso;aprobado;notable;...
Edad Valoresnuméricosaños.
Estatura Valoresnuméricosencms.
Peso ValoresnuméricosenKgs.
Ritmocardiaco Pulsacionesporminuto,desde0hasta...
Temperaturaambiental ValoresnuméricosenºC(negativosypositivos)
LógicamenteenPsicologíalosatributosdeinteréscientíficosonaquellosrasgospsicológicos
relacionadosconlaconductadelserhumanoensusdiferentesmanifestaciones,comopuedenser:la
inteligencia,elestrés,lamemoria,laansiedad,losdiferentestrastornosmentales,lasactitudes,las
aptitudes, etc...; y en ellos, las modalidades que contengan están en función de cuál haya sido el
instrumentodemedición(test,cuestionario,etc...,previamentedesarrolladoporlaPsicometría)que
sehayautilizadoparalaobservación.
Los rasgos o atributos psicológicos son en su mayoría latentes, es decir que no son
directamente observables puesto que se mueven en un plano meramente teórico, por lo que
solemosreferirnosaellosconeltérminodeconstructo.Másconcretamente:
Un constructo es el cuerpo teórico de un atributo, que conceptualmente
define cualidades que no son observables o detectables empíricamente en las
personas.
Esto pone de manifiesto la necesidad de realizar una correspondencia entre este plano
teórico(representadoporelatributo,omásexactamenteporsuconstructo)yunplanoempírico(las
manifestaciones, eventos, indicadores y objetos del constructo, a los que se les suele llamar
dominio);quienasuvez,posteriormenteseráoperativizado,oformalizado,enunplanomatemático
mediantenúmerosquepuedanseryamanejadosporlaEstadística.
Yescomoeslógicoysededucedeloanterior,laEstadísticanopuedetrabajardirectamente
sobrelasmodalidadesobservadasenlosatributosoconstructosteóricos,sinoquelotienequehacer
sobre la representación numérica (que en definitiva no es más que una codificación simbólica) de
éstas.Yésteeselprocedimientodemedicióndelopsicológicodelquehablábamosantes.
Específicamente, llamamos Medición al proceso de atribución de números a las distintas
modalidadesdeunatributosiguiendociertasreglasdecorrespondenciaquevienenpreestablecidas
porlasdenominadasescalasdemedida.
Las Escalas de Medida se pueden definir, entonces, como un conjunto de
modalidadesdistintas(excluyentesyexhaustivas)ydenúmerosdistintos,queestán
relacionados biunívocamente; es decir, que a cada modalidad le corresponde un
número y nada más que uno, que ya no podrá utilizarse para representar a otras
modalidadesdeunmismoatributo.
Así por ejemplo, si a la modalidad “varón” del atributo “sexo” le asignamos el número 1,
todoslossujetosqueposeanestamodalidadquedanrepresentados,siempre,poresteúnicovalor,
queademás,yanosepuedeemplearpararepresentaraningunaotramodalidaddelmismoatributo,
perosí,evidentemente,paraotrosatributos.
Por ello otra definición más simple de Escalas de Medida es la que afirma que es: el
instrumento metodológicoquepermiteasignarnúmerosalos sujetosparaindicarsusdiferencias
enelgrado(formaomagnitud)deposesióndeunatributo.
Intuitivamentesabemosquevariableesalgoquevaríayquecomoquieraquelaconducta
delserhumanoesensívariable,deducimosqueelestudiodelosconstructospsicológicosrequiere
delautilizacióndevariables.
Puesbien,enconcreto:
Denominamos Variable, al conjunto resultante de la asignación de valores
numéricosatodaslasmodalidadesdeunatributo,esdecirqueeslatotalidaddelos
códigos(losnúmeros)creadospararepresentaradichoatributo.
Por tanto, y siguiendo con el mismo ejemplo de arriba, no sería estrictamente correcto
hablar de la “variable sexo” (el sexo con sus modalidades varón y mujer, es una característica,
atributo o constructo), ya que la variable, es el conjunto de números (por ejemplo: 1 y 2) que
representan a este atributo. Lo que ocurre es que con frecuencia (de hecho casi siempre) las
variables reciben nombres o etiquetas identificativas que son iguales o muy semejantes al nombre
delatributoquerepresentan,loquecontribuyealaconfusióndeconceptos.
Endefinitiva,quedebemostenermuyclaroqueunacosaeselconstructoteóricooatributo
que se pretende medir y otra es la variable matemática que se crea para ello. Por tanto, en el
ejemplo: existe un constructo teórico latente llamado sexo que está definido por una serie de
indicadores o manifestaciones observables (el dominio), y que va a ser representado en el plano
matemáticoporunavariable(losnúmeros1y2)quetambiénsellamasexo.
Elsiguienteesquema,representaabreviadamentelasrelacionesqueacabamosdecomentar,
yquedesembocanenelconceptoformaldevariable:
PlanoTEÓRICO PlanoEMPÍRICO PlanoMATEMÁTICO
Conceptossubyacentes Conjuntodeindicadoresy Operativizacióndelos
inobservables manifestaciones indicadoresy
conductualesobservables manifestaciones
CONSTRUCTO(Atributo) DOMINIO VARIABLE(números)
A modo de resumen simplificador, basta con que no se olvide que cada atributo teórico o
característica observable en una persona va a ser necesariamente representada (o codificada)
medianteunavariablenuméricasiguiendociertasreglasestablecidasporlasescalasdemedida.Es
decir:
ATRIBUTO
EscalasdeMEDIDA(medición)
VARIABLE
(Constructo)
Yquelasvariables,sonsiempreelconjuntodenúmerosresultantesdelprocesodemedición
uobservacióndelosconstructos.
Quedaporcomentarqueacadaunodeestosnúmeros,ovaloresqueformanpartedeuna
variable,yconlosqueseidentifica:bienelrendimientooniveldeunsujetoenelatributo,obienla
pertenenciadelmismoaunamodalidadconcreta,selesueledenominardentrodelaterminología
característica de la aplicación de la Estadística al campo psicológico como: Puntuación Directa o
también Categoría, según el tipo de variable (como veremos en el próximo apartado) y se la
representaconunaletramayúsculaquegeneralmenteeselsímbolo: (osimplemente:).
Segúnesto,acadaindividuoselerepresentaconunapuntuacióndirectaentodosycada
uno de los rasgos que se le miden. El valor de esta puntuación directa o categoría, es el dato que
“directamente”,deformaempírica,seobtieneapartirdelautilizacióndelinstrumentodemedida
utilizado.
Podemosdecirentoncesque:
Undato,escualquierinformaciónquesepuedateneracercadeunelemento
estadístico (una persona) en todas aquellas variables que se estén observando en
funcióndelobjetivoplanteadoporlainvestigación.
Estoimplicaque,encualquierestudiocientífico,podemosdisponerdedatos:
-
socioͲdemográficos,como:sexo,edad,estadocivil,niveleducacional,raza,hábitat,…
-
psicológicos,como:nivelintelectual,aptitudes,ansiedad,depresión,estrés,…
-
médicos,como:enfermedades,tratamientos,intervenciones,adicciones,…
-
etc…
Y sobre los diferentes tipos de datos que podemos encontrarnos desde una perspectiva
específicamenteestadística,vamosahablardeinmediato.
1) nominal;
2) ordinal;
3) deintervalos;
4) derazónocociente; +
ordenadas de menor a mayor capacidad de medida o potencia. Por eso se dice que en dicha
clasificación,cadatipodeescalacumpletodaslaspropiedadesmétricasdelasanterioreseincorpora
unanuevapropiedaddiferenciadorayespecífica.
Asimismo,seconsideraalasescalasnominalyordinalcomonivelesdébilesdemedición,ya
quelosvaloresnuméricosquelasintegrannopuedenseroperadosaritméticamente(nisumados,ni
restados,nimultiplicados,etc...);mientrasquelasescalasdeintervaloyderazónsonnivelesfuertes
de medida, precisamente porque sus valores numéricos sí admiten tales operaciones cuando sean
necesarias.Enestosdosnivelesfuertesesdondealacitadaantesselallamacontodapropiedad
puntuación directa; y por tanto, es en los niveles débiles donde se debe de emplear para más
correccióneltérminocategoría.
Acontinuaciónestudiaremosestas4escalasdemedidaconmuchomásdetalle:
1.Ͳ Escalanominal(primerescalóndelniveldébil)
La escala nominal, es un conjunto exhaustivo de categorías excluyentes
representadas mediante cualquier código, que permiten clasificar a los sujetos y
diferenciarlosaunosdeotrossegúncuáleslamodalidaddelatributoquepresentan.
Aunque en principio, según esta definición cabría usar cualquier tipo de código, después de
todolocomentadoenlaspáginasanteriores,lomáscómodoylógicoseríautilizarsiemprenúmeros.
Por tanto la escala nominal, actúa simplemente asignando números distintos a las distintas
modalidadesdeunatributo.Porejemplo:utilizarunaescalanominalpararepresentarelsexodelas
personasconsistiríaenrepresentaratodoslosvaronesconun1yatodaslasmujeresconun2taly
como se comentó antes; así de simple. El resultado es una variable denominada “sexo” (como el
atributo)quecontienealconjuntodevalores:{1;2}.
La característica especial de este tipo de escala de medida, es que estos números solo
distinguenentrecategoríasysonasignadosdeformatotalmentearbitraria;portanto,enestenivel
demediciónsóloseestablecenrelacionesde“pertenencia / noͲpertenencia”entrelossujetosylas
categorías (números) de la escala, lo que nos permite formular exclusivamente relaciones de
“igualdad/desigualdad”entreunossujetosyotros.
Enconsecuencia,estamosanteelniveldemedidamásdébilyaquelosnúmerosnotienenmás
significado que el de una “etiqueta diferenciadora”; esto justifica lo dicho antes sobre la
imposibilidadderealizaroperacionesaritméticasconestosnúmeros:lasumadedosvalores1(dos
varones)noesigualalvalor2(unamujer).
La escala nominal permanece invariable en sus propiedades ante cualquier tipo de
transformación que se rija por la norma de que números iguales de la escala original se hagan
corresponder con números iguales en la nueva escala, y que números distintos se hagan
corresponder también con números distintos. Es decir que si hemos creado una escala nominal
compuestaporlosvalores{1,2,3},eslícitacualquiertransformaciónqueutiliceotros3números
distintosentresí,ytalquehagaquecadaunodelosvaloresoriginalessecorrespondansiemprecon
unmismovalordelanuevaescala.
Convieneaclararquesegúnlaspropiedadescitadassonejemplosdeescalasnominales,todos
aquellos casos en que los números no son utilizados como forma de expresar una cantidad, sino
como una etiqueta identificativa; como es el caso de: los números del DNI o del pasaporte, las
matrículasdelosvehículos,losnúmerosdeteléfono,losnúmerosdelexpedienteacadémicodelos
estudiantes,losnúmerosdelascamisetasdelosdeportistas,etc…
El resultado de la utilización de estas escalas nominales es una variable denominada
cualitativa, ya que la naturaleza de los atributos que se miden habitualmente en este nivel son
cualidadesdelaspersonas.Noobstante,tambiénesfrecuentequeselallamenominal(comoala
escala utilizada), provocando el correspondiente equívoco del que debemos de huir. También es
bastante frecuente denominar categórica a este tipo de variables (ya que los números son
categorías). Algunos ejemplos de estas variables en el contexto de las CC.HH. son: sexo; lugar de
residencia;opciónpolítica;tipodetrastornopsicológico;tipodeterapia;actitud(opinión)haciaun
determinadotema;formasdealteracionespatológicas;etc...
Dentrodeestasvariablesnominalesocategóricas,sesuelediferenciar,entre:
1.a.) variable dicotómica: que es aquella que sólo consta de dos categorías mutuamente
excluyentes (por ejemplo: sexo; tener pareja; aprobar un examen; recuperarse de un
trastorno;...yengeneralcualquieraqueseadeltipo:“si/no”,quesuelensercodificadas
conlosnúmeros1paralacategoría“si”y0ó2paraladel“no”).
1.b.) variablepolicotómica:queesaquellaqueconstadetresomáscategorías(porejemplo:
lugar de nacimiento; nivel de estudios; tipo de trastorno;..., y que se codifican por
comodidad con números enteros consecutivos a partir del 1). También es común que
paraestetipodevariableseconserveelnombregenéricodenominal,osimplemente
categórica.
Esta subdivisión tiene cierta relevancia puesto que hay algunas técnicas de la Estadística
Inferencialdondesíhayalgunavariaciónoperativaenfuncióndeello.
2.Ͳ Escalaordinal(segundoescalóndelniveldébil)
La escala ordinal, es un conjunto de categorías numéricas que permiten
ordenar a los sujetos según su mayor o menor grado de posesión del atributo
medido.
Esdecirqueenesteniveldemedida,losnúmerosrepresentanunordendeclasificación.Por
ello además de las relaciones anteriores (las definidas por el nivel nominal: “pertenencia / no...” e
“igualdad / no...”) la escala ordinal permite establecer relaciones de dominancia entre sujetos del
tipo:“mayorque...”/“menorque...”(A>B).
Toda escala ordinal permanece invariable ante cualquier transformación denominada
monótona creciente, que es aquella que mantenga el mismo orden entre los elementos que la
componen, es decir que los números de la escala original y sus equivalencias en la nueva escala,
generenexactamenteelmismoordenentrelossujetos.
El empleo de este tipo de escalas da como resultado una variable denominada cuasiͲ
cuantitativa, aunque es quizás más frecuente que se la llame ordinal (como a la propia escala).
Buscando ejemplos, hay que decir que en la actualidad no hay muchas variables de este tipo, al
menosencontextospsicológicos.LaPsicologíaensucaminohacialacuantificacióncientíficaseha
encontradoconmuchosatributosenlosqueresultaríamuyapropiadoesteniveldemedición,como
son:gradodedepresión;niveldeintroversión;gradodeacuerdo,...;loquenoquieredecirquehaya
abandonadolabúsquedadeinstrumentosquecuantifiquenestosrasgospsicológicosydehecholo
haconseguidoya,oloestáconsiguiendo,conlainmensamayoríadeellos.Detodasmanerascomo
ayudaparalacomprensióndeestetipodemedicióncabecitarcomoejemplos:losrangosmilitares,
el nivel de educación o de estudios, las clasificaciones deportivas (contempladas como puestos
logradosdurantelacompetición),ladurezadelosminerales,laescalaRichterdeintensidaddelos
terremotos,etc…
EnestepuntodelaclasificacióndeStevensseproduceelgransaltohacialacuantificación
pura;esdecir,queenelsiguienteescalóndelamedición,losnúmerospasaránaexpresarlacantidad
de posesión de atributo que se observa en el individuo. Y para ello, necesitamos entrar en los
denominadosnivelesfuertesdemedida.
3.Ͳ Nivelfuerte:escaladeintervaloyescaladerazón.
Laclavedeestaascensiónhastalosnivelesfuertesseencuentraenlaintroduccióndentrodel
campo de la medición del concepto de unidad de medida, quien viene definida como: la mínima
variaciónenlacantidaddeatributoobservadoqueelinstrumentodemedidautilizadoescapazde
registrar.
Esta unidad de medida es siempre conocida y constante aunque su origen sea arbitrario, e
inclusoaunquecarezcadenombrequeesuncasomuyfrecuenteenlaPsicologíaycienciasafines.
Losnúmerosutilizadosenestasescalasequivalenalacantidaddeunidadesdemedidaobservadas;
porejemplounaൌ20,significaquesehanobservadolapresenciade20u.m.,comopuedenser:20
segundos,…ó20centímetros,…ó20kilogramos.Deahíqueestosvaloresnuméricos,queyaadmiten
las operaciones aritméticas de suma, resta, etc..., son indicativos de la cantidad de atributo que
poseen los individuos y son lo que en páginas atrás se denominó como puntuaciones directas (o
brutas,enlenguajemáscercanoalaterminologíaamericana).
Tantolaescaladeintervalocomoladerazóncompartenlanecesariaexistenciadelacitada
unidaddemedidaysolosediferencianporelsignificadoquecadaunadeellasledaalvalor0.
Concretando:
La escala de intervalo, está caracterizada por tener un punto cero, o valor
cero, que es denominado arbitrario o subjetivo, porque ha sido colocado bajo el
criterio personal del investigador en un punto donde tiene algún sentido científico.
Por tanto, este 0 no indica la ausencia del atributo medido; esta es la causa por la
que se pueden encontrar en este tipo de medición tanto valores positivos como
negativos.
Segúnesto,ademásdeverificarselaspropiedadesmétricaspropiasdelasescalasnominaly
ordinal, se añade (como característica diferencial) la capacidad de conocer distancias o diferencias
entresujetos,yaquediferenciasigualesentrenúmerosequivalenadiferenciasigualesenlacantidad
delatributoquesemide.Algunosejemplosson:temperaturamedidaenºCentígrados;temperatura
medida en ºFahrenheit;…; o en el campo psicológico: cociente intelectual; aptitud numérica;
razonamiento;rendimientoacadémico;depresión;ansiedad;etc...
Estasescalaspermaneceninvariantes ante cualquiertransformacióndevaloresquese
realice mediante la expresión: ൌ ; en la cual: las son todos los valores de la escala
original, las son sus valores equivalentes en la escala resultante de la transformación, es una
constante que relaciona la magnitud de las unidades de medida de ambas escalas y es una
constanteasociadaalamodificacióndelaposicióndelceroarbitrariodentrodelcontinuonumérico
querepresentaalatributo.Losvaloresedeestasdosescalasequivalentessiemprecumpliránla
propiedaddeproporciónconocidaentrediferencias.
Porcontra:
Laescaladerazón,tambiénllamadadecociente,sediferenciadelaanterior
solamenteenqueelpuntoovalorcero,esabsoluto;esdecirqueexpresalaausencia
delatributomedido.Estoimplica,queobligatoriamentedichopuntoeselorigende
laescalanuméricaydeahíque,durantelamedición,sólosepuedanobservarvalores
positivosynuncanegativos.
Estaeslacausaporlaqueademásdecumplirtodaslaspropiedadesmétricasdelos3niveles
de medida anteriores, esta escala verifica la propiedad diferencial de proporción conocida entre
valores(oentresujetos)segúnlacualpodemosdecirqueelvalor“AeseldobledelvalorB”,o“el
triple”,…,o“queelsujetoAposeelamitaddeatributoqueelB”...
Algunos ejemplos son: temperatura en ºKelvin; edad; estatura; peso; número de aciertos;
cualquiervariablequeexpreseelnúmerodevecesque...;númerodehijos;pulsacionescardíacas;…
Las escalas de este tipo permanecen invariantes ante cualquier transformación de valores
que se realice mediante la expresión: ൌ ; donde como antes son todos los valores de la
escalaoriginal,sonsusvaloresequivalentesenlaescalaresultantedelatransformación,yesuna
constantequerelacionalamagnituddelasunidadesdemedidadeambas(comolaequivalenciaque
seestablecióensumomentoentreeleuroylapeseta,queesconstante:latransformacióndeuna
cantidaden€aPts.,sehacemultiplicandopor166,3862).
Las variables resultantes de la utilización tanto de las escalas de intervalo como de las de
razónsondenominadascuantitativasporlacitadacausadequesusnúmerossonindicativosdela
cantidaddeatributoposeída.
Dentrodelasvariablescuantitativas(sóloparaefectosclasificatorios,porqueenlapráctica
nohaydiferenciasoperativasentreellas),sesuelehablarde:
3.a.) variablecuantitativadiscreta:queesaquellaque noadmitevaloresintermediosentre
dosconsecutivas(comoporejemplo:númerode...:hijos,alumnos,aciertos,vecesque
se va a cine mensualmente, libros leídos al año... ); es decir que la unidad de medida
definidaesindivisible,porloquemedidaserealizadeunidadenunidad;
3.b.) yvariablecuantitativacontinua:queesaquellaquesíadmitevaloresintermediosentre
dos que eran aparentemente consecutivos (como por ejemplo: edad, estatura, tiempo
de reacción ante un estímulo, etc…); lo que implica que la unidad de medida definida
admitesubmúltiplos(porloqueexistennúmeroscondecimales),cuestiónquegarantiza
unamedicióncontinua(comoocurreporejemploconeltiempo,quenosecorta).
Ahora bien, el investigador debe tener en cuenta que siempre que pueda utilizar un
determinadoniveldemedida,puedeasimismoemplearunoqueseaderangoinferiordentrodela
clasificacióncitadaenpágina58.
Asíporejemplo,siparalavariable“edad”lonormalylógicoesusarunaescaladerazón(con
cualquier unidad de medida, por ejemplo: meses, o años) que genere una variable cuantitativa,
también podría si ese es su interés, fijar un cero arbitrario en un determinado punto de corte de
edadyconstruirunaescaladeintervalos(convalorespositivosynegativosenfuncióndeesepunto)
quelegenereunanuevavariablecuantitativaperodistintadelaanterior.
Y puede llegar incluso a construir una nueva variable, semejante a las nominales, que
clasifiquealossujetosendiferentesgruposocategoríasdeedad.
Elresultadodeestatransformacióndalugaralasdenominadas:
- variables dicotomizadas cuando tienen sólo dos categorías mutuamente excluyentes (por
ejemplo:mayor/menorde30años;calificaciónmayor/menordeun7;…)
- ypolicotomizadas,cuandotienentresomáscategorías(edad:menoresde18,entre19y30,
entre31y45,…;oniveldedepresión:X<8,entre9y13,entre13y16,yX>16);
quesontérminosparalelosalosusadosparalasvariablesnominales(verpágina60).
Noesextraño,queaunquesuorigenseamuydistinto,aestetipodevariablesresultantesde
categorizar a variables cuantitativas, también se las denomine simplemente como categóricas, ya
que además el tratamiento estadístico que se les realizará será exactamente el mismo que si su
procedenciafuesepuramentenominal.
Estetipodetransformacionesoconversionesdeunasvariablesderangosuperiorenotrasde
nivelinferior,estánregidasporunaseriedeleyesquenecesariamentedebendeseracatadaspara
noalterarsustancialmenteelprocesodemedición.
Porúltimo,sidecidimosacometerestatareadebemossaberquebajarelniveldemedición
deestamanerasiempresuponeunapérdidadeinformación,deprecisiónoexactitud,asícomoun
incrementodelasprobabilidadesdeerrorenlasconclusionesfinales.
A modo de resumen de todo lo comentado hasta aquí sobre las escalas de medida, en
funcióndecuálsealaquesehautilizadopodemosencontrarnoscon3tiposdevariablesdeinterés
paralaEstadística:
- lascategóricasonominales(procedentesdelusodeunaescalanominal);
- lascuasiͲcuantitativasuordinales(procedentesdelusodeunaescalaordinal);
- ylascuantitativas(procedentesdelusodeescalasdeintervaloyderazón);
delascuales,casilatotalidaddelasvariablesqueseutilizanenelcampodelamediciónpsicológica,
son categóricas y cuantitativas. Por ello, los Temas 5 y 6 están dedicados específicamente a las
herramientasquetienelaEstadísticaDescriptivaparaellas,mientrasqueenlosTemasdelCapítulo5
lastécnicasinferencialesestánorganizadasenfuncióndequenuestrosdatosprocedandeunouotro
tipodevariables.
Enconsecuencia,dichotodoloanterior,aunquelaclasificaciónformalcompletaseríalaque
apareceenelsiguienteesquema:
DICOTÓMICA
Esc.Nominal VariableCATEGÓRICA
POLICOTÓMICA
ATRIBUTOS
Esc.Ordinal VariableCUASIͲCUANTITATIVAuORDINAL
DICOTOMIZADA
Interv./Razón VariableCUANTITATIVA
POLICOTOMIZADA
Noobstante,alahoradeelegirunaherramientaounatécnicaestadísticadeentretodasque
están a nuestra disposición, solamente debemos de tener en cuenta si los datos que genera la
variable,son:
a) números de tipo cuantitativo (de variables cuantitativas indistintamente medida en
escalasdeintervaloorazón);
b) números de tipo categórico (de variables con categorías; independientemente de que
sean:dicotómicas,dicotomizadas,policotómicas,opolicotomizadas,uordinales).
Para ir terminando este apartado, es imprescindible dejarle claro al lector que cada
información,esdecircadadatoqueseconozcadecadaunodeloselementos,sujetosoindividuos,
queestánincluidosenlamuestra,perteneceaunavariable(1dato=1variable).
Estoesimportante,porqueaveceselinvestigadornovatoconfundeunconjuntodevariables
con1sola.Veamosunejemplo,realparamásseñas.
Enciertaocasión,unasestudiantesdePublicidadqueestabanrealizandounaencuestasobre
consumo de alimentos y bebidas, me consultaron el siguiente problema con el que se encontraron.
Habíanincluidoenlaencuesta,variaspreguntascuyaestructuraerasemejanteaésta:
Díganoscuál,ocuáles,deestosrefrescosconsumeustedhabitualmente:
queveníaseguidadeunlistadocon(norecuerdoexactamente)10Ͳ15marcasybebidascomo:
CocaͲcola,Fanta,Schweppes,Trina,Radical,…,ydiferentesmarcasdeagua,dezumo,…
cadaunadeellasprecedidadeunrecuadroparaqueelencuestadopudieseseñalartodasaquellasque
deseaseenfuncióndesuconsumohabitual.
Encadaunadelaspreguntasconesteformato,ocurríalosiguiente:puestoquehabíandefinido
una única variable para la pregunta (que creían que era nominal, o categórica, con tantas categorías
comobebidashabíaenlalista,numeradasapartirdel1),tantoenlahojaderegistrocomoenlabasede
datosdeSPSSsolamenteteníancapacidadparaanotarunasolarespuestaenlavariable(1únicovaloró
1 único número). Por lo tanto, ¿qué hacían con aquellas personas (prácticamente todas las de la
muestra)quehabíanseñaladoqueconsumíanhabitualmentemásdeunabebidadelalista?
Enrealidad,lapreguntadalugaratantasvariablescomobebidasconteníaellistado(sean10,
15,,olasquefueran)puestoquedecadasujetoquelacontestatendremosrespuestas;esdecir
datos,luegovariables.Elprocesoquerealizalapersonaencuestada,esplantearsesibebeonocada
unadeellasyresponder;asícuandomarcalabebidaestádiciendoque“sí”laconsume,mientrasque
cuandonolaseñalaestárespondiendoque“no”.Portanto,cadaunadelas10,15óHvariablesquese
derivan de la pregunta del cuestionario es 1 caso de variable dicotómica (si/no). Entonces, aquellas
estudiantes debían de haber creado (tanto en la hoja de registro como en la base de datos de SPSS),
tantasvariablescomomarcasybebidasseincluíanenlalistaqueacompañabalapregunta;ycadauna
deellasseríadetipodicotómicodondeelvalor1seasignaríaalarespuestaafirmativa(síconsume)yel
valor0alarespuestanegativa(noconsume).
Porotrolado,haymuchosatributosquepuedensermedidosdediferentemanera,esdecir
utilizando diferentes variables que generan distinto tipo de datos, siendo la más adecuada aquella
quemejorseadaptealasnecesidadesdelinvestigadorparacadacasoespecífico.
1.Ͳ Asíporejemplo,siestuviésemospreguntandoalagentequéopinasobrelasituaciónde
crisis económica actual, y sobre qué debería de hacer el Gobierno al respecto (este sería el
constructo teórico a medir), podríamos redactar una pregunta (que generaría la variable) del
tipo:
¿EstáusteddeacuerdoconqueelGobiernodeberíadetomarrápidamentemedidas
económicas,parapaliarlaactualcrisiseconómicaqueafectaalasfamiliasespañolas?
enlacual,lasrespuestasserían:
Sí,estoydeacuerdo–Noestoydeacuerdo
yquedefiniríaunavariablenominaldicotómica:(1y0)ó(1y2).
2.Ͳ En cambio, si formulamos la misma pregunta, o muy semejante, pero dando como
opcionesderespuestaexpresionesdeltipo:
Entotaldesacuerdo–Endesacuerdo–Indiferente–Deacuerdo–Entotalacuerdo
estaríamos utilizando lo que se denomina en términos psicométricos: escala Likert; que es un
tipo de variable que puede ser considerada como cuantitativa, y que implica asignarle a cada
unadeestasopcionesderespuestavaloresenunaescalanumérica.Existenvariasposibilidades
paraello;porejemplo:
(–2)(–1)012ó12345
Enelprimercaso,losvaloresnegativospretendenreafirmarelcontenidocontrariodelas
respuestasdel“desacuerdo”conelcontenidodelapregunta,mientrasquelosvalorespositivos,
de la misma manera reafirmarían el contenido “afirmativo” de las respuestas de la posición
favorable.Enelsegundocaso,setratadeevitarconfusionesporomisióndelsigno(paraqueun
1 nunca se tome como un 1), así como impedir ciertas connotaciones peyorativas que se le
podíaninconscientementeasignaralosnúmerosnegativos.
Laconsecuenciamásimportantedeesteúltimoejemplo,esquelaPsicometríahaelaborado
paralamediciónenPsicologíauntipodemedidapropio:lasescalasLikert,quecumplencontodas
laspropiedadesmétricasdeunaescaladeintervalo,porloquecuandoseutilizasegeneransiempre
variablesdetipocuantitativo.
LasescalastipoLikerttienengeneralmente5puntosovalores(comolosanteriores),aunque
tampocoesinfrecuentequeseconstruyanhastacon7valores;perosiempreennúmeroimparpara
que exista un número central que hace las veces de categoría neutral entre los lados negativo (o
contrario)ypositivo(favorable).
3.ͲIncluso, y por último, siguiendo con el mismo ejemplo, también se podría redactar la
preguntasobreeltema,deestaotramanera:
Valoreusted,demenosamásenunaescaladel0al10,sugradodeacuerdoconla
creenciadequeelGobiernodeberíadetomarrápidamentemedidaseconómicas,para
paliarlaactualcrisiseconómicaqueafectaalasfamiliasespañolas.
012345678910
que es obviamente también, una variable de tipo cuantitativo pero distinta de la anterior; es
semejantealasescalasLikertaunqueensí,éstanolosea.
Amododeconclusiónfinal:
¿Losnúmeros Var.Cuantitativa
tienenunidad SI
demedida? (Esc.Likert)
Unmismo
constructo
NO
Losnúmeros Var.Dicotómica/Dicotomizada
son
categorías
Var.Categórica(K>2)
La clasificación de las variables, en función del nivel de medida alcanzado,
que acabamos de revisar, aunque de capital importancia, no es ni mucho menos la única. Existen
otras.
Quizá la más conocida y extendida popularmente además de necesaria para nuestro
aprendizajedelaEstadística,especialmenteenloreferentealastécnicasestadísticasdelCapítulo5,
es la que se realiza desde un punto de vista Metodológico o Experimental, es decir atendiendo al
papelquejueganlasvariablesdentrodelasinvestigaciones.
Así, en este contexto, hablaremos de 3 tipos de variables: dependientes, independientes y
extrañas,dentrodeunesquemasemejantealdelasrelacionesdeltipo“causaoefecto”.
V.Independiente Efectoaestudiar
V.Dependiente
V.Extraña Efectoacontrolar
Susdefinicioneslasabordamosacontinuación.
Lasvariablesdependientes(apartirdeahora:abreviadamenteVD):
empíricamente hablando, son el fenómeno de conducta (el atributo o
constructo) que generalmente se manifiesta en forma de respuesta de los sujetos y
queesobservadamedianteelinstrumentodemedidaadecuado;
y
metodológicamente hablando, son el efecto consecuente de la variable
independiente(quienasuvezesconsideradaantecedenteocausadeaquélla).
Enresumen,lavariabledependienteescualquierfenómenodeconducta:nomanipuladoo
controlado,quepuedesermedidoycuantificado,deformaqueenvirtuddelamedidaaplicadase
manifiestaendiferencias,ovariaciones,observablesentreindividuos.
DeterminarconexactitudcuáleslaVDycómosemide,noesimportantesóloporcuestiones
vinculadas a los objetivos e hipótesis de la investigación, sino que también es una información
absolutamentetrascendentalalahoradedeterminarcuáleseltipodedatosquesegeneranpara
estaVD(segúnlaclasificaciónexplicadaenelapartadoanterior),cuestiónqueincidedirectamente
enlaeleccióndeherramientasytécnicasestadísticas.
Porejemplo,elconstructo“opiniónsobrelanecesidaddetomarmedidaseconómicascontra
lacrisis”(utilizadoenlosejemplosdelaspáginasanteriores64y65):
- porunlado,segúnsus3posiblesconversionesenvariablescondiferentestipodedatos,nos
llevaríaausardistintosmétodosestadísticos;
- y por otro lado, podría ser considerado como una variable dependiente en el caso de que el
investigadorpretendaaveriguarsilaopinióndelaspersonasestá relacionadaconcuestiones
como:laedad,elsexo,elniveleconómicoosocial,etc...,quienesseríanentonceslasvariables
independientes.
Segúnesto,lasvariablesindependientes(apartirdeahora:abreviadamenteVI).
metodológicamentehablandoydeacuerdoaloqueacabamosdecomentar,
sonelantecedente,estoes,lacausadelasvariacionesobservadasenelfenómeno
deconductaestudiado(laVD).
Entérminosmatemáticos,estarelaciónseexpresaríadelsiguientemodo:ൌሺሻ;donde
seríaelcomportamientoovariabledependienteobservada,queestaríaenfuncióndeloscambioso
variacionesintroducidosporelinvestigadorenlavariableindependiente.Alestudiomásdetallado
de este tipo de funciones se dedica el Tema 14 que sirve de arranque para todo el trascendental
Capítulo5dellibro;ademástambiénelTema16presentalaformaenquelaEstadísticaabordael
estudiodeestetipoderelacionesensuaplicaciónalcampodelasCC.HH.
Portanto,unaVIeslavariablemanipuladadurantelainvestigaciónenelsentidodequesele
asignan valores diferentes, mutuamente excluyentes, a la espera de que dichos valores afecten
diferencialmentealaVD.Entonces,tambiénpodríamosdecirquelasVIson:cualquiervariableque
afecta al fenómeno de conducta (VD) objeto de estudio, de manera que influye directa o
indirectamentesobreél.
Desde una perspectiva más psicobiológica, también podemos afirmar que una VI es la
variable que actúa como estimulación de la conducta, es decir, que incide sobre la VD haciéndola
cambiardeformaapreciable,oalmenosesoesloqueelinvestigadorpretendeverificar.
En ciertos contextos, a las variables que ejercen algún tipo de efecto sobre una VD, se las
denominaconeltérmino:factor.Elnúmerodefactoresquepuedenafectaraunaconductasonmuy
elevados y dependen de la conducta en cuestión y de múltiples circunstancias: el experimentador
elegirá de todos esos factores a las que van a ser sus variables independientes en función de los
objetivosdesuinvestigación.
Y… entonces, ¿qué ocurre con aquellos factores que afectan a la VD, pero que no son
considerados como VI merecedoras de estudio? La respuesta es que si no se actúa
convenientementeconellossepuedenconvertirenvariablesextrañasocontaminadoras.
Esdecirque,lasvariablesextrañas(apartirdeahora:abreviadamenteVE):
sontodaslasvariables,ofactores,relevantesparaelestudiodeunfenómeno
de conducta dado que no han sido seleccionadas como variables independientes, ni
manipuladas como tales, y que podrían distorsionar (a alterar) los resultados
estadísticosylasconclusionesdelainvestigación.
La propia decisión del experimentador de considerar a unas variables relevantes como
independientes,confierealasotraslacategoríadeextrañasyleimponelaexigenciaderealizarun
controlexperimentaldeellasparaevitarsuposibleefecto.
Pero ésta, la forma de controlar o evitar el efecto perturbador de una VE, es una cuestión
que compete a la asignatura de Diseños de Investigación y no a la Estadística, por lo que en estas
páginasnopodemosdedicarleniespacionitiempo.
Ahorabien,loquesípodemosmatizarenestemomento,esquelavariablecontaminadora
esrealmenteunaVEcuandonoseejerceunadecuadocontrolsobresuefecto;porqueencasode
quesísehaga,evitandoportantoqueactúesobrelaVD,yanoesunaVEpropiamentedichasino
queesunavariableexperimentalmentecontrolada.
Unúltimocomentarioparaterminaresteapartadoyeltema.
TantolasVIcomolaVEson,habitualmente,variablesquetambiéndebendesermedidasu
observadasdealgunamanera,porloquehayciertaposibilidaddequeelinvestigadornovatotenga
dificultadesparadiferenciarlasdelasVDensudefiniciónempírica(delapáginaanterior).LaVDes
talVD,noporqueselamidesimplementesinoporqueselamideparaestudiarcómovaríacuandose
la vincula a las VI. Así que no podemos concluir que toda variable que esté medida con un
instrumento adecuado es por ello ya una VD. Como tampoco podemos generalizar que las VI se
puedenmanipular,oquelasVEsepuedencontrolarsinmedirlaspreviamente.
Lo que ocurre es que, lógicamente, hay variables cuya observación es tan obvia que no
precisandeuninstrumentodemedidaconcretoparaconocersusdatos.Merefiero,porejemplo,a
que si necesitamos conocer el sexo de cada uno de los participantes en nuestra investigación (sea
para usarlo como VI o para controlarlo como VE) no tenemos la necesidad de usar instrumento
alguno,podemosdeducirlodesunombredepila,osilaparticipaciónesanónima,bastaconanotarlo
enlahojaderegistrodedatos.Enlamismalínea,sideseamoscontrolarelefectodelaedadpara
que no se convierta en una VE, nos basta con preguntársela a los sujetos sin que tengamos que
emplearningúnaparatodemedidaespecífico.
Deejemploscomoestos,avecessesacalaconsecuenciadequelasVIylasVEnosetienen
que medir. Y eso no es así. Si la VI a estudiar fuese el grado de depresión de los pacientes de un
hospital, ¿cómo lo íbamos a conocer sin administrar el test psicológico adecuado?, o si la VE a
controlar fuese el grado de ansiedadͲestado, ¿cómo lo íbamos a saber sin pasar la prueba
psicométricacorrespondiente?Endefinitiva,quelonormalesquelainformación,losdatos,delasVI
ydelasVE,sólolostengamosanuestradisposiciónrealizandounamediciónuobservaciónsimilara
laquesehaceconlasVD.
Esimportanterecordarunavezmás,quemientraslaVDsemideconelobjetivodeestudiar
cómocambiaovaría,lasVIsemidenparapodermanipularlasadecuadamenteconlaintenciónde
quepuedanproducirelefectodeseadosobrelasVD;yqueasuvez,lasVEtambiénsemidenporque
necesitamos conocer cómo se presentan si queremos controlar (evitar, anular) su efecto
distorsionadorsobrelarelaciónexistenteentrelasVIylaVD.
Porcierto,quetodaslastécnicasestadísticasdelantescitadoCapítulo5ºdeestemanualse
dedicanalestudiodeestarelación:VIoVD,ydeellascabeadvertirquesonlasmásimportantesy
básicasdelaparteInferencialdelaEstadística.
Tema 4
EL SOFTWARE
ESTADÍSTICO
SPSS ®
4.1.ͲIntroducciónalSPSS®
4.2.ͲCreacióndebasesdedatosenSPSS®
4.3.ͲTransformacióndedatos
Como ya se dijo, en página 30 y en la Presentación del libro, SPSS® es con
todaseguridadelpaqueteestadísticomásdifundidoenlaactualidaddebidoasugranpotenciaenel
tratamientodelosdatosyenelanálisisestadísticodestinadoalatomadedecisiones.Enesteprimer
apartado vamos a tratar de presentarlo brevemente para todos aquellos estudiantes que aún no
hayantenidolooportunidaddeverlo.
Cuandosearrancaelprograma,apareceunapantallaquerecuerdaaunahojadecálculo.Se
denomina:EditordedatosSPSS.Eslaqueseinsertainmediatamentedebajo:
EstaeslaventanaprincipaldeSPSSydalugaraltipodearchivosquesesuelendenominar
basededatos.Esteeslugardondeseincluyetodalainformación(losdatosdelasvariables)detodos
lossujetosquecomponenlamuestraydesdeelqueserealizarántodoslosanálisisestadísticos.
Aunquenoeselúnicotipodeventana,nidearchivos,quenosvamosaencontrarenSPSS.
Dehecho,existenhasta8tiposdistintos;peronimuchomenosnecesitamosmanejarlostodospara
podermovernosporSPSSytrabajarsatisfactoriamenteconél.
Enrealidad,sólohay2tiposdearchivos(odeventanas)queresultanimprescindibles:
1.Ͳ elcitadoEditordedatosdondeseintroducelainformación,
2.Ͳ y el Visor de resultados donde, evidentemente, quedarán incluidos todas las tablas y
gráficosdelosanálisisestadísticosquerealicemos;
delrestodeventanasnovamosahacermenciónalgunaenestemanual.Ellectorpuedeencontrar
en el mercado varios libros dedicados exclusivamente a enseñar el programa, así como otros que
aúnanalgunosconceptosdeEstadísticaconelusodelprograma.Enlabibliografíarecomendadaque
seincluyealfinaldeestemanual,semencionanalgunosdeellos(comoeldePardoyRuíz,yelde
Visauta).
ElEditordedatos,comoseapreciaenelsiguienterecortedelamismaimagendelapágina
anterior,presentaensupartesuperiordosbarras:lademenúsyladeherramientas.
LaBarrademenús,situadainmediatamentedebajodelnombredelarchivo(basededatos)
quehemosabierto,comosudenominaciónindicacontienetodoslosmenúsdetrabajoquepodemos
necesitaralutilizarelSPSS:
- Archivo;
- Edición;
- Ver;
- Datos;
- Transformar;
- Analizar;
- Gráficos;
- Utilidades;
- Ventana;y
- ?(laayuda)
Cadaunodeellos,sedespliegaenunabuenacoleccióndemenússecundariosysubmenús
queincluyendiferentesacciones.Detodosellos,losmenúsysubmenúsde:Analizar,Transformar,
GráficosyDatos,son,conmuchadiferencia,losquemásvamosautilizaralolargodeestemanual.
Debajo,yamododeejemplo,sepuedeverelmenúAnalizardesplegado;enélesdóndese
encuentran absolutamente todas las herramientas y técnicas estadísticas que SPSS pone a nuestra
disposición:
Alrespecto,convieneadvertirqueelconvenioquesevaaseguirenestaspáginasparacitar
elrecorridoporlosdiferentesmenúsdesplegables,vaaserelsiguiente:
MENÚGENERALÖMENÚPARTICULARÖSUBMENÚ
donde las flechas (Ö) indican por tanto, cuál es el submenú inferior que se elige dentro de las
opcionesquesedesplieganenunmenúsuperior;esdecirqueunaexpresióncomolaanterioresuna
rutadenavegaciónaseguirparallegarhastalafunciónestadísticadeseada.
Porejemploparautilizarunadelastécnicasmásconocidaseimportantesqueexistendentro
delaEstadísticaInferencialyqueestávisibleenlaimagenanterior,hayqueseguirlaruta:
ANALIZARÖCOMPARARMEDIASÖANOVADEUNFACTOR
LaBarradeherramientas,ubicadajustodebajodelaanterior,esunacoleccióndeiconoso
de botones que ejecutan de forma más rápida algunas de las acciones más comunes durante el
manejo de SPSS, como por ejemplo: abrir un archivo, guardarlo, imprimir, insertar una variable,
seleccionarcasos,etc…;peroquetambiénseencuentrandentrodelosmenúsdesplegables.Según
nuestracostumbreusaremosestosbotonesoaccederemosalasfuncionesdesdelanavegaciónpor
losdiferentesmenús.
Ambas barras, son modificables según el gusto y costumbre del usuario del programa. Así,
para modificar la barra de menús habría que ir a: UTILIDADES Ö EDITOR DE MENÚS; mientras que
para añadirle o quitarle botones a la barra rápida de herramientas, se recurre a la ruta de
navegación:VERÖBARRASDEHERRAMIENTAS.
Incluso con esta última ruta se puede crear una barra de herramientas propia, que incluya
aquellas acciones que el usuario desee. Por ejemplo, en la imagen inferior aparece una barra
personal que he denominado Técnicas Estadísticas que contiene los iconos o botones de acceso
rápido a todas las herramientas y técnicas estadísticas que vamos a estudiar en este manual de
EstadísticaaplicadaalaPsicología:
Compáreseestaimagenconcualquieradelasanteriores,ysepodráverquelabarradelladoderecho,antesnoestaba.
ElEditordedatos,comoseapreciaenlaparteinferiordelaimagencompletainsertadaenla
página70(oenladela71),contiene2pestañasequivalentesa2únicashojas:
- lavistadedatos:dondesevanavolcarlosdatosdelossujetos;
- ylavistadevariables:dondesevanadefinirlasvariablesalasquepertenecenestosdatos.
Comoeslógico,esnecesarioqueenprimerlugarsecreenlasvariables,paraposteriormente
poder añadir los valores que toman en cada individuo. Este es el proceso que se explica en el
siguienteapartadoconelqueiremosenbreveinstantes.
Peroantes,convienecomentarqueloscitadosEditordedatosyVisorderesultadosnoson
las únicas ventanas que vamos a usar cotidianamente en SPSS. Ya que, como en cualquier otra
aplicacióninformáticaquefuncioneenelentornoWindows,vamosa“hablar”conellapormediode
losdenominadoscuadrosdediálogo,queseráellugardondelevamosadeciralSPSSquéqueremos
que haga con los datos que hemos tomado. Su formato es semejante, e incluso compartido, al de
muchosotrosprogramas,asíqueellectorsevaafamiliarizarrápidamenteconellos.
Todos los cuadros de diálogo principales, es decir los primeros que se abren al ejecutar la
rutadenavegacióndeunaherramientaotécnicaestadística,tienenunaestructurasimilar.Enellos
hay un recuadro en lado izquierdo donde se encuentran todas las variables que se han creado y
guardado en la base de datos. A su lado y separados por una flecha hay, siempre, al menos un
segundorecuadroqueestáenblancocuandoseabreeldediálogo.Aestesegundoespacio,esalque
hay trasladar las variables que se quieran analizar exactamente en ese momento con las
herramientasincluidasenlarutaejecutada.Eltrasladodelasvariablessehaceseleccionándolasen
ellistadodelaizquierdaypulsandolaflechaentreambosrecuadros.
En las imágenes de abajo, se incluyen 2 cuadros de diálogo distintos de dos técnicas
estadísticascualquiera,delasquevamosaaprenderalolargodeestemanual.Enellosseaprecialo
dichoenelpárrafoanterior.Enambossehapasadoalgunavariablealladoderechoconlaintención
dehaceralgúntipodeanálisis:
Estos cuadros de diálogo principales suelen contener varios Botones… que abren distintos
subcuadrosdediálogodondeseespecificandetallesparticularesdelprocedimientoestadísticoque
sevaapediralprogramaqueproduzca.Enlasimágenessuperioressepuedenvervariosdeellos.Los
subcuadros que se abren al pulsarlos son ya específicos de cada técnica estadística y éste no el
momentodehablardeellos.Aquísólosetratabadequeellectorconociesedesuexistencia.
Finalmente,paraterminaresteapartadosólonosrestadecirquelaformadeabrirSPSS,dar
nombre a un archivo, guardarlo, etc…, es exactamente igual que en cualquier otro software tipo
MicrosoftOffice.
guardado,alvolverlaaabrirapareceránlascasillasocupadasporlosdatosquehayamosvolcadoen
lasesiónanterior.
Comoyasehadicho,previoalvolcadodelainformaciónenladenominadavistadedatos
delEditor,esimprescindiblecrearlasvariablesdefiendounaseriedepropiedadesdelasmismasque
nospideelSPSSenlahojallamadavistadevariables.Vamosconello.
La definición de variables se realiza, entonces, en la pestaña denominada
Vistadevariables.Tieneelmismoaspectoqueunahojadecálculo:filasycolumnas,quesecruzan
encasillasdondeseescribelainformaciónqueenestecasosonlaspropiedadesdecadavariable.En
concreto:enlasfilas,numeradasapartirdel1,seiránincluyendolasvariables;enlascolumnasestán
los campos de información que contienen las características de las variables que SPSS necesita
conocer:
CAMPOSARELLENAR(propiedadesdelasvariables)
(numeradasdesde1)
VARIABLES
Acontinuaciónsecomentaelprocedimientoarealizarparacrearunavariable,asícomoel
significadodecadaunodeloscamposarellenar.
Secomienza porcumplimentarelcampoNombre. Apesarde
lo que parece indicar, este campo no pide el nombre completo de la
variablecreadaparamediralatributooconstructo.Sinoquepideque
se le asigne a la misma un código o nombre abreviado. Dicho código
puede contener letras y números hasta un máximo de 64 caracteres.
Debe empezar necesariamente por una letra, no puede incluir
espacios,perosipuntos.Ynopuedeterminarenunpunto.Cuandoel
códigocreadocontienealgúncarácternoválido,elprogramapresenta
unmensajedeadvertencia,entoncescualquiercosaquenosealetra,
númeroopunto,seráelcarácterquehayquecambiar.
Al pasar al siguiente campo, con la intención de ahorrar tiempo de trabajo, SPSS asigna
automáticamenteunaseriedepropiedadespordefectoque,lógicamente,sonlasmáscomunes.En
laimagensiguientesepuedenvercuálesson,asícomocomprobarquehaquedadounúnicocampo
porrellenar:
Se trata del campo Etiqueta. Precisamente es en este campo,
donde se debe de escribir el nombre completo de la variable (o del
constructo)talycomosedeseaqueaparezcaentodaslasfuturastablasy
gráficos.Aquísepermitetodotipodeletras,números,espacios,acentos,
signos de puntuación, admiración, etc…, hasta un máximo de 256
caracteres(aunqueenlamayoríadelastablasderesultadonocabetanto
texto).
En el contexto psicológico, es habitual utilizar esta diferencia que establece SPSS entre los
camposNombreyEtiqueta,paradistinguirentreel constructo(oelatributo) ylavariable,cuando
tengannombresdistintosclaro.Enesecaso,elconstructo(ejemplo:inteligenciageneral)seincluye
enelcampoEtiquetaylavariable(ejemplo:cocienteintelectualestándar)enelcampoNombre.
enelprimerejemploseintroduceenvalor7254326,15elSPSSconsideraráqueessolo:54326,15a
efectosdelanálisisestadísticoaunqueenlapantallaaparezcaescritoelnúmeroanteriorcompleto.
Por eso es importante esta cuestión. En sentido contrario, si nuestra escala de valores es, por
ejemplo,ladeuntestpsicométricoquetomavaloresenterosentre0y36,nohayproblemaconque
sedefinaunaanchurade8con2decimales(aunqueseamáscómododever,eincluso,másestético,
marcar0decimales).
DespuésdeloexplicadoenelTema3sobrelamediciónenPsicología,elTipoNumérico,es
sin ninguna duda, la forma de introducir datos que emplearemos para la inmensa mayoría de
nuestrasvariables,seancuantitativasoseancategóricas.
Comoseapreciaenlaimagendeallado,Anchuray
Decimales de una variable Numérica, también tienen su
campo propio y se pueden modificar desde él, sin
necesidad de entrar al campo Tipo para hacerlo. Estas
propiedadesdelavariablesepuedencorregirencualquier
momento.
ParacambiarelTipodeinformacióndelavariablequevamosaintroducir,sinossituamosen
la casilla correspondiente aparecerá en la parte de derecha de la misma un cuadradito gris que al
clicarloconelratónnosabreunmenúdeopcionescomoelqueseapreciaenlafigurainferior.Enél
se indican todas las alternativas que tenemos a nuestra disposición: Coma, Punto, Notación
científica,…Detodasellas,lasmásinteresantesyhabitualesenlasinvestigacionespsicológicas(yen
Cienciasafines)son:CadenayFecha.
Cadena es la opción que marcaremos si lo que
queremos escribir es texto. Cuando la activamos, de
forma automática la Anchura cambia a 8 caracteres,
pero normalmente tendremos que ampliarla bastante
más. Este Tipo es el que debemos de usar para
introducir información como: nombres, apellidos,
direcciones,…,ytodoaquelloquenosinteresesaberdel
sujeto, pero con lo que posteriormente no se va a
realizarningúnanálisisestadístico.
Haciendo clic en el recuadro gris dentro de la casilla de este campo, se abre un cuadro de
diálogo(Etiquetasdevalor)dondeseescribirálacorrespondenciaentrenúmerosynombresdelas
categorías.Elnúmeroseescribedondedice“Valor”yelnombredelacategoríaqueelcorresponde
dondedice“Etiqueta”.Sepulsa,después,sobreelbotón Añadir ,ycuandoesténtodos,secierraeste
menúpicandosobreelbotón Aceptar .
Yavamosterminando.Solamenteresta1campoquetieneciertatrascendenciaalahorade
definiralasvariables,setratadelllamadoMedida.Elrestodecampos,sondemenorimportancia.
En Medida es donde le decimos a SPSS cómo son los datos
generadosporlavariabledesdelaperspectivateóricaexplicadaantesen
elTema3(apartado3.4;página63).
Clicando sobre la flecha de la derecha de la casilla, se ve que el
programaestablecesólo3clasesdedatos:Escala,OrdinalyNominal.
- Nominalcuandolosdatosnuméricosseancategóricos;
- OrdinalcuandosetratadeunavariablecuasiͲcuantitativa;y
- Escalaparavariablescuantitativas,yaseandeintervalooderazón.
Comoyasabemos,lamayoríadenuestrasvariablesestaránmedidas:bienennúmerosque
corresponden a categorías por lo que marcamos Medida: Nominal, o bien en valores numéricos
cuantitativosporloqueenestecampomarcaremosMedida:Escala.
Realizado todo esto (que se tarda bastante menos en hacerlo que en explicarlo) ya está
definida una variable. Obviamente, el mismo procedimiento debe de llevarse a cabo con toda la
informaciónquesedeseeincluirenlabasededatos.
Paraterminaresteapartado,solonosquedaporcomentarquesisedeseacambiaralguna
opción de las que el SPSS trae por defecto, la ruta de navegación: EDICIÓN Ö OPCIONES abre un
menúquecontienevariaspestañas,dondesepuedehacertodotipodemodificaciones.
Así, por ejemplo, dentro del
citadomenú,ymásconcretamenteenla
pestaña Datos es donde, en mi caso, he
fijadoquelasvariablesnuméricasvengan
creadasdeiniciocon0cifrasdecimales.
Desde mi punto de vista, este
cambio es muy útil cuando se usa SPSS
en investigaciones psicológicas, ya que
enlamedicióncuantitativaqueserealiza
en estos contextos, se suelen definir
unidades de medida que no tiene
submúltiplos, lo que impide la aparición
denúmerosdecimales.
4.2.2.- Volcado de datos
Creadastodaslasvariablescuyainformacióntenemosrecogidaenlahojao
fichaderegistrodedatos,yasólonosrestalatareadelvolcadodelosdatosdeloselementosdela
muestraparatenerterminadoelprocesodeconstruccióndelabasededatosSPSS,quedandotodo
listoparaeliniciodelosanálisisestadísticos.
Estatarea,comoyaseadelantó(enpágina72),serealizaenladenominadaVistadedatos
delEditordeSPSS.Estasegundapáginatambiénposeeelaspectodeunahojadecálculo,esdecir:
filasycolumnasquesecruzanencasillasdondeseescribelainformaciónque,enestecaso,seránlos
datosdecadasujetoencadaunadelasvariablesanteriormentecreadas.
No obstante hay una cuestión importante a tener en cuenta, y es que la ubicación de las
variablescambiadelugardeformatalqueantesestabanenlasfilasdelahojadevistadevariablesy
encambioahorasevanatrasladaralascolumnasdelahojadevistadedatos.
Portanto,enestasegundahoja,ladevistadedatos,tendremossituadosalosindividuos(o
elementos de la muestra) en las filas numeradas a partir del 1, mientras que en las columnas irán
apareciendo las variables a medida que se las vaya definiendo. Al respecto un comentario más,
espero que todos los lectores tendrán claro que en cualquier momento se pueden añadir nuevas
variablesaunabasededatosqueyaestácreadaeinclusoqueyahasidoutilizada.
Unejemplodeunahojadevistadedatosconalgunasvariablesficticias,perosinintroducir
lainformacióndeloscasosaún,sepuedeverenestaimagen:
VARIABLES
SUJETOS
Cadacasilla=1DATO
Yunejemplodeunadeestashojas,coninformacióndecuatrovariablesyaintroducidaense
puedeverenlaimagenquevienemásabajo.
Elprocesodevolcadodedatos,debedesermuycuidadosoparaevitarqueseintroduzcan
erroresdetecleadoqueposteriormentetenganincidenciaenlosanálisisestadísticos.Lapersonaque
lo haga debe de estar bien entrenada en el uso del programa, y a ser posible debería de hacerlo
siemprelamismaparaevitarposiblesdiscrepanciasentrecostumbresdemanejoycriterios.Yeste
puede ser un buen momento para recordar que nunca se debe de introducir texto mediante el
teclado,exceptosisetratadeundatodefinidocomocadena(verpágina76).
Unaposibleayudapararealizarestetrabajodeformamásbreveymássegura,esactivaren
labarradeherramientaselbotónde Etiquetasdevalor .Estaaccióncambiaenlapantallalosnúmeros
quetecleamosenvariablescategóricasporlasetiquetasverbalesquehemosestablecidoalcrearla
mismaenelcampoValores(verpágina75).
La ventaja añadida es que (además
denotenerquememorizarsielcódigo1,en
el típico ejemplo del sexo, se lo hemos
asignado a hombres o a mujeres), en las
casillas donde se anotan los datos de la
variable aparece una flecha con un menú
desplegable donde se escoge la categoría
viéndolaentretodaslasexistentes:
Laactivacióndeestebotón,además,nospermitecomprobarenunrápidovistazodelahoja
de datos qué variables son categóricas y cuáles numéricas, puesto que éstas últimas al no tener
definidaslasetiquetasdelosvalores(verpágina75)permanecencomonúmeros.Enelejemploque
seacabadeinsertar,las3primerasvariables(enlascolumnas)sondetipocategórico,mientrasque
la cuarta es cuantitativa. Esto ocurre siempre, a no ser que el usuario haya olvidado definir las
etiquetasenelcampovalores.
Una vez terminada la base de datos SPSS con toda la información de los
sujetos introducida hay varias acciones con los datos de las variables, previas a los análisis
estadísticos,quepodemostenerquerealizardeformabastanteasidua.
Esteeselcasodeprocedimientoscomo:
1. recodificarunavariablecategórica;
2. categorizarunavariablecuantitativa;
3. calcularunanuevavariablecuantitativa;y
4. calculartiempoentrefechas;
que vamos a comentar a continuación, aunque sin entrar en todo tipo de detalles y situaciones
posibles.
1.ͲRECODIFICAR
Larecodificaciónesunprocesomuyútilcuandosedeseanreagruparvaloresocategoríasde
unavariableyacreadadentrodenuevascategorías.Estatareasepuederealizartantoparacrearuna
nuevavariablecomoparasustituirlaantiguaporlanueva.
Apesardelaexistenciadeestasdosopciones,personalmenterecomiendosiempreusarla
primera. Haciéndolo así, conservamos la información de la variable original y podremos volver a
usarladenuevocuandonosseanecesaria;encambiosirecodificamossobrelamismavariable,los
datos antiguos se perderán para siempre y nunca los podremos volver a recuperar salvo que los
volcásemosdenuevodesdelafichauhojaderegistro.
Veamosunejemplomuy simple. Supongamosque hemosrecogidoeldenominado“estado
civil”delaspersonasquecomponenlamuestrayqueestavariablesehadefinidocon5categorías
asignandolosvalores:1asolteros,2acasados,3adivorciados,4aviudos,y5alaspersonasque
convivenenpareja.Posteriormentedecidimosquedemomentononecesitamostantaconcreciónen
lasituacióndelosindividuosyquenosbastaparaeltrabajounavariablequepodríamosdenominar
“tenerpareja”,dicotómicaportanto,conloscódigos1(si)y2(no).
Para este ejemplo, por la razón antes comentada, vamos a recodificar a la variable en una
nueva,conlasiguienteequivalenciaentrecategorías:
Variableorigen: Variabledestino:
ESTADOCIVIL TENERPAREJA
2+5= 1 oSi
1+3+4= 2 oNo
ParallevarloacaboenlaversiónSPSSͲ15ejecutamoslarutadenavegación:
TRANSFORMARÖRECODIFICARENDISTINTASVARIABLES
que abre un cuadro de diálogo donde se nos pide que le demos nombre y etiqueta a la nueva
variable,traslocualelbotón Valoresantiguosynuevos… abreunsubcuadrodondeencontramosuna
serie de elementos de ayuda para que la conversión de categorías según las equivalencias
preestablecidas(comolasdelaarriba)sepuedanhacerdelaformamásrápidaycómodaposible.
Enlaimagensiguienteseobservaelcuadroysubcuadrocomentados:
Usandodenuevolarutadenavegación:
TRANSFORMARÖRECODIFICARENDISTINTASVARIABLES
actuaríamos exactamente de la misma manera que antes; por lo que no creo necesario volver a
comentarloscuadrosdediálogoalosquetenemosqueacceder.
2.b)Deformaautomática:
Esta opción es muy cómoda cuando se ha decido que lo más conveniente es cortar a la
variablecuantitativaporunaseriedevaloressituadosenelcontinuoalamismadistanciaunosde
otros,demaneraqueelresultadosseaunaseriedecategoríasnuméricas(llamadasintervalos)que
incluyenlamismacantidaddevalores(denominada:amplituddelintervalo).
Volviendo al ejemplo de la edad, imaginemos ahora que las personas de la muestra están
comprendidasentrelos18ylos97años,demaneraqueportantohayunadiferencia(oamplitud
total)de80añosentreambosextremos.Apartirdeestosdatosdecidimosqueseríaadecuadocrear
8intervalosdeamplitud10(este10quieredecir:10unidadesdemedida,esdecir10años),deforma
talquesevanacrear8categoríasnuméricasointervalosdeedadqueagruparánalossujetosde10
en10años.
LarutadenavegacióndeSPSSͲ15paraestoes:
TRANSFORMARÖAGRUPACIÓNVISUAL…yseguirconelbotónCrearpuntosdecorte…
donde se le dice al programa la intención que tenemos, y él de forma automática establece los
valoresdelospuntosdecortequeseannecesariosycrea(yañade)lanuevavariableenlabaseque
tenemos abierta en el Editor del SPSS. En las imágenes que se incluyen debajo, se observan los
cuadrosdediálogoquesiguenalaaperturadelarutadenavegacióncitada,asícomoelgráficodela
variableutilizadaconlaindicacióndedóndequedanlospuntosdecorte:
Enestecasosehaoptadoporcrear8intervalosdeamplitud10,perotambiénpodríanhaber
sido perfectamente 10 intervalos de amplitud 8. No obstante, la norma estadística establece para
estassituacionesqueespreferibleutilizarunnúmeromayordeintervaloscontalquelaamplitudde
los mismos sea lo más pequeña posible; así que también podíamos haber creado 20 intervalos de
amplitud4porejemplo,peroseguramenteestoseríamuyincómodoparaelinvestigadorqueloque
buscaconestetipodeaccionesessimplificarlainformacióndelavariableagrupandoalossujetos
afines en un número reducido de categorías o valores. La norma citada es imprescindible para los
cálculosestadísticosquesehacendeformamanualconecuaciones;porloquecuandoempleamos
SPSStenemosmáslibertadalrespecto.
LafuncióndeSPSSqueacabamosdeemplearjuegacon3elementoscomosepuedeapreciar
en la imagen superior izquierda: posición del primer punto de corte, número de puntos de corte, y
amplitud(delosintervalos,quevaaserconstante).Elusuariodebedefijarnecesariamenteelvalor
que desea que tengan 2 de estos elementos, los que creamos oportunos, y SPSS calcula el 3º.
Despuéscrearálascategorías,únicamentecuandoaceptamoslasoluciónpropuesta.
Es importante tener en cuenta cuando estemos ejecutando esta acción que para crear K
intervalossenecesitanK1puntosdecorte,esdecirquenecesitamos1puntodecortemenosque
categoríasdeseadas(cuestiónquerecuerdaelpropioprogramaapiédemenú).Estacuestiónsevaa
vermásclaramenteenelsiguientecaso,cuandosecortaalavariabledeformamanual.Vamoscon
ella.
2.c)Deformamanual:
Estaterceraopciónesadecuadacuandoelinvestigadordeseaobservarpreviamentecómose
distribuye la variable, y en función de lo que vea, establecer diferentes puntos de corte que se
ajusten de forma más adecuada a sus intereses y objetivos. Esto implica que el resultado de la
categorización dará lugar a un número arbitrario de intervalos que con casi completa seguridad
tendrándiferentesamplitudes.
Insistiendo una vez más con el ejemplo de la edad, abajo se inserta una imagen con una
categorizaciónmanualsubjetivacualquiera,queestablece6intervalosdeamplitudesdistintas:
Aestasituaciónsehallegadoejecutandolamismarutadenavegaciónanterior,esdecir:
TRANSFORMARÖAGRUPACIÓNVISUAL
perosinpulsarelbotónanteriormenteusado(crearpuntosdecorte),sinoescribiendoenlascasillas
correspondientes los valores de cada uno de los puntos de corte que el usuario a elegido
subjetivamente,yqueenesteejemplohansidocincoestablecidosenlosvalores:40,55,65,73y83,
porloquesehancreadocomosedecíaarriba6intervalos(elprimero:menoresa40;yelúltimo:a
partir de 84), uno más que el número de puntos de corte. Las etiquetas de las categorías las crea
automáticamenteelprogramasiasílodeseamos.
Enelgráficodeestecuadrodediálogo,tambiénsepuedenverlaslíneasverticalesseñalando
la situación de estos cortes, y con ellas se aprecia las diferencias de amplitud entre las categorías
definidas(másaúnsisecomparaconelgráficodelacategorizaciónanterior).
EstemenúdeAgrupaciónvisualcontienemásalternativasparacrearcategoríasapartirde
losvaloresdeunavariablecuantitativa.Sepuedenveralpicarenelbotón Crearpuntosdecorte… ,en
la parte media e inferiordel cuadro de diálogo que se abre y que es el que se ve en imagen de la
izquierda de la página anterior. Pero para utilizarlo necesitamos conceptos de herramientas
estadísticasqueaúnnoconocemosyqueestudiaremosenelTema6delpróximocapítulodedicado
alaEstadísticaDescriptiva.
3.ͲCALCULARVARIABLE
A continuación vamos a realizar una muy breve introducción sobre la opción del SPSS que
permitecalcularnuevasvariablescuantitativasapartirdelosdatosnuméricosdeotrasvariablesya
incluidasenlabaseyquetambiéndebendeserdetipocuantitativo.
Para aplicar este procedimiento se puede emplear todo tipo de operadores matemáticos,
aritméticos,algebraicos,trigonométricos,etc…,yencadenarconellostantasvariablescomosedesee
paraalcanzarelresultado,pormuycomplejoqueparezcaapriorielcálculodelmismo.
Porejemplo,esmuycomúnenPsicologíaaplicartestqueestáncompuestosporunaelevada
colección de preguntas. Cada una de ellas sería una variable. Y la suma de varias de las preguntas
daríalugaraunanuevavariablequemediríaundeterminadoconstructo.Porello,quizáunadelas
accionesmáscomunesparalospsicólogosesladecrearunavariablederesultado(odestino)que
sea la suma de un conjunto de variables cuantitativas ya conocidas. Es decir, algo parecido a la
siguienteexpresióndeejemplo:
MEMORIAACORTOPLAZO=P1+P4+P6+P10+P15
donde:P1,P4;etc…,sonlasvariablesquecorrespondenconcadapregunta(P)y“memoriaacorto
plazo”seríalavariablederesultadoquesecalculaconlasumadelasanteriores.
Enlamismalínea,podemosimaginarcualquierotraexpresiónmatemáticaquearrojecómo
resultadounanuevavariablenumérica:
ͺ
ൌ Ͷ ሺʹ ൈ ሻଶ െ ͳ
ͳͶ
(queesunaexpresiónabsolutamenteinventada,sinsentidoypocoprobableenCC.HH.,peroconla
quesepretendedejarconstanciadequetodo,ocasitodo,esposibleenestemenúdecálculo).
Larutadelaaplicaciónquenosllevahastaestaacciónes:
TRANSFORMARÖCALCULARVARIABLE
queabreelsiguientecuadrodediálogo:
Enélhayquedestacarvariascuestiones.
Para comenzar véase en la parte superior algo parecido a una ecuación matemática con la
forma:Variablededestino=expresiónnuméricaquecontiene2casillas,unaparaescribirelnombre
delavariablederesultadoquevamosacrear(juntoaltipoyalaetiqueta,queaparecedebajo)yotra
paraescribirlaecuación,semejanteacualquieradelosejemplosdearriba,conlaquesevaarealizar
elcálculo.
También es destacable que el menú incorpora algo parecido al teclado de una calculadora
con funciones básicas y un listado de funciones avanzadas que contiene infinidad de posibilidades
paracrearlaexpresiónmatemáticadecálculo.
Este tipo de procedimiento acerca el SPSS al funcionamiento de una hoja de cálculo (tipo
Excel) pero no alcanza ni mucho menos la potencia de ellas. Una cuestión a tener en cuenta al
respectoesque,adiferenciadelashojasdecálculo,estasvariablesderesultadonose“recalculan”
cuandoseañadenenlabasenuevosdatosdenuevoscasos.Porestarazón,esnecesarioqueesta
accióndecrearnuevasvariablesderesultado,serealicesolamentecuandoyasetengalaseguridad
dequeestántodoslosindividuosdelamuestraincluidosenlabasededatos.
4.ͲCALCULARTIEMPO
Por último, vamos a introducirnos en la forma de calcular variables que representen el
tiempoquehatranscurridoentre2fechasconocidasconlaunidaddemedida(minutos,horas,días,
meses,años,…)quenosconvenga.
Obviamenteseprecisaqueambasfechasestándefinidasconelmismoformato(alrespecto
sepuederevisarlapágina75),porejemplolaformatradicionalespañola:díaͲmesͲaño,con2dígitos
paraeldíayelmesy4paraelaño,separadosporpuntos(tipo:25.06.2008)
Estafunciónesmuyútilparaconoceredadesexactasentreunafechaconcretaconstanteyla
fechadenacimientodecadaunodelossujetosdelamuestra;oparahallareltiempoquetranscurre
entre un diagnóstico y la curación del paciente, o entre el día de ingreso y el día de alta en un
hospital;etc…
SPSShaidomejorandopaulatinamente,ensussucesivasversiones,laformaderealizarestos
cálculos. Actualmente, al menos en la versión 15 que es la que se usa para este manual, tiene un
sistemadeayudamuycompletoysencillodeutilizar.
Aélseaccededesdeelmenútransformar,comotodosloquehemoscomentadoalolargo
deestetema,eligiendolaopcióndelAsistenteparafechayhora;esdecir:
TRANSFORMARÖASISTENTEPARAFECHAYHORA
Dichoasistentecontienevariasposibilidadescomoseapreciaenlaimageninferior:
perodetodasellas,laquenosinteresamarcarparaelobjetivoquejustificanuestrocomentario,es
lade:Realizarcálculosconfechasyhoras.
Almarcarestaopción,seabreunnuevocuadrodediálogoquenospermite:
- sumarorestartiempoaunafechayaconocida;
- calcularunidadesdetiempoentredosfechas;
queeslacuestiónqueestamostratandoenestemomento.
Enlaimageninferiorsepuedevercómoquedaríalaexpresiónquenoscalculaensemanasel
tiempodehospitalizaciónentrefechadealtaeingreso:
Paraterminarelcálculo,sólonosrestaunpasoqueesdarlenombrecodificadoyetiquetaa
lavariablederesultadoodedestino.
Aunque se podría seguir hablando sobre cuestiones generales del uso del SPSS, con lo
explicado hasta aquí creo que es suficiente para que el estudiante empiece a trabajar con el
programa. El resto del aprendizaje se irá realizando simultáneamente al de las herramientas y
técnicasestadísticas.AestosededicanelrestodeCapítulosdeestemanual.
De inmediato comenzamos con el estudio de las herramientas que pone a nuestra
disposiciónlaEstadísticaDescriptivaparacomenzarconelanálisisdelosdatos.
Páginadonde
Páginadonde
Término aparecepor
sedefine
primeravez
89
CAPÍTULO
2
ESTADÍSTICA
DESCRIPTIVA
Descriptiva de variables categóricas
91
Tema 5
DESCRIPTIVA
DE VARIABLES
CATEGÓRICAS
5.1.ͲOrganizacióndedatos:ladistribucióndefrecuenciasyporcentajes
5.2.ͲRepresentacionesgráficas
5.3.ͲTablasdecontingencia
Yasabemosquelamedicióndeunavariableenunamuestrageneraunaserie
dedatosnuméricoscuyosignificadoypropiedadesdependedelaescalademedidayportantodel
tipo de variable utilizado, y que son indicadores para cada uno de los sujetos observados de su
conductaodelamanifestacióndesunivelocategoríaenelrasgomedido.
Puestoqueenestetema trabajaremosconvariablesnominales,ocategóricas,recordemos
que los valores numéricos que manejamos son solamente códigos arbitrarios que se asignan a las
modalidadesdelatributosegúnelcriteriodelinvestigadoryqueportantosolamentecumplenuna
propiedaddiferenciadora(deigualdad/desigualdad)entrecategoríasyespecialmenteentresujetos.
Habitualmente, el número de datos recogido es tan elevado que no es posible una simple
observación directa de los mismos para extraer conclusiones, ni estadísticas ni mucho menos
científicas. Es entonces cuando es necesario organizar o estructurar estos valores para que nos
faciliten el acceso a la información que contienen. Esto es lo que se denomina en terminología
estadística:elrecuentodecasos(usandocasoscomosinónimodeindividuos,sujetos,oelementos
delamuestra).
La herramienta más utilizada para ello, tanto en las variables nominales que estudiamos
ahora comoen las variables cuantitativas que veremos en el Tema siguiente, son las denominadas
DistribucionesdeFrecuencias,cuyafunciónestriple:
1º) resumelainformaciónrecogida;
2º) facilitaloscálculosmanualesdelosestadísticosdescriptivos(portanto,siutilizamosalgún
programainformáticocomoSPSS,ladistribucióndefrecuenciaspuedeseralgosecundario,
especialmenteenlasvariablescuantitativasdelpróximoTema);
y3º)ayudaacrearrepresentacionesgráficasdelasvariables.
Eltérminofrecuenciaincluidoenelnombredelaherramienta,equivaleanúmerodecasos,
individuosoelementos;porloque:
Unadistribucióndefrecuenciasunivariada,esdecirde1solavariable,esuna
tablaquecontienedoscolumnas(odosfilas,siseprefiereporcuestionesestéticaso
de espacio físico en papel) puestas en correspondencia: en una de ellas están
expresados todos los valores de variable que han aparecido durante la observación
delatributoyenlaotralacantidaddesujetos(elementos,uobjetosestadísticosdela
muestra)quehanobtenidocadaunodeesosvalores.
Estacantidaddeindividuos,enlasvariablescategóricasonominales,puedeserexpresadade
dosformas:
Ͳ en frecuencia absoluta (simbolizada como ) que es el número de veces que se repite en la
muestracadacategoríaovalordeunavariable;
Ͳ o en frecuencia relativa o proporción (símbolo: ) que es el cociente entre la frecuencia
absolutadecadavaloryelnúmerototaldecasosdelamuestra(): .Estafrecuencia
relativa,multiplicadaporcienequivalealporcentajedesujetosdecadavalorocategoría.
Unavezdefinidaestaprimeraherramientaestadística,yapartirdeaquícontodaslas
demás,elestudiantesevaaencontraralmenos1ejemploresueltoparaacompañarycompletar
la comprensión de las mismas. Para realizar la parte operativa del ejemplo se empleará el
programaSPSSensuversión15,entodosaquelloscasosqueseaposiblequeseránlainmensa
mayoría.Seindicarálarutadenavegaciónporlosmenúsyloquehaymarcarenloscuadrosy
subcuadrosdediálogo.Esposiblequeenlafuturasversionesdelprogramapuedahaberalgún
cambio,peronodeberíandesermuyllamativos.
Ejemplo1
Supongamos que se desea conocer el constructo, o atributo, “intención de voto si
se celebraran elecciones generales hoy” mediante una variable que se ha codificado de la siguiente
manera: se asigna 1 a votar al PSOE; 2 a votar al PP; 3 a IU; y 4 a votar a otros partidos. Es habitual
reservar el número 9 como el código para representar en este tipo de variables a las personas que no
quieren contestar. Como tenemos poco presupuesto, mediante el muestreo por conglomerados se
selecciona 1 conglomerado que contiene 3 edificios de diferentes barrios de una ciudad de tamaño
medio; se toma 1 al azar a 1 adulto (mayor de 18 años) de cada familia residente en dichos edificios de
manera que el total de personas que componen la muestra es: n=70. El resultado tal y como quedaría
en una supuesta hoja de registro es el siguiente:
1 2 2 1 1 1 3 1 2 2
2 4 1 2 4 4 2 2 1 2
1 1 3 1 2 2 1 2 4 4
2 9 2 1 9 1 4 1 2 2
2 2 9 1 1 1 9 4 2 1
3 4 2 1 2 1 1 9 1 1
1 3 4 1 9 2 1 2 2 1
Aunque es un conjunto de datos pequeño, el investigador no es capaz de determinar a
simplevistacuáleslainformaciónmásrelevantequecontienenestosvalores,oentodocasoprecisa
de un innecesario esfuerzo: ¿hay mayoría de alguno de los partidos?, ¿hay más intención de voto
haciaelPSOEohaciaelPP?,etc…
Y a medida que la cantidad de datos recogida aumenta, aún es peor. En cambio, todo se
simplificasiserealizaunrecuentodecasosyselosagrupaenunadistribucióndefrecuencias.Esta
tareaeslamássencillaquesepuederealizarenEstadística.
LaúnicarutaquetieneSPSSͲ15parallevarlaacaboes:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIAS
o bien, si se ha creado una barra de herramientas para el acceso rápido a las técnicas estadísticas
comolacitadaenlapágina72,pulsandoenelbotón:
Aquíallado,seapreciaelcuadrodediálogoque
seabre.Dellistadodevariablesdelaizquierdaseseñala
la variable a analizar y se traslada con la flecha al
recuadro vacío de la derecha. La opción “Mostrar tabla
de frecuencias” ya viene marcada por defecto, así que
soloquedaclicarenelbotón Aceptarparaqueseejecute
laherramientadeseada.
El resultado (que SPSS muestra en un archivo nuevo, ver página 70) se observa en la tabla
quesigue,dondesehasombreadolomásinteresanteacomentar:
En primer lugar la columna Frecuencia,
Intención de voto HOY
contieneelnúmerodepersonasdelamuestraque
Porcentaje
Frecuencia Porcentaje válido manifiestan votar a cada partido. Al lado la
Válidos PSOE 27 38,6 42,2
PP 24 34,3 37,5 columna Porcentaje convierte los valores
IU 4 5,7 6,3 anteriores a tantos por ciento. Y por último, se
Otros 9 12,9 14,1
Total 64 91,4 100,0 añade un interesante Porcentaje válido. La
Perdidos NC 6 8,6
Total 70 100,0
diferenciaentreestos2últimosporcentajesradica
enelnúmerototaldecasosalqueserefiere.
Los valores de la columna Porcentaje se calculan tomando como total, al de toda la
muestra cuyainformación sehavolcadoenla base dedatos,en esteejemploൌͲpor tanto.En
cambio los valores del Porcentaje válido se calculan tomando como a los sujetos que han
respondido a la pregunta que genera la variable, descontando entonces a los que no quisieron
contestar(código9),esdecirൌͶenelejemplo.Peroparaqueestohayaocurridoasísehatenido
quedefinirpreviamenteenelcampoPerdidosdelavariable(hojadelavistadevariables,verpágina
77)indicandoqueelvalor9esundatoperdidoporelusuario.
OtrarazónparaqueelPorcentajeyelPorcentajeválidosecalculencondiferente,esque
tengamos sujetos en la base de datos cuya información en la variable que se está analizando sea
desconocida.Estoesalgoquesucedemásvecesdeloquepuedeparecerenprincipio.Pongamospor
caso que hemos diseñado un encuesta en papel que, como Psicólogos de Recursos Humanos,
administramosalosaspirantesaundeterminadopuestodetrabajoyquehaypersonasquedejanen
blanco (sin responder) algunas de las preguntas del mismo. O que aplicamos un test psicológico
donde los sujetos pueden dejar sin contestar las preguntas cuya respuesta desconocen. O que
hacemosunseguimientoeneltiempodeungrupodepacientesynoconseguimosrealizartodaslas
mediciones de todos ellos, con lo que nos falta información de algunos de los momentos de
observación.TodosestosejemploscorrespondenconloqueSPSSllamaperdidosporelsistemayque
laEstadísticahadenominadotradicionalmentecomomissing(datamissing).Sobreeltratamientode
losdatosmissinghayescritosmuchoslibrosyartículosenrevistasespecializadas.Aquínovamosa
entrarenello.Simplementedecir,quesinosobrepasanel10%oel15%delamuestra,nosongran
problema.Cuandotenemosunmissing,dejaremosenblancosucasillacorrespondienteenelEditor
dedatosdeSPSSyél,automáticamente,larellenaconunpunto(.)
Enestecaso,losvaloresdelacolumnaPorcentajesecalculancomosiempresobreeltotal
delabasededatos,conloqueenellasabremosquétantoporcientohaydemissing.Porsuparteel
Porcentajeválidosecalculasobreelcuyosdatossonconocidos(descontandotambiénlosperdidos
definidos por el usuario, si es que los hay). Sólo en el caso de que no existan ni datos missing ni
perdidosporelusuario,losvaloresdeambascolumnasdeporcentajesonidénticos.
Pero volvamos con los resultados obtenidos en el análisis realizado. La interpretación
estadística de la tabla de frecuencias hallada e insertada en la página anterior, sería más o menos
como esta: un 8,6% de los encuestados no quieren manifestar a qué partido político votarían si
hubieseeleccioneshoymismo;delosquesirespondieron(64)unaligeramayoría,el42,2%dicenque
loharíanalPSOE,mientrasqueel37,5%loharíanalPP.
En un informe, o artículo, estadístico no se tienen que comentar todos los resultados que
aparecenenunatablacomoladearriba(ocualquierotradelasqueiremosviendoenadelante),sino
quesolamentesehabladeaquelloqueseconsideraqueeslomásrelevanteenfuncióndelproblema
deestudioydelosobjetivosdelainvestigación.
Junto a esta forma de resumir la información observada, la única otra herramienta
estadística,comotal,quesepuedeutilizarconestetipodevariablessedenominaModa;ysedefine
como la categoría de la variable con mayor frecuencia de aparición. En el ejemplo anterior,
precisamentepartedelainterpretaciónquecomentábamosestáasociadaalconceptodemoda,en
concretocuandodecíamosqueunamayoría(ligera)decíanquevotaríanalPSOE.Comoseaprecia,el
conceptodemodaestáasociadoalaideacoloquialdeque“loqueestádemoda”esaquelloquemás
abunda, es decir lo más frecuente. Es importante no confundir el concepto; la moda no es la
frecuencia mayor (las 27 personas, o el 42,2%) sino la categoría de la variable donde aparece esta
frecuenciamáxima,queseríaelvalor1delavariablecódigoquecorrespondeconvotaralPSOE.
Lamodaesunaherramientapocosensiblea
loscambiosqueseproducenenlavariable;asíenel Intención de voto HOY
El tipo de gráfico más utilizado con variables categóricas, y también el más
conocidoseguramente,eseldenominadociclogramaotambiéndiagramadetartaodepastel,pero
sobretododiagramadesectores.
Setratadeuncírculorepresentadoendosoen PSOE
PP
tres dimensiones, donde se asigna un sector a cada IU
categoría de la variable. La longitud del arco de cada Otros
Perdido
sector (es decir el ángulo, en grados) depende de la 27
38,57%
frecuenciaobservadaparaélenlamuestra.Elgráficode
al lado está realizado (por SPSSͲ15) con los datos del 24
34,29%
ejemploanterioracercadelaintencióndevoto.
Comopuedeverse,enlasetiquetasqueacompañanalgráfico,sueleindicarseelporcentaje
de cada categoría que nos aporta una información más precisa y más fácil de interpretar; aunque
tambiénpuedeincluirselafrecuenciaabsolutasisedesea.
mismosdatosanterioresseríaelqueseapreciaa 0
PSOE PP IU Otros
losvalores(seanfrecuenciasoporcentajes)enel
4
eje de abscisas. Este giro de ejes, se suele IU 6,25%
másfácilleertodalainformación.Aunqueenel
27
ejemplo que nos ocupa en este caso no sería PSOE 42,19%
Comoyaseadelantabaanteriormente,losgráficosdeSPSSsonbastantesimplesytampoco
elprogramadalaposibilidaddemejorarlosmucho.Aunquehayqueadmitirqueenlosúltimosaños,
algosíquehaprogresadoenesteaspecto.Ellectorpuedeentretenerseeneditarsusgráficosyjugar
conlasopcionesdeSPSSparahacerlomásvisuales.
Otrotipodegráfico,menosutilizadoesosí,eseldenominadopictograma.Enélseescogeun
dibujoqueestéasociadoalobjetoquesevaarepresentar(unavión,unárbol,unacasa,unsoldado,
unapastilla,unabombilla,etc...,ennuestroejemplolomásadecuadoseríaeldibujodeunaforma
humana). El objeto elegido se hace corresponder con una equivalencia determinada (por ejemplo:
cada dibujo es igual a un 10% del total de la muestra; o a una frecuencia de 500 casos; etc…). Al
construir el gráfico, cada categoría vienen representada por tantos dibujos del objeto como sean
necesariosenfuncióndesufrecuenciadeaparición.Ysihayqueemplearvaloresfraccionadosdel
quesefijacomoequivalencia,serepresentaalaformaelegidacortadaenproporción.
SPSS tiene en la barra de menús principal uno específico para Gráficos (ver en página 71)
pero no contiene a los pictogramas en su biblioteca. Por ello, no podemos mostrarlo junto a los
anteriorespararepresentarlosresultadosdelejemplodelaintencióndevoto.
Una extensión de la distribución de frecuencias es la denominada tabla de
contingencia.Estetipodetablasespecificacómosedistribuyenlasfrecuenciasresultantesdelcruce
dedos,omás,variablescategóricas.
El aspecto de estas tablas tiene cierto parecido con un crucigrama, o quizás más con un
sudoku, por aquello de los números. En su versiónmás simple cruza 2 variables: una entra por las
columnasdelatablaylaotraporlafilas.Haytantascolumnasytantasfilascomocategoríastienen
cadaunadelasvariables.Ylascasillascontienenprecisamentelafrecuenciadecrucedelacategoría
H de una variable con la categoría J de la otra variable. Este número de casos se denomina
precisamentefrecuenciadecasillaparaquenohayadudadesusignificado.
Así que una tabla de contingencia es una tabla de doble entrada con los nombres de las
categorías de las variables en la cabecera de cada columna y de cada fila, y con números en su
interior(lasfrecuenciasdecasilla).Lasumadeestasfrecuenciasgeneraunafilamásyunacolumna
más que contiene a las denominadas frecuencias marginales, y que coincidirán siempre con la
distribucióndefrecuenciasdecadavariableanalizadaporsísola;esdecirunadistribuciónunivariada
(de1variable)comolasexplicadasenelanteriorapartado5.1.
Veámoslocontododetalleconelsiguienteejemplo.
Ejemplo2
Supongamos que en una encuesta realizada de forma anónima entre una muestra
aleatoria simple de 168 estudiantes de las universidades públicas españolas, hemos recogido estos
datos:
- su sexo (variable dicotómica, codificada: 1=hombre; 2=mujer);
- la clase socio-económica a la que se consideran que pertenecen (nominal o categórica,
codificada: 1=baja; 2=media-baja; 3=media-media; 4=media-alta y 5=alta);
- y su ideología política (categórica: 1=derecha; 2=centro; y 3=izquierda).
Lasdistribucionesdefrecuenciasunivariadasobservadasencadaunadeellas,sonlasque
seincluyeninmediatamentedebajo.SehanobtenidoejecutandoelmenúdeSPSSͲ15exactamente
igualqueenelejemplonº1(verpágina93).Peroaquíaparecendeformasimplementetestimonial,
ysimplificadas,puestoquesuanálisisnoeselobjetivodeesteapartado.Perosíquenospermitirán
comparar sus resultados con los de las frecuencias marginales de la tabla de contingencia que
despuésvaaaparecer.
Clase Socio-Económica
Sexo Ideología Política
Porcentaje
Porcentaje Frecuencia válido Porcentaje
Frecuencia válido Baja 22 13,1 Frecuencia válido
Hombre 87 51,8 Media Baja 43 25,6 Derecha 65 38,7
Mujer 81 48,2 Media Media 50 29,8 Centro 23 13,7
Total 168 100,0 Media Alta 38 22,6 Izquierda 80 47,6
Alta 15 8,9 Total 168 100,0
Total 168 100,0
Delodichoalcomienzodelapartadosededucequelastablasdecontingencianospermiten
cruzar las variables de manera que podamos saber, por ejemplo para este caso que estamos
analizando, cuántas mujeres son de izquierdas, o cuántos sujetos de clase baja se consideran de
derechas,oquéporcentajedevaronesdeclasesocialaltaseconsiderandeideologíadeizquierda.
Para concretar este ejemplo, vamos a cruzar la clase socioͲeconómica de los universitarios
encuestados con la ideología política que manifiestan defender. La obtención con SPSS de esta
herramientaestadística,sellevaacaboenlarutadenavegación:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖTABLASDECONTINGENCIA
oalpulsarenelbotón: delabarradeherramientasdeaccesorápidoalastécnicasestadísticas,
queseguramenteelestudianteyasehabrácreadosiguiendoelcomentariohechoenelTema4.
Hecho esto, se abre el cuadro de diálogo que se puede ver en el lado la izquierdo de la
imageninsertadaacontinuación(enlapáginasiguiente).
En este cuadro se selecciona a las variables en el listado general y se trasladan a los
recuadrosenblancodeallado.Lacolocacióndecadavariableenfilasoencolumnasestotalmente
arbitraria;sepuedeseguircomoenestecaso,criteriosdeestéticaenelpapelimpreso,ocualquier
otrarazón.Comosepuedeverendichaimagen,laideologíasehaubicadoenfilasylaclasesocioͲ
económicaencolumnas.
A continuación se pulsa en el botón Casillas… (en la parte inferior del cuadro) que abre el
subcuadrodediálogoqueseincluyealaderechadeesamismaimagen.Entrelasopcionesquenos
permite elegir, de momento sólo vamos a señalar Porcentajes: Total. La marca de las Frecuencias:
Observadasyavienepordefectoenelprograma.
Saliendo del subcuadro actual con el botón Continuar y terminando al pulsar Aceptar en el
anteriorcuadroprincipal,seobtienecomoresultadolatabladecontingenciadeseadaqueseincluye
inmediatamente debajo. En ella, sólo se han sombreado algunas casillas para comentar cómo se
procedeasulecturaeinterpretación;yrecuérdesequenosetratadeleertodalainformaciónque
apareceenlatablasinosólolaqueesmásrelevanteparalainvestigaciónconcreta.
Clase Socio-Económica
Baja Media Baja Media Media Media Alta Alta Total
Ideología Derecha Recuento 7 17 19 17 5 65
Política % del total 4,2% 10,1% 11,3% 10,1% 3,0% 38,7%
Centro Recuento 5 6 5 5 2 23
% del total 3,0% 3,6% 3,0% 3,0% 1,2% 13,7%
Izquierda Recuento 10 20 26 16 8 80
% del total 6,0% 11,9% 15,5% 9,5% 4,8% 47,6%
Total Recuento 22 43 50 38 15 168
% del total 13,1% 25,6% 29,8% 22,6% 8,9% 100,0%
Las frecuencias marginales a las que antes hacíamos referencia, son las que vienen
identificadas en la última fila y en la última columna con el rótulo: Total; su lectura se refiere
solamentealavariablequeentraporfilasoalaqueentraporcolumnas,segúnelcaso.Comparey
compruebeellectorquecoincidenconlasdelasdistribucionesunivariadasdelapáginaanterior.
Las frecuencias de casilla son todas las demás del interior de la tabla y su lectura se hace
siemprecruzandocategoríadefilaconcategoríadecolumna.
Sobrelainterpretaciónestadísticadelatablahayqueadvertirquecomonosetratadehacer
un estudio exhaustivo que responda a un objetivo concreto de investigación, debería de ser
suficiente para comprender cómo se leen estos resultados decir que se aprecian perfectamente
cuestionescomo:
Ͳ quedel47,6%(80casos)depersonasqueseconsiderandeizquierda,lamayorpartesonde
clasemediaͲmedia(26,un15,5%)ymediaͲbaja(20,un11,9%);
Ͳ oquesólohay7encuestados(un4,2%)queconsiderándosedeclasebajasondederechas;
Ͳ oqueenlamuestrasehaincluidoaun8,9%(15sujetos)declasealta.
queson precisamentelos valoressombreadoenlatablayquesonmerosejemplos,notienen por
quéserlasconclusionesmásimportantesdelcrucerealizado.
Enlaprimeradeestas3lecturas,separtedeunafrecuenciamarginalparadesglosarlaensus
principalesfrecuenciasdecasilla.Enlasegundasecitaunasolafrecuenciadecasilla.Yenlaúltima,
unaúnicafrecuenciamarginaldeladistribuciónmarginaldelavariablequeentraporcolumnas.
Sienelsubcuadrodediálogoanteriorenvezdemarcarelporcentajetotal,obienalavez
que él, hubiésemos marcado Porcentajes: Fila y Columna, habríamos obtenido en la tabla de
contingenciaunainformaciónqueresultacasisiempremásinteresantequelaanterior.Veámoslo,y
compáreseconlovistoenlatablaanterior:
Tabla de contingencia Ideología Política * Clase Socio-Económica
Clase Socio-Económica
Media Media Media
Baja Baja Media Alta Alta Total
Ideología Derecha Recuento 7 17 19 17 5 65
Política % de Ideología Política 10,8% 26,2% 29,2% 26,2% 7,7% 100,0%
% de Clase Socio-Económica 31,8% 39,5% 38,0% 44,7% 33,3% 38,7%
Centro Recuento 5 6 5 5 2 23
% de Ideología Política 21,7% 26,1% 21,7% 21,7% 8,7% 100,0%
% de Clase Socio-Económica 22,7% 14,0% 10,0% 13,2% 13,3% 13,7%
Izquierda Recuento 10 20 26 16 8 80
% de Ideología Política 12,5% 25,0% 32,5% 20,0% 10,0% 100,0%
% de Clase Socio-Económica 45,5% 46,5% 52,0% 42,1% 53,3% 47,6%
Total Recuento 22 43 50 38 15 168
% de Ideología Política 13,1% 25,6% 29,8% 22,6% 8,9% 100,0%
% de Clase Socio-Económica 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
Paraayudarnosconlaexplicaciónsehansombreadovariascasillas:
1. La fila de la ideología de izquierda. El último dato en la columna del total de la derecha, la
frecuencia marginal (80), se convierte en el 100% de los encuestados que dicen ser de
ideologíadeizquierdas.Deellos,un32,5%sondeclaseMediaͲmediayun25%declaseMediaͲ
baja,…ysóloun10%sondeclasealta.
2. La columna de la clase MediaͲmedia. El último dato en la fila total de abajo, la frecuencia
marginal(50),setomacomoel100%delossujetosdelcitadonivelsocioͲeconómico.Yentre
ellosexclusivamente,podemosverqueel52%sedeclarandeizquierdasfrenteaun38%que
dicenserdederechas.
3. Lafrecuenciadecasilladepersonasdeclasebajaydederechas(7)es,segúnsemire,un10,8%
detodoslosquesondederechas,oun31,8%detodoslosquesondeclasebaja.
La lectura de una tabla como la anterior, requiere lo que podríamos llamar ojo estadístico
(comoelojoclínico)yesalgoqueseeducaabasedepracticar.Demomento,elestudiantesedebe
de entretener en buscar lo más llamativo: los porcentajes más altos, los más bajos, los más
sorprendentes,etc….
Por otro lado y para terminar, hay que advertir que las tablas de contingencia son
fundamentalesenelestudiodelaasociaciónentrevariablescategóricas.
Así, de los resultados comentados en el ejemplo anterior: ¿se puede llegar a la conclusión
científica de que la ideología política de los estudiantes universitarios está ligada a su clase socioͲ
económica?... …; seguramente sí, pero este tipo de afirmación sólo se puede fundamentar
estadísticamenteconunatécnicadeanálisisbasadaenlatomadedecisiones.Yqueademásseráuna
conclusiónligadaaunaprobabilidaddecerteza(verpáginas33y49Ͳ50).
EstetipodetécnicaspertenecenalaEstadísticaInferencial,porloqueaúnnosquedamucho
caminoparallegarhastaellas.HabráqueesperarhastaelCapítulo5;pacienciaporfavor,quetodo
llegará.
Lastablasdecontingencia,admitenlaentradademásvariables.Esloquese
denominacapasydeahíelnombredetablasdecontingenciaporcapas.
Estas tablas son similares a las anteriores, pero se subdividen en tantas capas (como si
fuesen pisos) como categorías tenga la variable que tiene este papel. Por esta razón, también es
frecuentedecirquelatabladecontingenciasesegmenta(sedivide).
Porlodemás,esunatablacomolasanteriores,lascategoríasdelasvariableentranporfilas
y por columnas, y en las casillas de cruce además de las frecuencias observadas el usuario puede
pedirtodotipodeporcentajestalycomosecomentabaantes.
Todoestosecomprenderámásfácilmentevolviendoalejemploanterior.
Ejemplo3
Nos planteamos ahora, si el cruce de las variables ideología y clase socio-
económica será semejante en hombre y en mujeres.
Esto implica que deseamos segmentar a la tabla de contingencia mediante el sexo de los
encuestados.Sexo,esentonces,lavariablequedalugaralascapasdelatabla.
Para crear esta tabla, volvemos a entrar en el
mismomenúdelSPSSͲ15dondehicimoslaanterior(ver
página 98) y en él después de colocar a las variables a
cruzar en filas y columnas, se introduce al sexo en el
recuadrodenominadoCapa1de1.Estaeslaacciónque
segmentará la tabla de contingencia vista en la página
anterior, en dos capas: una con las frecuencias para los
hombresyotraconlosresultadosparalasmujeres.
Elresultadoobtenidoseencuentraenlatablaqueseincluyeacontinuación:
Tabla de contingencia Ideología Política * Clase Socio-Económica * Sexo
Clase Socio-Económica
Sexo Baja Media Baja Media Media Media Alta Alta Total
Hombre Ideología Derecha Recuento 2 7 12 9 4 34
Política % de Ideología Política 5,9% 20,6% 35,3% 26,5% 11,8% 100,0%
Centro Recuento 2 2 1 4 1 10
% de Ideología Política 20,0% 20,0% 10,0% 40,0% 10,0% 100,0%
Izquierda Recuento 7 11 10 11 4 43
% de Ideología Política 16,3% 25,6% 23,3% 25,6% 9,3% 100,0%
Total Recuento 11 20 23 24 9 87
% de Ideología Política 12,6% 23,0% 26,4% 27,6% 10,3% 100,0%
Mujer Ideología Derecha Recuento 5 10 7 8 1 31
Política % de Ideología Política 16,1% 32,3% 22,6% 25,8% 3,2% 100,0%
Centro Recuento 3 4 4 1 1 13
% de Ideología Política 23,1% 30,8% 30,8% 7,7% 7,7% 100,0%
Izquierda Recuento 3 9 16 5 4 37
% de Ideología Política 8,1% 24,3% 43,2% 13,5% 10,8% 100,0%
Total Recuento 11 23 27 14 6 81
% de Ideología Política 13,6% 28,4% 33,3% 17,3% 7,4% 100,0%
Ahoravemosenellacuestionescomolasquesehansombreadoamododeejemplo:
1. Quehaymáshombresdeclasemediaaltaconideologíadeizquierdas(11)quemujeres(5);
loqueimplicaqueel25,6%deloshombresdeideologíadeizquierdassondeclasemediaͲ
alta, mientras que sólo el 13,5% de las mujeres de izquierdas también son de esa misma
clasesocioͲeconómica.
2. Queelperfilmáscomúnenlasmujeres,esserdeclasemediaͲmediaydeizquierdas(16,un
43,2%detodaslasmujeresdeizquierdas).Yencambioenvaroneshaymásvariedad:clase
mediaͲmedia y de derechas (12) y clase mediaͲbaja y de izquierda (11) junto a los citados
arribadeclasemediaͲaltaydeizquierda.
Enestatabladeejemplo,sehanpedidosolamentelosporcentajedefila(sobrelascategorías
deideología)parasimplificarlagrancantidaddeinformaciónquesepuedellegaratenerentablas
de este tipo. Pero evidentemente, qué aparece en cada casilla es una decisión del usuario que
deberádetomarenfuncióndeloqueestábuscandoensusobjetivos.
Para terminar sólo nos queda comentar una cuestión. Seguramente al lector le habrá
llamado la atención la expresión Capa 1 de 1 del cuadro de diálogo anterior. Esto significa que se
puedenhacersubdivisionesadiferentesnivelesdeprofundidad,contantasvariablescomosedesee.
Másconcretamente,laprimeracifraindicaelniveldeprofundidadenelqueestamosylasegundael
totaldeniveles:asíque1de1indicaquenosencontramosenel1erniveldeuntotalde1.
Sialavezqueelsexo,juntoaél,hubiésemosmetidounasegundavariable,seguiríamosenla
capa1de1;yloquehabríamosobtenidoserían2tablasdecontingenciaconelcrucedelasmismas
variablesperocondistintascapascorrespondientesalasdiferentescategoríasdecadaunadelas2
variablesdesegmentación.
Perosiesasegundavariablesehubiesemetidodespuésdelaprimera(sexo)traspicarenel
botón Siguientedelcuadrodediálogo(verdichobotónenlaimagendelapáginaanterior),entonces
sehabríaprofundizadoenunsegundonivel,conloquelatabladecontingenciavistaarribasehabría
subdividido en cada una de sus capas (hombres y mujeres) en tantas otras capas como categorías
tuvieseestasegundavariable.Ahoraenelcuadrodediálogo,enelprimernivel,queesdondeestáel
sexo,veríamosCapa1de2yenelsegundonivel,dondesehametidolaotravariable,veríamosCapa
2de2.
Téngase en cuenta que cuanta más profundidad se le de a la segmentación de la tabla del
cruce original, más posibilidades hay de que aparezcan casillas vacías (con frecuencia 0) ya que
puedeserdifícilqueenlamuestracontemosalmenoscon1personadetodoslostiposresultantes
de todas las combinación posibles con todas las categorías (véase que en la tabla de capas de la
página anterior hay 5 columnas, 3 filas y 2 capas; es decir: 5x3x2=30 combinaciones o casillas de
casosdiferentes).
Tema 6
DESCRIPTIVA
DE VARIABLES
CUANTITATIVAS
6.1.ͲOrganizacióndedatos:ladistribucióndefrecuenciasyporcentajes
6.2.ͲUnaherramientaparalacategorización:loscentiles
6.3.ͲRepresentacionesgráficas
6.4.Ͳ¿Cómosedescribeunavariablecuantitativa?:
Forma,CentralidadyVariabilidad
6.5.ͲUnejemploglobalamododeresumen
6.6.ͲLosdatosoutliers
Como se comentó al comienzo del Tema anterior, la mejor manera de
ordenarlosdatosrecogidosalobservarunamuestraesmedianteunadistribucióndefrecuencias.En
ella, como sabemos, se hace corresponder cada valor de variable con el número de veces que
aparece (recuento de casos). Pues bien, a continuación se expone qué diferencias ofrecen estas
tablas de resultados para datos cuantitativos con respecto a las que hemos construido antes para
variablescategóricas.
En primer lugar no debemos olvidar que, en este caso, los números que representan en la
variablealasmodalidadesdelatributomedidoverificanpropiedadesmétricasalmenosintervalares,
esdecirquepertenecenaunaescalaquecuentaconunaunidaddemedidayconunvalor0,que
puedeserarbitrario(sisetrataunaescaladeintervalo)oabsoluto(siesderazón);propiedadesque
permitenaestosvaloresseroperadosaritméticamente.
En segundo lugar, la información recogida en la tabla de la distribución puede expresar el
recuentode casosdela mismamaneraqueyaconocemos (verpágina93),estoes: enfrecuencias
absolutasoenfrecuenciasrelativas(proporción,oporcentaje).
Peroademás,yestalanovedad,altratarsedevariablescuantitativasesdecirquecuantifican
lacantidaddeatributoposeídoporlossujetos,tienesentidoutilizartambién:
Ͳ alafrecuenciaabsolutaacumulada(),queeselnúmerodevecesqueserepiteunvaloro
unoinferioraél;esdecirlasumadelasfrecuenciasabsolutasobservadasdetodoslosvalores,
comenzandodesdeelmenoryañadiendolossiguientesdeunoenuno;
Ͳ yalafrecuenciarelativaacumuladaoproporciónacumulada(),queeselcocienteentrela
frecuenciaabsolutaacumuladaqueacabamosdedefiniryel númerototaldecasos dela
muestra; o lo que es igual: la suma de las frecuencias relativas o proporciones. Si esta
proporciónacumuladasemultiplicapor100seconvierteenunporcentajeacumulado.
Elprocesodeacumulación,osuma,defrecuenciasy/oporcentajesserealizahabitualmente
partiendodesdeelvalormenordelavariablecomosededucedelodichoarriba;perosielsentido
teóricodelosvaloresdelaescaladelavariablequemideundeterminadoconstructoexigequelo
adecuado sería acumular desde el mayor de los valores, se podría hacer así sin ningún tipo de
problema.
Cuandoestamosmidiendounavariablequeconstadepocosvaloresocategoríasnuméricas
(comoporejemplo:lasnotasdeunexameneslaescalatradicionalespañolaentre0y10;elnúmero
de hijos de la familias europeas; la cantidad de horas diarias dedicadas al estudio por los
universitarios, etc...) bastan los conceptos ya aprendidos en el Tema 5 anterior para construir una
distribución de frecuencias. Haciendo un simple recuento de casos se obtienen las frecuencias
absolutasyelrestodeinformación(lasrelativas,lasacumuladas,…)sederivandesdeellas.
Veamosunejemplomuybreveysencillo:
Ejemplo4
Se han recogido las edades (en años) de todos los alumnos matriculados en
alguno de los 4 cursos que componen el estudio de cierto Grado de una de las Facultades de esta
Universidad.
Obviamentealtratarsedeestudiosuniversitarios,elrangodeedadhabitualcomienzaenlos
17Ͳ18añosydeberíadellegarhastaalrededordelos22.
EjecutandolamismarutinadeSPSSͲ15vistaendichoTema5(página93):
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIAS
o bien, si se ha creado una barra rápida de Técnicas Estadísticas pulsando en el botón: , se ha
obtenidocomoresultadolasiguientedistribucióndefrecuencias:
Edades (en años cumplidos)
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 18 14 16,1 16,1 16,1
19 17 19,5 19,5 35,6
20 23 26,4 26,4 62,1
21 20 23,0 23,0 85,1
22 6 6,9 6,9 92,0
23 3 3,4 3,4 95,4
25 2 2,3 2,3 97,7
39 1 1,1 1,1 98,9
53 1 1,1 1,1 100,0
Total 87 100,0 100,0
Comoseapreciaenlatabla,SPSSnosofrecelafrecuenciaabsolutaperonolasacumuladas;
éstas se obtendrían sumando las absolutas: la primera sería 14, la siguiente sería 31 (=14+17) y
significaquehay31estudiantescon19añosomenos,lasiguientesería54(=14+17+23)ynosdice
que hay 54 universitarios con 20 años o menos,…, y así sucesivamente hasta la última frecuencia
acumuladaquesería,lógicamente,coincidenteconelmuestral(87).
LoquesínosofrecelatabladeresultadosSPSS,comorecuentorelativo,sonlosporcentajes
(absoluto y válido) y el porcentaje acumulado, equivalente en interpretación a las anteriores
frecuenciasacumuladas;esdecirquelos54universitariosconedadeshasta20añosincluidos,sonel
62,1%acumuladoqueseobservaenlaúltimacolumnadelatabla.
Peronosiempretenemoslasuertedequeseatansimple.Elengorrosurgeenlamayoríade
loscasos,yaquelasvariablesdetipocuantitativohabitualmentecontienenunaelevadacantidadde
valoresnuméricosdebidoalaamplituddesuescala;cuestiónéstaqueprovocaqueellistadodela
tabladefrecuenciasseveaenormementeincrementadohaciéndolopocomenosqueinterminable.
Imagineellectorunatabla,envertical,dondevinieranrepresentadosunoauno,unaseriedevalores
de una variable que tuviese todos los números comprendidos, por ejemplo entre 0 y 94;
necesitaríamos varias hojas de papel para ello y, a parte de la incomodidad, tendríamos serias
dificultadespara“ver”algoestadísticamenteinteresante.Enestalínea,veamosunnuevoejemplo.
Ejemplo5
Supongamoos que se ha medido a una muuestra de 1160 universiitarios
matriculadoos en esta Universidad,
U , el gasto semanal
s (en
n euros) quee realizan een el capítu
ulo de
esparcimiennto y similarees (copas, caañas, cafés, cd’s, revistas,, cine, internnet, etc...)
El resultado
r quee quedaría reeflejado en unna hoja de reegistro, podríía ser este:
43 49 23 37 28 27 41 35 37 28
2 50 34 22 31 34
3 43 32 25 36 30
3
33 25 28 31 36 25 41 44 38 5
51 50 46 26 40 5
53 36 31 34 51 65
6
32 34
4 43 63 49 61 48 38 16 4
41 51 35 36 41 3
33 28 57 62 43 69
6
42 33 62 53 37 36 48 53 39 4
41 19 47 18 62 3
33 54 29 35 61 60
6
27 31 36 44 45 30 21 52 59 5
52 35 30 37 42 3
37 31 29 42 28 25
2
50 52 40 47 42 41 45 52 48 4
49 53 47 39 52 4
41 36 60 54 58 52
5
55 56
6 57 53 52 51 50 57 53 5
56 48 49 46 37 3
35 44 43 42 45 50
5
42 40
0 45 44 44 47 43 41 42 4
49 50 45 46 47 4
42 49 50 51 48 50
5
Eso
obvioquetallmaremágnu
umdenúmeerosrequiere
eunareorganización.
Eneestoscasoseesmuyconveenienteagru uparlosvaloresnumérico osencategooríasdenominadas
intervalos.Sobreestoyyasehablóaalgoenelapaartado4.3.ccuandoseexxplicabalafu
unciónCateg gorizar
dentrodelaatransformaacióndedato osenSPSS.
El fundamento
f teórico que subyace bajo el proceso de construcción dde los interrvalos,
consisteenimaginara lavariableccomouncon ntinuo,esdeecircomounasucesión depuntosd donde
cadaunode ellosesun nvalordelaavariable.A
Así,enestee
ejemplo(connunidadde media: 1 €),,cada
euroesun pequeñosegmentodel continuo(cu uyaamplituddesiguala 1u.m.)que estáacotaddopor
suslímitesrrealesquegaarantizanlaccontinuidad::
1euro1euro1euro
o1euro
39euros40 41 42eu
uros
39,5 40,5 41,5
Ento onces, los límites reale es, o exacto
os, son los valores má áximo y mín nimo que in ndican
exactamentteelpasodeeunvaloralsiguientegaarantizando portantolaacontinuidad ddelcontinu uo.Se
obtienen su umando y reestando, respectivamentte, la mitad de la unidad d de medidaa de la variaable al
valorrepressentadoeneelpunto.
Deestamaneraa,ampliando olaideaqueacabamosd deexponeraaunmayorn númerodevaalores
logramosco onstruirydeefinirunintervalo,queesscadaunod delosgrupossosubseriessdevalores que
se van a crear para agrrupar los valores observvados. El intervalo, por tanto,
t sería un segmentto del
continuoqu uecontiene másdeunvvalordevarriable.Elsigu uienteesunejemplodeeunintervaloque
contiene6vvalores(6u.m)delavariiable,desde40a45€:
4243444546
39euros40414 6euros
39,,5 45,5
enéldenom minamosam mplituddelinntervalo,alaadiferenciaeentreloslím
mitesrealesssuperiorein
nferior
delosvalorresextremossdelintervaaloconstruid do.Comose veenelgrááficodearrib ba,laamplittudde
ese intervaalo es de 6 euros (ܑ ൌ ܛܚۺ
ۺെ ܑܚۺൌ Ͷͷǡͷ
Ͷ െ ͵ͻǡͷ ൌ ). Este concepto ind
dica por tannto, el
númerodecategorías,o odevaloresdistintos,deelavariablequecontieneecadaintervvalo.
Quizáconvengaadvertirqueenlaliteraturaespecializadacuandoelintervaloincluyeunsolo
valorselellamaintervalosimpleoelemental,ycuandocomprendemásdeunvalor(queeslomás
habitual)sedicequeescompuesto.Segúnestolatabladefrecuenciasdeedadesdeuniversitarios
queveíamosenelejemplo4(página105)esuncasodetabladeintervalosunitarios.
Es interesante diferenciar a los límites reales de los límites aparentes. Los reales como se
deducedeloanteriorsonlosextremosmáximoymínimoentrelosquerealmenteestácomprendido
el intervalo (en este ejemplo: 39,5 y 45,5 euros); mientras que los aparentes son los puntos (o
categorías)extremossuperioreinferiordelcontinuo,entrelosqueseencuentralosvaloresincluidos
enelintervalo(enelmismoejemplo:40y45euros).Paraobtenerlaamplituddelintervalodesdelos
límitesaparentes,aladiferenciaentreellos(4540=5)siempreseledebesumar1u.m.(5+1=6).
Paraacabarconlaterminologíaquetradicionalmentesehautilizadoenlasdistribucionesde
frecuencias de variables cuantitativas, definimos al punto medio, o marca de clase del intervalo,
como a la semiͲsuma de los límites superior e inferior del mismo (indistintamente calculado tanto
conlosrealescomoconlosaparentes,yaquecoincide).
Paraloscálculosestadísticosefectuadosconsoporteinformático(comoelSPSSporejemplo)
nosonimprescindiblesningunodelosconceptosqueestamosdefiniendo,yaqueelprogramatiene
capacidad para gestionar miles de datos. Solamente los precisaremos si en el informe queremos
acompañar nuestra descripción estadística de la variable con una tabla de frecuencias cómoda de
manejarydeleer.Porestarazón,amododeejemploysóloestavez,procederemosacontinuacióna
construirunadistribucióndeintervalosconlosdatosdelavariablequevenimoscomentando:gasto
semanaldelosuniversitariosenesparcimientosimilares.
No hay reglas estrictas para este proceso, sin embargo casi todos los autores coinciden en
señalarestas3normas,queaunquenosondeobligadocumplimiento,síquesonrecomendables:
a) queelintervaloinferiorincluyacomolímiteaparenteinferioralmenorvalorobservado,
b) queelintervalosuperiorincluyaalmayorvalorobservado(comolímiteaparentesuperiorsi
esposible),y
c) quetodoslosintervalostenganelmismonúmerodevalores,estoesquetenganamplitud
constante (esta norma se puede incumplir si por motivos científicos conviene construir
intervaloscondiferentesamplitudes).
Enfuncióndeesto,yapartirdelosdatosdenuestroejemplo:
1º)secalculalaamplitudtotaldelaserie,queesladiferenciaentreloslímitesrealesdelos
valoresmáximoymínimoobservados.Ennuestrocaso:
୶ ൌ ͻ୧୬ ൌ ͳሺǤ Ǥ ൌ ͳ̀ሻ ՜ ۯൌ ሺ୶ ሻ െ ሺ୧୬ ሻ ൌ ͻǡͷ െ ͳͷǡͷ ൌ ̀
2º)sedeterminaunnúmerodeintervalostalquelaamplituddecadaintervalo(resultantede
dividirlaanterioramplitudtotalentredichonúmero:ܑ ൌ ۯΤ͑ܖ۷ܞܚ܍ܜܖǤ)seaunmúltiploenterode
la unidad de medida. En este caso: 54 = 9u6; es decir que se pueden hacer 6 intervalos de
amplitud9euros,obien9intervalosdeamplitud6€…o18deamplitud3.Encasoscomoéste,
seoptaporaquellasoluciónconmenoramplituddeintervalo,yaqueconllevaunmenorerror
deagrupamiento;perosinqueelnúmerodeintervalosresultanteseaexcesivo.
Alrespecto,esnecesariocomentarquealgunosautoresdefiendenqueelnúmeroidóneode
intervalosaconstruirestáentre10y20;estareglaaplicadaanuestrosdatosjuntoalcriterio
anterior, nos llevaría a realizar 18 intervalos de amplitud 3€ cada uno. Bien, es otra opción,
peropersonalmentemepareceinnecesariaunacantidaddeintervalostanelevada,ymenos
aúntratándosedeesteejemplo.
Sifueseimposibleencontrar,comovalordelaamplituddeintervalo,unnúmeroenteroque
sea múltiplo de la unidad de medida de la variable, sería necesario proceder a redondear
matemáticamenteelresultadodecimalobtenido;siennuestrocaso,laamplitudtotalhubiese
sido56 €envezde54,nohabríasoluciónenteraválida,porloquehabríaqueredondear,por
ejemplo: 56/10=5,6 | 6, de forma que una solución posible sería hacer 10 intervalos de
amplitud6u.m.cadauno.
3º)laconstruccióndeladistribuciónseiniciatomandoelvalormínimoobservado(16)como
límiteinferioraparentedelprimerintervalo.Sumandoelvalordelaamplituddelintervalose
obtienenelrestodelímitesinferiores.Paralelamente,setomaelmáximovalorobservado(69)
como límite superior aparente y restando dicha amplitud se hallarían los límites aparentes
superiores.
4º) por último se realiza el pertinente recuento de frecuencias, para conocer el número de
sujetos que tienen valores comprendidos dentro de cada uno de los intervalos. Este es el
resultadoquebuscamosconelactualejemplo5.
Los pasos 3º y 4º anteriores se refieren al trabajo manual con papel y bolígrafo. SPSS nos
ayudaarealizarlo,porloquenuestratareaselimitaadecidir(paso2º)cuántosintervalosqueremos
crear y con qué amplitud; ello posibilita determinar dónde estará el primer punto de corte que se
correspondeconellímitesuperior(aparente)delprimerintervalo.
Conlosvaloresdelejemplo5,dadoquehemosdecididoestablecer9intervalosdeamplitud
6yquela=16,ellímitesuperiordedichoprimerintervaloserá: ͳͷǡͷൌʹͳǡͷ(despejandodela
expresión de la página 106 para la amplitud del intervalo: ܑܚۺ ܑ ൌ )ܛܚۺes decir 21. O también, y
quizáseamáscómodo:ͳͳ( ܖܑۻ ܆ ܑ െ )quesiguesiendo21.
Estedato(21)juntoalaamplituddeseada(6)paralosintervalos,esloquedebemosindicarle
aSPSSenlafunción,yacomentada(enpágina82):
TRANSFORMARÖAGRUPACIÓNVISUALÖybotón:Crearpuntosdecorte…
Enelsubcuadrodediálogoqueseabretrasestaacción,indicamos:Posicióndelprimerpunto
decorte:21,yAmplitud:6,demaneraqueautomáticamenteelprogramageneralosvaloresdelas
casillas Puntos de corte: 8 (lógicamente 1 punto de corte menos que el número de categorías, o
intervalos, que vamos a crear) y Posición del último punto de corte: 63. Esto se puede ver en la
imagenquevieneenlapáginasiguiente(enladodelaizquierda).
TambiénsepodríahaberescritoenestecuadrodediálogodeSPSSqueelprimerpuntode
corte es 21 y que hay en total 8 puntos de corte (para 9 intervalos) y entonces la aplicación
informáticahabríacalculadoquelaamplituddecadaintervaloes6.Ellodaríaexactamenteelmismo
resultadoqueconlaformaanterior.
Pero,hayquetenercuidadoconlosiguiente:siledecimosaSPSSqueuse8puntosdecorte
y que fije amplitud 6, el resultado no sería el deseado, ya que establecería como primer punto de
corteelvalor16queesellímiteinferiordelprimerintervalo,luegonuncahabránadiepordebajo.Y
siledecimosqueson9puntosdecorte,construiría10intervalos.PortantodeestaformaSPSSno
funcionaajustadamenteanuestrasintenciones.
Tras hacerlo como se indica en la primera de las formas antes comentadas, se pica en el
botón Aplicar yvolvemosalcuadrodediálogoprincipal;enelcual,haciendoclicen Crear etiquetas
aparecentambiéndeformaautomáticaloslímitesaparentesdetodoslosintervalos:
Obsérvese cómo el programa deja abiertos las etiquetas de los intervalos extremos. El
superior no cabe en la imagen de arriba, pero en el inferior se aprecia que la etiqueta creada
automáticamente dice: “<=21” es decir: puntuaciones hasta 21 (menores o iguales 21). No hay
ninguna dificultad para editar esto (activando esta casilla) y escribir en su lugar: ͳ Ȃ ʹͳ, ya que
sabemosquela=16(queporciertoenestecuadrodediálogoyaSPSSnosindica,justoencima
delgráfico,cuántovalenlaylasinnecesidaddepedirlasenotrafuncióndescriptiva.
Hecho esto sólo nos queda darle un nombreͲcódigo a la nueva variable, por ejemplo:
Interv.Gasto que se escribe en la casilla correspondiente que se encuentra en la parte superior de
estecuadrodediálogo,ysilocreemosconvenientecambiamoselnombreͲetiquetapreͲasignadopor
SPSS (supongamos que la llamamos: Intervalos de gasto semanal). Conviene comentar que no es
extrañoqueseactivelaopciónInvertirescalaquealahoradepresentarlosresultadossimplemente
cambiaelordendepresentacióndelosmismos,comoseveenlastablasquevienendebajo.
Trasdefinirestanuevavariableconsusintervalos,ejecutamoslaconocidafunción:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIASosubotón:
yelresultadoobtenidoapartirdelosvaloresdenuestroejemplo,hasido:
La distribución del lado izquierdo es la que aparece en SPSS; en ella la acumulación de las
frecuencias (porcentajes) se hace desde el menor valor de la variable, que es lo más común. En la
distribución de la derecha se ve qué significa la opción de Invertir escala: tenemos exactamente el
mismoresultadoperoenordeninverso,laúnicadiferenciaesquelosporcentajesacumuladossehan
calculado desde la puntuación mayor de la variable. Elegir una u otra, sólo depende de las
propiedadesdelavariableydelconstructoquesemideconella,odelasnecesidadesyobjetivosdel
estudio,osimplementedelgustopersonaldelusuario.
Unavezqueestáconstruidaladistribucióndeintervaloselinvestigador,ademásdeincluirla
en su informe descriptivo, ya está en condiciones de extraer múltiple información acerca de la
variable; por ejemplo: en la columna de frecuencias absolutas se observa que la mayor frecuencia
(35)correspondealintervalode40a45€,luegoestaeslafranjadegastomáscomúnenlossujetos
deestamuestra,conceptoquesecorresponderíaconlamodaqueyasedefinióconanterioridad(en
lapágina95).Dehecho,enestoscasossesueledarcomovalormásconcretoparalamodaalpunto
medio de este intervalo de máxima frecuencia, que en nuestro ejemplo sería: ሺͶͷͶͲሻȀʹൌͶʹǡͷ es
decirqueelgastomáshabitualenestegrupodeuniversitariosesde42,5€semanales.
Asimismoelcálculomanualdelosestadísticosdescriptivosdeunavariablecuantitativaque
vamos a estudiar en los próximos apartados de este Tema, se pueden efectuar desde esta
distribucióndeintervalosdeformamuysencillaybreve.
No obstante como ya se comentó antes, si se van a confiar estos cálculos a un programa
informáticodeltipoalSPSScomoyasehacedeformageneralizada,noesimprescindibleconstruir
estetipodedistribucionesdeintervalos.
Esimportante,noconfundirestatareadeconstruccióndeintervalosqueacabamos
de explicar con la categorización de variables cuantitativas que se lleva a cabo cuando desde una
perspectiva teórica se necesitan definir unas categorías concretas en el constructo. Esta otra
categorización,enfuncióndelinterésdelinvestigador,eslaquesehizoconelejemplodelaedad
utilizado en el apartado 4.3 (ver página 81). En cambio, cuando empleamos intervalos como los
anteriores, aparte de no tener una razón teórica y debido a que solo se pretende presentar un
resumendelosdatos,seríaadmisiblecualquierconjuntodeintervalos.
Portanto,segúnesto,construirunadistribucióndeintervalosqueresumalainformaciónde
lavariablenoesparanadalomismoquecategorizarunavariablecontinua,aunqueseaciertoque
losintervalossoncategoríasnuméricas.Trasladefinicióndelosintervaloslavariablesiguesiendola
misma,perosusdatossepresentandeformaabreviada.
Sinembargo,categorizarunavariablecontinua(numérica)implicacrearunavariablenueva
pararepresentaraunmismoconstructo;unavariabledistintadeladeorigenyquevaserdetipo
categóricoenvezdecuantitativa.
En el procedimiento anterior, como hemos visto, el resultado ha sido un número j de
intervalos o categorías de la misma amplitud (9 intervalos de amplitud 6 u.m.), de forma que el
recuentodecasosrealizadoconlosdatosdeunamuestraespecíficanecesariamenteconllevaquelos
intervalos tienen distinta frecuencia. Sin embargo, el planteamiento del que vamos a hablar a
continuaciónesenciertamedidainverso,yaqueloqueharemosseráfijarlaproporcióndesujetos
(lafrecuencia)quedeseamosquetengacadagrupoybuscarlospuntosdecortenecesariosparaque
secumplanestosporcentajes.
Elobjetivodeestoscortestípicosdelacategorización,porlogeneral,eseldeservircomo
referenciaalinvestigadorparaclasificaralossujetossegúncriteriosinterpretativos(porejemplo:de
diagnósticoclínico,deagrupaciónpornivelessemejantesdeaptitud,deopinión,depercepción,...).
Poresoesporloque,enrealidad,estamoscreandounanuevavariable,yaqueseestánconvirtiendo
las puntuaciones directas representativas del nivel de cada individuo en el atributo, en un valor
numéricodiscreto(unacategoría)indicadordelsubgrupoalqueperteneceelsujeto.
En resumen, se trata de realizar cortes agrupando valores de la variable original, de tal
manera que los subgrupos resultantes incluyen sujetos que tengan, en el atributo medido, una
característicaqueloshacesemejantes.Yesque,eneldesempeñolaboraldelosprofesionalesdela
Salud(yotrosafines)esmuycomúnlanecesidaddecreargruposparaclasificaralaspersonasque
son similares en cuanto al grado de posesión que tienen de un determinado atributo que se ha
medidoconunavariablequeoriginalmenteeracuantitativa.
A continuación se va a presentar una herramienta estadística que es muy útil para este
nuevotipodetarea,setratadelconceptodecentil.Esteinstrumentovasermuyinteresanteparael
investigador cuando necesite crear en la muestra un número K de subgrupos que contengan un
porcentajedecasosconcretoyestablecido,talycomoyasedijoarriba.
Conocidos los datos de la variable cuantitativa de origen, el centil es una magnífica ayuda
paracrearunanuevavariableconfiguradasegúnunodeestosdoscasos:
a) categoríasconelmismoporcentajedesujetos(porejemplo5subgruposquecontenganun
20%cadaunodeellos);
b) categoríasconunadeterminadaproporción,peroquenoesidénticaparatodasellas(por
ejemplotresgrupos:elinferiorconun30%,elcentralconun50%yelsuperiorconel20%
restante).
Enamboscasos,estanuevasituaciónimplicaquelaamplitud (entrelosvaloreslímites) de
estascategoríasnoseráconstante.Porellonecesitamossaberenquévalores,opuntuacionesde
la variable, debemos de situar cada uno de los puntos de corte. Y es ahí donde la herramienta
denominadacentildemuestrasuutilidad,puestoquecalculandosuvaloraveriguaremoslospuntos
decortequenecesitamos.
Enrealidad,noesexactohablarde“elcentil”(ensingular),sinoquedeberíamosdehablarde
loscentiles,enplural,yaquesetratadetodaunaescaladevalores;enconcreto:
Los centiles, son 99 puntos que dividen al continuo en 100 partes iguales,
siendoeláreadecadaunadeellas(llamadaáreaintercentil)deun1%desujetos.Es
decir que los centiles dividen a la muestra total en 100 pequeños subgrupos que
contienenun1%decasosoindividuos.
Laescalacompleta,portanto,constade99centilesnumeradosdel1al99;esdecirqueel
primerpuntodelaescalaescentil1(ͳ)quedejapordebajodesíal1%desujetosconpuntuaciones
más pequeñas y el último de la escala es el centil 99 (ͻͻ) que sólo está superado por otro 1% de
casos,losdelaspuntuacionesmásaltas.Asíporejemplo,elcentil15esunpuntodelcontinuo(que
secorrespondeconunvalordelavariable)quedejapordebajodesíaun15%delossujetosdela
muestratotal(15áreasosubgruposdel1%cadauno).
Enconsecuencia,engeneralsepuededecirque:
Un centil (el centil ) es un punto del continuo, es decir un valor de la
variable,quedividealamuestraendosgruposdesujetosconporcentajesconocidos
y constantes: el centil deja por debajo de sí siempre un % y por encima de sí el
restante(ͳͲͲሻ%.
Cuandosemanejanloscentiles(quealgunosautoresdenominantambiéncomopercentiles,
delinglés“percentage”,abreviadamente“percent”)aparecensimultáneamente3informacionesque
esimprescindiblediferenciar:índice,áreayvalor.Veamos:
Ͳ elíndice:eselnúmerodeordenqueidentificaalcentil,esdecirelnúmeroquenosdicedecuáldelos
99 centiles de la escala estamos hablando. Viene expresado en el subíndice del símbolo, no admite
valoresdecimales yverificapropiedadesmétricasordinales.Asíporejemplo:enelC15elíndicees15,e
indicaquesetratadeldecimoquintodelos99centiles.
Noobstante,apesardeloqueseacabadedecir,últimamenteyparamayorprecisiónenlastareasde
corte, se está empezando a admitir índices hasta con dos decimales (redondeando a la centésima). Y
para diferenciarlos de los centiles, el anteriormente citado término percentil se está reservando para
ellos. Es decir, por ejemplo, si el corte se tuviera que establecer en un 15,33% de casos en vez de
redondearalcentil15,seutilizaríaelpercentil15,33.
Ͳ eláreacentílica:eselporcentajedesujetosdelamuestraquehatenidounrendimientoinferioroigual
alapuntuaciónquelecorrespondealcentil.Estáíntimamenterelacionadoconelíndice,dehechoéste
índicenosdicequeeldejapordebajodesí(incluidoélmismo)áreasdel1%cadaunadeellas,es
decirun%(eláreacentílicadelͳͷesun15%).Estaáreaesequivalentealporcentajeacumuladodelas
anterioresdistribucionesdefrecuenciasvistasenalapartado6.1;asíporejemplo,alos22añosdela
tabladeedadesqueseencuentraenlapágina105lecorrespondeelcentil92(ͻʹ).
Ͳ yelvalor:es,obviamente,lapuntuaciónXienlavariablequetieneel/lossujeto/squeseencuentran
exactamenteenelcentilconelquesetrabaja.Tienelau.m.delavariableobservadayverificará,según
el caso, propiedades métricas de intervalo o de razón. Es por tanto el valor de la variable que se
pretendeemplearposteriormentecomopuntodecortealcategorizaralgrupodesujetos.Volviendoal
ejemplodelgastodelosuniversitarios,elvalordelcentil15es30,64euros.Segúnestainformación,el
puntodecorteparaseleccionaral15%deuniversitariosconmenosgastoenesparcimientoes30,64€.Y
obsérveseque,porsupuesto,elpuntodecorteparaseleccionaral85%deuniversitariosconmásgasto
estambiénesos30,64€.
Elinvestigadordebededecidir,enfuncióndelasáreas(porcentajes)asignadosacadaunade
lascategoríasquedeseaconstruir,enquécentilessevanaencontrarlospuntosdecorte.Elcálculo
delvalor(quesepretendeutilizarcomolapuntuacióndecorte)decadaunodeesoscentiles,se
puede encomendar a SPSS ya que cuenta con 2 opciones para ello entre sus menús. Cada una de
ellas corresponde a las 2 situaciones posibles citadas en la página anterior. A continuación se
incluyenejemplosdeambas.
Ejemplo6
A partir de los datos del gasto semanal de los universitarios obtenidos en el
ejemplo anterior, se desea establecer 5 grupos de sujetos homogéneos: 1=gasto muy bajo, 2=gasto
bajo, 3=gasto medio, 4=gasto elevado, y 5=gasto muy elevado. Se pretende averiguar cuáles serán los
valores de los puntos de corte necesarios para ello, y construir la distribución de frecuencias de las
categorías de la nueva variable resultante.
Evidentemente,dividirel100%decasosentre5gruposequilibradosimplicaquecadaunade
lascategoríasresultantesvaaconteneraun20%desujetos.Porestarazónesmuyfácildeducirque
los puntos de corte corresponden a los valores de los centiles: ʹͲ, ͶͲ, Ͳ y ͺͲ (ya se sabe, un
puntodecortemenosquecategorías).
LaformamássencilladerealizarestoenSPSSͲ15esejecutarlaconocidafunción:
TRANSFORMARÖAGRUPACIÓNVISUALÖybotón:Crearpuntosdecorte…
Enelsubcuadrodediálogoqueseabre,activamoslaopciónPercentilesiguales…ydaigual
queescribamoseldatoquenospideSPSSenunacasillaoenlaotraporqueindicadoelprimero,de
formaautomáticaapareceelotro;esdecirquesianotamosenlacasillaNúmerodepuntosdecorte:
4(loscuatrocentilesdearriba),apareceen%decasos:20,00yalrevés.Estoseobservaenlaimagen
inferior.Volviendoalcuadrodediálogoprincipalpulsandoen Aplicar ,aparecenlosvaloresdelos4
centilesdecorteprecisamenteenlacolumnaquesellamaasí:Valor.Ypulsandoen Crearetiquetas
aparecenloslímitesnuméricosdelas5categoríascreadas.
Comoseobservaarriba,lospuntosdecortecorrespondientesaloscentiles20,40,60y80.
son:33,00€,41,00€,46,00€y52,00€respectivamente;ylacategoría4(la delgastoelevado)por
citarsólounacomoejemplo,incluiráatodoslossujetosqueafirmangastarentre47y52€semanales
enesascuestionesdesuvidadiaria.
Parafinalizarytrasdarlenombreyponerleetiquetaalanuevavariable,simplementeresta
pulsar en Aceptar para que aparezca en la base de datos de SPSS donde teníamos los datos de la
variableorigen.
La distribución de frecuencias de la nueva variable resultante de la categorización que
acabamosdeefectuar,seconstruyeunavezmásconlaconocidarutadeSPSS:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIASosubotón:
yelresultadoobtenidoeselquesemuestraenlatablaquevieneacontinuación:
Categorías de gasto
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Gasto muy bajo (<= 33) 34 21,3 21,3 21,3
Gasto bajo (34 - 41€) 37 23,1 23,1 44,4
Gasto medio (42 - 46€) 27 16,9 16,9 61,3
Gasto elevado (47 - 52€) 36 22,5 22,5 83,8
Gasto muy elevado (53+) 26 16,3 16,3 100,0
Total 160 100,0 100,0
Obsérvesequelosporcentajesdeestas5categoríasseaproximanal20%deseadoperono
alcanzanexactamentedichovalor.El20%delൌ160serían32individuosencadacategoríay,como
seapreciaarriba,enalgunasdeellashaymásyenotrasmenos.
Estosedebeaqueexistensujetoscuyosvalores,opuntuaciones,enlavariablesonigualesa
losvaloresdeloscentilesqueseempleancomopuntodecorte.Enelcuadrodediálogoprincipalque
apareceenlafunción TRANSFORMARÖAGRUPACIÓNVISUALvieneactivadapordefectolaopción
Límites superiores: incluidos, que por tanto al realizar este recuento de frecuencias asigna a los
sujetosconvaloresigualesalosdecorteenlascategoríasinferiores.Siestaordenaciónnoleresulta
satisfactoria al usuario, siempre se puede volver atrás y cambiar la opción comentada por la de
Límites superiores: excluidos, que colocaría a los mismos sujetos en las categorías inmediatamente
superiores.
Ejemplo7
Supongamos que ahora, en vez de estas 5 categorías, se desean solamente 3 y
que se reparten así: 1=gasto muy bajo (el 15% inferior), 2=gasto medio (75%) y 3=gasto muy elevado
(el 10% superior). Se pretende averiguar exactamente los mismo de antes: cuáles serán los valores de
los nuevos puntos de corte que se precisan y construir la distribución de frecuencias de esta 2ª
categorización.
Antes de nada, me gustaría comentar que ambas categorizaciones no son necesariamente
excluyentes. El investigador puede probar con diferentes criterios de clasificación hasta dar con el
másadecuadoparasusobjetivos.
La tarea, siendo semejante a la anterior en planteamiento, requiere diferente forma de
trabajoconSPSS.Deahílaconvenienciadeexplicarestecasoyelanteriorconejemplosresueltos.
Ahora,enprimerlugardebemosdepedirlealprogramaquenoscalculelosvaloresdelospuntosde
corte.Dichospuntoscorrespondenaloscentiles:ͳͷyͻͲ(elíndice90seobtienedelaacumulación
del 75% de la categoría central con el 15% inferior). Para ello, debemos de ejecutar una nueva
funcióndeSPSSqueestádentrodeunarutayamuyconocida:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIASosubotón:
y en el cuadro de diálogo que se abre, después de seleccionar la variable a utilizar (que es la que
tienelosvaloresoriginales)pulsarenelbotón Estadísticos…
Este botón, que posteriormente vamos a utilizar en otros apartados de este mismo Tema,
abreunsubcuadrodediálogo,quesepuedeverenlaimagendelapáginasiguiente,enelqueexiste
unacasilladenominadaPercentiles.Yahemoscomentadolasimilitud(yladiferencia)entrecentilesy
percentiles(verpágina112).Evidentementeenellaesdondedebemosdeescribirlosíndices(15y
90) de los centiles que deseamos calcular. Para ello, primero activamos con un clic la casilla, y
despuésescribimos15en elespaciodeladerechaypulsamosen Añadir ylomismocon todoslos
demásíndices,enestecaso,comosolohayotromás,escribimos90ypicamosen Añadir .Sesaledel
cuadro clicando en Continuar . Se puede desactivar el comando Mostar tablas de frecuencias que
ahora no nos interesa para nada, y se termina pulsando en Aceptar . El resultado es una pequeña
tabla,laqueestáaquídebajoenladoderecho,dondesecompruebaqueelvalordelͳͷes31€yque
elͻͲvale56€.
Estadísticos
Averiguados estos valores de corte, para la creación de la nueva variable categórica no
podemosutilizardenuevolafuncióndecategorizaciónautomática,sinoquetenemosqueaplicarla
detransformaciónmanualexplicadaenelapartado4.3(verpágina83).
Siguiendo la ruta: TRANSFORMAR Ö AGRUPACIÓN VISUAL ya conocida, en el cuadro de
diálogo que se abre en primer lugar, y tras seleccionar la variable en su forma cuantitativa,
introducimoslosvaloresdeambospuntosdecorte (31y56)en lascasillascorrespondientesdela
columnaValor.Enlaimageninferiorseobservaelestadodeestecuadrodespuésdehaberpulsado
en Crearetiquetas :
Tras esto sólo nos queda darle nombreͲcódigo y ponerle etiqueta a la nueva variable para
quealpicaren Aceptar quedecreadayaparezcaenlabasededatos.Ladistribucióndefrecuencias
que buscábamos con esta categorización se incluye debajo y se ha obtenido con la conocida ruta
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIAS:
Categorías (3) de Gasto semanal de los Universitarios
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Muy bajo (<= 31) 28 17,5 17,5 17,5
Medio (32 - 56) 117 73,1 73,1 90,6
Muy alto (57+) 15 9,4 9,4 100,0
Total 160 100,0 100,0
20 40
15
30
Recuento
Frecuencia
10
20
10
0
20 25 30 35 40 45 50 55 60 65
0
Gasto (€) Universit. en esparcimiento Intervalos de gasto semanal
Elpolígonodefrecuencias,encambio,sepuedeutilizartantoparavariablescontinuascomo
paravariablescuantitativasperodiscretas.Muysemejantealanterior,vieneasercomosisefuesen
uniendo con una línea los puntos medios de cada una de los rectángulos del histograma. Visto de
otra manera, en el eje de abscisas se siguen representando a los valores de la variable o a los
intervaloscreadosparaella,yenelejedeordenadasseindicanlasfrecuenciasoporcentajes.Ala
alturacorrespondientealafrecuenciadecadavalorsemarcaunpunto,yposteriormenteseunen
todoslospuntosconunalínea.Acontinuaciónsepuedenobservarlospolígonosdefrecuenciasque
sehantrazadoexactamenteparalosmismosdatosqueloshistogramasanteriores,alaizquierdacon
losvaloresyaladerechaconlosintervalosdelavariable:
10
20%
8
15%
Porcentaje
Recuento
5
10%
3
5%
0 0%
20 25 30 35 40 45 50 55 60 65 2 4 6 8
100%
75%
Porcentaje
50%
25%
0%
20 25 30 35 40 45 50 55 60 65
Estos no son los únicos gráficos que se pueden utilizar con variables numéricas, pero sí los
principales. Aunque ya he expuesto mis reticencias al uso de gráficos para llegar a conclusiones
estadísticas, no dejo de reconocer que aportan indicios claros sobre lo que va a ocurrir en el
posterioranálisisdelosdatosconlasherramientasytécnicasestadísticasadecuadas.YaunqueSPSS
como ya seha dicho no es un gran programa degráficos, le invito al lector a que “juegue” con él,
especialmenteenelmenúGráficosqueseencuentraenlabarrademenúsdelEditordedatos.
Un último comentario; si las variables cuantitativas se categorizan en la forma que se ha
explicado en el anterior apartado 6.2, se deben de emplear preferiblemente representaciones
gráficastípicasdeesetipodevariables,enespecialeldiagramadebarras.
Como ya ha quedado dicho en páginas anteriores, la Psicología en su
recorridohaciaunacuantificacióndelosfenómenosquelapreocupandeformatalquelepermitaun
abordajecientíficodelosmismos,haconseguidoyadefinirvariablescuantitativasparalamedición
delagranmayoríadeatributosorasgospsicológicos.Porotraparte,estetipodevariableseslamás
ricadesdeelpuntodevistadelainformaciónqueaportaalaEstadística.Quizáéstasseanlascausas
de que una gran mayoría de los índices estadísticos incluidos en la metodología de la Estadística
Descriptivaesténdefinidosexclusivamenteparavariablescuantitativas.
Apesardelointeresantequeestodolocomentadoenapartadosanterioressobreeltrabajo
convariablescuantitativas,sudescriptivapropiamentedichaestáaúnporhacer.Hastaaquíhemos
tratado cómo abreviar la presentación de los datos, cómo generar otras variables (categóricas) a
partirdedatosnuméricosyfinalmentecómohacerrepresentacionesgráficas.Acontinuación,viene
loverdaderamentetrascendente:¿cómosedescribeaunavariablecuantitativa?;ylarespuestaes
quenotienenadaqueverconladescriptivadeunavariablecategóricavistaenelTema5,sinoque
sigue un rumbo totalmente distinto debido precisamente a lo diferente de la naturaleza de los
fenómenosquesemidenconvariablesnuméricas.
Muysomeramenteyamododeintroducciónyaqueinmediatamentedespuésharemosun
estudiomuchomásdetallado,avanzamosyaquelascaracterísticasopropiedadesquenosfacilitanel
accesoalainformaciónglobalqueseencierraenestetipodevariables,sontres:
a) centralidad(tambiénllamadatendenciacentral),
b) variabilidad,y
c) forma.
Conviene advertir antes de seguir, que para cumplir correctamente con la citada tarea de
describir los datos de una muestra en una variable cuantitativa, es imprescindible calcular e
interpretartodasycadaunadeellas.
Lacentralidadhacereferenciaalamagnitudglobaldelaspuntuacionesdelossujetos
delamuestra.Esdeciresunindicadordelrendimientocolectivodelgrupo;uníndiceconelque
situaratodoelgrupoenalgúnvaloropuntoalolargodelcontinuoquerepresentaalatributo.
Los estadísticos que expresan esta propiedad se denominan genéricamente Índices de
TendenciaCentraloEstadísticosdeTendenciaCentraloinclusoPromediosyseestudiaráncon
detalleenlasección6.4.1quevieneacontinuación.
Lavariabilidadeselgradodeconcentración,deproximidadocercanía,desimilituden
definitiva,delosvaloresobservadosenelgrupoconrespectoaundeterminadopromedio.Es
decir,esunindicativodelaigualdad(semejanza)odesigualdad(desemejanza)observadaentre
lossujetos.LosestadísticosqueanalizanestapropiedadsedenominanÍndicesoEstadísticosde
Variabilidadyseestudiaráncondetalleenlasección6.4.2deesteapartado.
La forma hace referencia a la imagen de la distribución desde un punto de vista casi
gráfico,esdecirquevieneaserlomismoqueexpresarconpalabrasocontérminosestadísticos,
cuáleselaspectoquepresentanlosdatosdelavariablequese“ven”enelgráfico.Seanaliza
desde2perspectivas,ocriteriosdistintos:elgradodesimetríaconrespectoaunejecentraldel
continuo; y la curtosis, o nivel de altura que toma la curva de frecuencias hasta el eje de
abscisas.Enfuncióndeambassehandescritodistintostipos,omodelos,dedistribucionesque
tienenciertascaracterísticas.Todoellosedetallaenlaposteriorsección6.4.3.
El análisis de la forma es clave a la hora de elegir las herramientas de centralidad y
variabilidad más adecuadas para la descripción de una variable cuantitativa y por ello debe ser lo
primeroaloquetienequeatenderelinvestigador.
Sinembargoparauncorrecto,ysobretodomáscómodo,aprendizajedelasherramientasde
formasenecesitanalgunosdelosconceptosqueaparecenduranteelestudiodelacentralidadyla
variabilidad.Porestarazón,esconvenienteinvertirelorden,estudiarprimeroestasdospropiedades
yasíenfrentarnosconposterioridadelestudiodelaformaenlasmejorescondicionesdeaprender.
Deinmediatocomenzamosconelestudiodetalladodecadaunadeellas.
Al hacer la introducción a la medición en Psicología (Tema 3) se habló de
representar a la conducta del ser humano mediante números manejables por la Estadística. Allí
también se dijo que estos números generados por los instrumentos de medida se denominan de
formagenéricapuntuacionesdirectas()yexpresanelrendimientodelsujetoenelrasgomedido.
Siguiendo esta línea, el concepto general de centralidad viene a ser de alguna manera la
extensiónparalela,sinónimadeestaideadelapuntuaciónindividualparaexplicarelrendimiento
de la muestra a nivel global, es decir una de forma expresar la capacidad o nivel general en la
variablemedidadelconjuntodetodoslossujetosdelgrupo.
Anteriormente (ver en página 106) se comentó que las variables cuantitativas pueden ser
representadas como un continuo, esto es: como una sucesión de puntos donde cada uno de ellos
equivaleaunacategoría ovalordelavariable,estáacotadoporsuslímitesrealesytienecomo
amplitudlaunidaddemedidadelavariable.
Puesbien,losíndicesestadísticosoherramientasdecentralidad(otambiénpromedios)son
unpuntodelosincluidosdentrodeestecontinuo.Esdecirquesuvaloreselequivalentealdeuna
categoría de la variable, tiene el mismo significado que el que tenga esa categoría y la misma
unidaddemedidaquelavariable.
Pero un detalle trascendente es que no son un punto cualquiera del continuo. Se puede
afirmarquelosestadísticosdecentralidadsonpuntosqueporunauotrarazónseencuentranenla
zonacentraldelcontinuodevaloresyhacialosquetiendenaaproximarseelrestodevaloresdela
serie.Deestamaneraestosíndicesconsiguenelobjetivopropuestoderepresentarabreviadamente
elniveldetodalamuestra,enelrasgomedido,conunúnicovalornumérico.
Lastresherramientasdecentralidadmásconocidasyutilizadasson:
a) lamoda,
b) lamediana,y
c) lamediaaritmética;
ordenados de menor a mayor grado de representatividad del rendimiento de la muestra. A
continuaciónsedefinencadaunadeellas.
6.4.1. A) Moda ():
Estaeslaúnicaherramientaestadísticacompartidaentreladescriptivadevariables
categóricasyladevariablescuantitativas.Porello,elconceptodemodaestáyadefinido(verpágina
95)comolacategoríademayorfrecuenciaobservada.
MásespecíficamenteladefiniciónparavariablescuantitativasafirmaqueModaeselpunto
delcontinuoconmayorfrecuencia;einclusodesdeunpuntodevistagráficoqueeselpicomás
altodelpolígonodefrecuencias.
Pocohayqueañadiracercadeestaherramienta.Siacaso,queenunaseriededatoslamoda
notieneporquéserúnica.Dehechoenfuncióndelnúmerodemodas,lasdistribucionesdelosdatos
deunavariablepuedenser:
Ͳ unimodales,cuandotienen1sólovalorcomomoda,
Ͳ bimodales,sitienen2modas,
Ͳ trimodales,cuandotienen3modas,
Ͳ polimodales,sitienen4omásmodas7,y
Ͳ einclusoamodales,cuandonohaymoda(situaciónqueseproducecuandotodoslosvalores
tienenlamismafrecuenciaobservada).
Precisamenteestaesunadelasrazonesquehacendeésteelíndicedelospromediosmenos
representativoyporelloelmenosutilizadoapesardesusencillezsalvoquesedeseetenerunaidea
rápidaymuysomeradelacentralidaddelgrupo.
Otradelas“críticas”querecibelamodaesqueesmuypocosensiblealasvariacionesdelas
puntuaciones.Esdecirquesepuededarelcasodequecambienunagrancantidaddevalores(loque
hacequerealmenteelgrupoactualtengapocoqueverconelquehabíaoriginalmente)ysiellono
afectaalamáximafrecuenciaquesiguecorrespondiendoalmismovalor,lamodanocambiaríaypor
ellonoregistraríaestamodificacióndelaconductadelamuestraenelatributomedido.
6.4.1. B) Mediana ():
LaMedianaeselúnicopuntodelcontinuoqueverificalapropiedaddeencontrarse
enelcentrogeométricodelmismo,porloquenecesariamentedividealcontinuoendospartes,o
subgrupos,talesqueencadaunadeellasseencuentrael50%desujetosdelamuestra.
Portanto,lamedianaesuncasoparticulardelconceptodecentilantesdefinido(verpáginas
111Ͳ112)ycoincideenvalorsiempreconelͷͲ.
7
Conrespectoalnúmerodemodasdeunaseriededatoshayquetenerencuentaquecuandolosvaloresdemáximafrecuenciason
consecutivos,secalculaunasolamodacuyovaloreselpuntomediodelosmismos.
Esimportantenoconfundiralamedianaconelpuntomediodelaseriededatos,esdecir
conelvalorcentraldelconjuntodevaloresquedefinenalavariable.Esdecir,queporejemploenla
escaladelasnotasacadémicastradicionalesespañolas,entre0y10,lamediananoes5.Lamediana
puede ser perfectamente un valor que está más cerca de un extremo del continuo que del otro,
puestoqueloquedivideendospartesigualesosubgruposesalamuestradesujetos,noalaescala
devalores.
Estosepuedecomprobarfácilmenteenelsiguienteejemplo:
Supongamoslaseriededatos:40,27,36,54,32,42,31(entotal:ൌ7sujetos).
Elcálculodelamedianarequiereprimerodelaordenacióndelosvalores(lomáscómodo,de
menoramayor).Dichareordenación,paraestosdatos,es:27,31,32,36,40,42,54.
Ellugar,denominadopuestoorangomediano,queocupalamedianasecalculacon: ሺͳሻȀʹy
lapuntuaciónqueocupaesepuesto,eslamediana.
Portanto:elpuestomedianoes:ሺͳሻȀʹ ൌ ሺͳሻȀʹൌͶ͑,luegolamedianaeselvalorqueocupa
el4ºlugarenlaserie,esdecir:ൌ͵comopuedecomprobarse.
Confirmandoloexpuestoarriba,acadaladodedichovalorseencuentralamismacantidadde
sujetos,mientrasqueladistanciaenunidadesdemedidadesdelahastaelvalormínimo
(27)esmuchomenorquelaquehayhastaelsuperior(54),porloqueesobvioque36(la)
noeselpuntomediodelaescala.
Supongamos ahora esta otra serie ya ordenada: 27, 31, 32, 36, 40, 42, 54, 60
(donde el n=8 sujetos, es un número par). Entonces el rango mediano es: ሺͺͳሻȀʹൌ Ͷǡͷ͑ que
significaquelaestáentreel4ºyel5ºpuesto.
En este caso, la mediana se obtiene calculando el valor del punto medio entre ambas
puntuaciones: ൌ ሺ͵ͶͲሻȀʹൌ ͵ͺ, y de nuevo a cada lado de dicho valor se encuentra la
misma cantidad de sujetos sin que las distancias desde la mediana hasta ambos extremos del
continuoseaniguales( [3827]z[6038] ).
Finalmente conviene decir que la mediana es un índice más sensible que la moda ante la
variación de las puntuaciones obtenidas en la muestra. No obstante, si estoscambios se producen
mayoritariamente en los valores de los extremos del continuo, es muy posible que la no se
modifique.Entodocaso,lógicamentesuusoespreferenteantelamoda.
6.4.1. C) ഥ):
Media Aritmética (܆
Previamente conviene advertir que hay muchos tipos de medias o índices medios,
comoporejemplo:lamediaarmónica,lamediageométrica,etc…EnlaEstadísticaaplicadaatodas
lascienciasrelacionadasconelserhumano,lamediaaritméticaeslademayorutilidad.Porello,de
aquíenadelantediremossólomedia paramayorbrevedad,perosedebedepensarsiempreenla
mediaaritmética.
Por otro lado, sin duda alguna la media aritmética es el índice estadístico más conocido y
popular.Seguramentetodosloslectores,pormuyescasosqueseansusconocimientosestadísticos
previos a este curso, han calculado varias medias a lo largo de su vida y conocen perfectamente
cómo hacerlo. En cambio no es ni mucho menos el estadístico más fácil de definir. Pero por su
especial trascendencia para muchas de las técnicas y herramientas que veremos en el futuro,
convienehacerunesfuerzoparacomprenderbiensuconcepto.
En la mayoría de los manuales, la media aritmética suele venir definida, en términos
operativos:
La media aritmética es la suma total de los valores observados en una
variable,divididaporelnúmerodeellos.
Esdecirquesedefinemediantelaconocidaexpresión: ܆ ഥ ൌ σ܆Τܖqueobviamentepesea
sersimpleyclara,pocoaportaacercadelconceptopuestoquenoesmásquela“lectura”deunade
las ecuaciones existentes para su cálculo. Si se aplicase este permiso a otras herramientas
estadísticas habría definiciones completamente incomprensibles. Y recuérdese que una de las
intencionesdeestemanualestáladeevitar,siemprequeseaposible,lacitayelusodeecuaciones
matemáticas.
Portodoello,talvezlamejorformadeacercarsealacomprensióndeloqueesunamedia,la
encontramosendosdesuspropiedadescaracterísticas:
1ª)lamedia(aritmética)eselúnicovaloropuntodelcontinuoconrespectoalcualpodemos
afirmarquelasumadelasdiferencias 8queelrestodelosvaloresdelamuestratienenhasta
él,essiemprecero:σሺ െ ഥሻ ൌ Ͳ
y 2ª) la suma de los cuadrados de las diferenciales anteriores, es menor que la suma de los
cuadrados de otras diferencias que podrían ser calculadas con respecto a otro punto
cualquieradelcontinuo:σሺ െ ഥሻଶ ൏ σሺ െ ሻଶ
De estas propiedades se deduce que hay una analogía entre la media y un concepto físico
muy conocido para todos: la media es como el punto de equilibrio o el centro de gravedad de un
objeto.Esdecirqueeselpuntodelcontinuoqueseencuentramáscercaomáspróximoalrestode
puntos,yporestarazónquienmejorlosrepresenta.
Hay que resaltar que estamos ante el estadístico de centralidad más sensible de todos, ya
que el cambio de una sola de las puntuaciones incluidas en la serie, supone automáticamente una
modificación en el valor de la media aritmética. Y esta es una de las causas por las que éste es el
índicedecentralidadmásrepresentativodetodos,aunquesólodebaserutilizadoconvariablesde
tipocuantitativo(tantoenescaladeintervaloscomoenescaladerazón).Nótesequehemosdicho
“deba”, porque poder, también se puede utilizar con variables ordinales, si bien en este tipo de
variablesespreferibleusarlamediana.
Otro de los argumentos que hacen de la media el mejor estadístico de centralidad, es que
cuando posteriormente se realicen estimaciones de los parámetros respectivos en el ámbito de la
Estadística Inferencial, las medias muestrales se parecen más a las medias poblacionales que las
medianas y las modas a sus correspondientes parámetros. Por eso se dice que la media es un
estimadormáseficiente.
Quizásólohayauncasoenqueelusodelamediaseadesaconsejable:cuandoenlaseriede
valoresdelavariable,aparezcanalgunaspuntuacionesextremas(muchomenoresomuchomayores
queelresto)yquepuedendistorsionarlainterpretacióndelamedia.Porejemplo,silasedades(en
años)deunapequeñamuestradealumnosdeestaFacultadfuesen:20,18,19,18,19,19,18,(ൌ)
sumediasería18,71añosconloqueseconcluyequeelalumnadodelafacultadesmuyjoven;en
8
Estasdesviacionesodiferencias,sedenominanpuntuacionesdiferencialesyserepresentancon xi(minúscula)paradistinguirlasdel
valorobservadodirectaoempíricamente(ladirecta)queserepresentaconXi(mayúscula).
Luego: ܠൌ ܆െ ܆ ഥ(diferencial=puntuación–media)paracadasujeto.
cambiosolamentelainclusiónenlamuestradeuncompañerodelosanterioresquetuviese55años,
haríaquelamedia(deൌͺdatos)aumentasehastalos23,25años;ysihubieraunasegundapersona
similar(éstade48añosporejemplo)lamediadelos9sujetosyaseelevaríahastalos26,00años,
conelconsiguientecambioensuinterpretaciónacercadecómoeselgrupo.
Parafinalizar,esinteresanteconoceruncasoparticulardemediadenominadomediatotal,
que se define como la media de un conjunto de medias ya conocidas procedentes de varios
subgruposdesujetosquesereúnenenunúnicogrupototal.
Esteconceptodemediatotalesextensibleaotrassituacionesquetienenmásinterésenel
campo de la investigación psicológica. Así por ejemplo en el análisis de perfiles individuales, cabe
hablardelamediaponderadade
variablesquetienendistintaimportancia opesoenelvalorde
dichamedia.Enestamismalínea,lanotafinalquevosotrostendréisenestaasignaturaseobtendrá
precisamenteconunamediaponderadadondesevaloramás(tienemáspeso)laparteprácticaque
lateoría.
Y una última reseña, también podríamos hablar del porcentaje medio total, concepto
semejanteentodoalaanteriormediatotaly/omediaponderada,peroenelqueloquesepromedia
sonporcentajes(deaciertos,deveces,decasos,…)
Losíndicesdecentralidadporsísolosnoaportansuficienteinformaciónpara
describir completamente la conducta de los sujetos de una muestra. Es bastante frecuente
encontrarnoscondos,oinclusomás,gruposdesujetosquetienenmediasidénticasenvalor,omuy
parecidas,peroqueprovienendepuntuacionestotalmentedistintas.
EnesesentidoydentrodelámbitosocioͲeconómicolaconocidarentapercápitadeunpaís
es un caso particular de media aritmética que nos puede servir para ilustrar esta situación:
imaginarosdospaísesconlamismarenta(esdecirigualmedia),perounoestáformadoporpersonas
declasealtaconunaposiciónmuydesahogada(porejemplo:Mónaco)yelotroestáintegradopor
unospocossupermillonariosymuchospobres(porejemplo:Colombia,Ecuador,…).Esevidenteque
lainformaciónquenosproporcionalamedia(larenta),noindicalasdistintasrealidadesdeestosdos
países:enelprimerohayunagranigualdadsocial;enelsegundoencambiolasdiferenciasentrelas
personassonenormes.
Estegradodesemejanzaodesemejanzaentrelosvaloresnuméricosdeunaseriededatoses
loquedenominamoscomovariabilidad.Elconceptodevariabilidadesportantoysinningunaduda,
fundamental para cualquier aplicación de la Estadística, y en especial para la nuestra, ya que
representaalhechopsicológicoincuestionabledelaexistenciadediferenciasentrelaspersonas.
Asimismo, variabilidad tiene la misma raíz etimológica que variable. Por tanto la existencia
devariabilidadesinherentealconceptodevariable.Lasvariablessontalesporquevarían,esdecir
porquetienenvariabilidad.Asíqueestudiarlavariabilidadesfundamentalparaelanálisisestadístico
deunavariable(ydelconstructoteóricoalquerepresenta).Laimportanciadelavariabilidadestal,
quenoesexageradodecirquesinellanoexistiríalaEstadística.
Avanzando en el manejo de la terminología, cuando un grupo de sujetos presenta pocas
diferencias porque sus puntuaciones en la variable medida son semejantes, (como Mónaco en el
ejemplodeantes)decimosqueesegrupoeshomogéneoeneseatributo.Encambiosilasdiferencias
observadas entre unos y otros son grandes (como los casos anteriores de Colombia o Ecuador)
decimos que el grupo es disperso. Por tanto homogeneidad y dispersión, son las dos caras de una
mismamoneda:lavariabilidad.
Lasherramientasquedescribenestapropiedad,denominadasgenéricamenteestadísticoso
índices de variabilidad, presentan desde el punto de vista de su significado una importante
diferencia con respecto a los anteriores de centralidad; y es que mientras los ya estudiados son
consideradoscomopuntosdelcontinuoqueverificanciertaspropiedades,losíndicesdevariabilidad
equivalen a segmentos de dicho continuo, es decir a: diferencias o distancias entre dos puntos
determinadosquelimitanunporcentajedesujetosconocido.
Así, cuanto menor sea esa distancia (el valor del estadístico) más cerca estarán los sujetos
entre sí (homogeneidad) y al contrario obviamente, cuanto mayor sea la distancia necesaria para
captaraesosmismossujetos(mayorvalordelestadístico)máslejosestaránentresí(dispersión).
Enlaliteraturaespecializadahayunabuenacoleccióndeíndicesdevariabilidad,algunosde
ellosaportandistintainformaciónacercadelaspuntuacionesobservadas,yotrosencambiosonmás
adecuadosanteciertasituación;peroestádemostradoqueentretodosellos,losmásútilesson:
a) laamplitudsemiͲintercuartil,
b) lavarianzajuntoconsuderivadaladesviacióntípica,y
c) elcoeficientedevariación;
porloqueseránlosúnicosquevamosadefiniryautilizarenestecurso.
Antesdeproseguirconelestudiodetalladodecadaunodeellos,esteesunbuenlugarpara
comentar que en otros momentos de nuestros análisis estadísticos veremos que el interés del
investigadornosecentrasolamenteencuantificarelgradodevariabilidadobservadoenungrupode
sujetos;sinoquesuobjetivofundamentaldebeserencontrarcuálessonlasfuentes,lascausas,que
generanesavariabilidadparadeterminarconelloquéfactores(variablesindependientes)explicanel
atributomedido(variabledependiente).
Tambiéndenominadaenotrostextos:RecorridooDistanciaSemiintercuartílica()y
conmenosfrecuenciaErrorProbable().
Operativamente se define como la mitad de la distancia existente entre los cuartiles
extremosdeladistribución.
Esta definición implica al concepto de cuartil aún no estudiado pero cuyo sentido es muy
simple de entender. A semejanza de los centiles definidos en el apartado 6.2, los cuartiles son 3
puntos(ͳ,ʹy͵)quedividenalgrupoen4partesconunáreadel25%deindividuosencadauna
de ellas. De manera que los 3 cuartiles de la escala coinciden con los centiles: ʹͷ, ͷͲ y ͷ
respectivamente.Loscitadosporladefiniciónanteriorcomocuartilesextremosson,entonces,el͵
yelͳequivalentesalcentil75yalcentil25.
Portantosegúnestadefiniciónypuestoqueentreamboscentiles(C25yC75)siemprehabrá
un50%decasos,laesunindicadordelgradodevariabilidaddeunaparte(soloese50%central)
delossujetosdelamuestraynodelatotalidaddelamisma.
Porestarazónnoeslaherramientadevariabilidadmásrepresentativa,sibientieneunuso
muyparticularcomoveremosposteriormente(enpágina130)yaquesuutilizaciónesmuyadecuada
cuandoseobservaenlamuestralapresenciadevaloresextremos(superioresy/oinferiores)quese
apartangrandementedelrestodelgrupo.
Nótese que la distancia (en el continuo) expresada por este estadístico tiene unidad de
medidapuesprocedededosvalores(loscentiles)queasuvezlatienen,yqueéstanoesotraquela
u.m. de la variable. Ello tendrá, como veremos, trascendencia a la hora de comparar el grado de
variabilidad que presenta un grupo de sujetos en más de una variable (que seguramente tendrán
distintasu.m.).Peroparatodo(ocasitodo)haysolución,ylaestudiaremosenlasección6.4.2.C.
Estos son por defecto los índices estadísticos que mejor representan la variabilidad
deunadistribucióndedatos.Adiferenciadelanterior,ambosutilizantodalainformacióncontenida
enlamuestra,esdecirqueexpresanlavariabilidaddelatotalidaddelosdatosobservados.Portanto
estamosantelasprincipalesherramientasparaelanálisisdelavariabilidad.
Para llegar hasta la definición de ambas, es necesario recordar algo que hemos visto
anteriormente (en página 122): las diferenciales ( ܆െ ܆ ഥ). Ellas, tomando como punto de referencia
comúnalvalordelamediaaritméticadelamuestra,expresanladistanciaexistenteentreelnivelde
cadasujetoenelatributoydichamedia.
Esevidentequecuando,engeneral,estasdiferenciales(distancias)seanpequeñaspodemos
deducirquelossujetosestaráncercadesumediayporellonecesariamenteseránparecidosentresí,
es decir que son un grupo homogéneo. Y al contrario, si las diferenciales aumentan los sujetos se
alejandelamediayportantounosdeotros,esdecirquehaymayorvariabilidad,queelgrupoes
disperso.
Como quiera que ya sabemos que cualquier media es el índice que mejor representa a un
conjunto de valores, parece lógico pensar que una simple media aritmética de estas diferenciales
calculadaconlossujetosdelamuestraseríaunbueníndicedevariabilidad.Peronoesasí.Dela
primerapropiedaddelamedia[σሺ െ ത ሻ ൌ Ͳ]sededucequeesteintentoesinútil,puestoquela
mediaencuestiónseríasiempreigualacero.Estosedebelógicamenteaqueconrespectoalpunto
de referencia tomado (la media) las diferenciales, unas positivas y otras negativas, se van
compensando.Perolaideadepartidaesadecuada,simplementehemostopadoconunproblemade
signosaritméticos.
Unasoluciónconsistiríaentomarestaspuntuacionesdiferencialesenvaloresabsolutos;de
hecho con esto se define a un estadístico de variabilidad denominado Desviación Media (media
aritmética de las desviaciones en términos absolutos de las puntuaciones de sujetos). Pero este
estadístico no se utiliza en Psicología debido al problema añadido que supone considerar las
diferenciasentérminosabsolutos(porejemplo:elsujetoAconunadiferencialde+10podríaparecer
erróneamentedeigualnivelqueelsujetoBquetieneunadiferencialde–10).Porotraparteesuna
herramientabastanteobsoleta.
Por ambas razones optamos por otra solución posible, que consiste en eliminar los signos
elevandoalcuadradocadadiferencial.Deesta maneralasdistanciasseigualan(32=9como32=9)
independientementedeladodelamediaenqueseencuentren.
Partiendodeestanuevaidea:
Lavarianzaeslamediacuadráticadelasdiferenciales,esdecirlamediade
lasdiferencialesdesujetos,conrespectoasumedia,elevadasalcuadrado.
Ahora también es fácil de entender porque el símbolo que representa a una varianza lleva
incluidouncuadradotantoparaelestadísticodescriptivo(ଶ )comoparaelparámetro(Vʹ).
Lavarianzaenunodelosíndicesestadísticosmásimportantes,yunaherramientaclaveen
losanálisisytécnicasmástrascendentalesyhabitualesdelaEstadística.
Ahora bien, debido a la operación de elevar al cuadrado las diferenciales, la varianza tiene
como unidad de medida al cuadrado de la u.m. original de la variable. Esta cuestión dificulta la
interpretación descriptiva del valor de una varianza: ¿qué significado tendría una varianza de 16
euros2 al medir el gasto del ejemplo de hace algunas páginas, o de 4 años2 si estuviésemos
describiendolaedaddeunamuestra?
Fundamentalmenteporestarazón,ysóloparasuempleoenlapartepuramenteDescriptiva
de la Estadística, se definió a la desviación típica (o desviación estándar: en textos de origen
anglosajón).
La desviación típica (estándar) es simplemente la raíz cuadrada de la
varianza.Esdecir: ܆܁ൌ ξ܁
Deformaqueestaherramientarecupera(orespeta)comounidaddemedidalamismaque
tiene la variable permitiendo la interpretación puramente descriptiva de la variabilidad: ahora una
variaciónde4euros(laraízdelos16euros2dearriba),ode2años(laraízdel4años2anterior),sí
quesecorrespondencondiferenciasquecuantitativamentetienensentidoenlavariableconlaque
seestámidiendoalatributo.
Aquí se debe de tener en cuenta que siendo la varianza un valor en esencia positivo, la
desviación típica también lo debe ser, por más que matemáticamente la raíz de un número pueda
tenerambossignos(sabidoesquelaraízde4noes2,sinor2).ParaotrosteóricosdelaEstadística,
simplificando,varianzaydesviacióntípicadeberíanserconsideradascomodistanciasabsolutas(sin
signo).
Otras de las razones que hace de estos índices las mejores herramientas para analizar
variabilidadesque,comoyaocurrieraconlamedia,soncompletamentesensiblesalamodificación
deunvalorcualquieradelaserie;demaneraquetodocambioenlamuestraporpequeñoquesea
afectaasuvalorquetambiénsemodifica.
Todos los índices de variabilidad definidos anteriormente llevan, como hemos
señalado,unidaddemedida.Lógicamenteestovaasuponerciertoproblemaalahoradecotejarel
gradodevariabilidadqueunamuestradesujetostieneendistintasvariables;yaquesólopodríamos
realizardichaconfrontaciónsituviesenlamismaunidaddemedida.
Asimismo,cuandosedeseacompararlavariabilidadengruposcuyasmediasrespectivasson
claramentedistintaslosestadísticosanterioresnospuedenllevaraconclusioneserróneas.Pongamos
porejemploqueobservamoslaestaturadeunatribudePigmeosafricanosresultandoquesumedia
es de 162 cms con desviación típica 8 cms; y que comparamos esta muestra con otra de Bantús o
Batusis, cuya estatura media es de 205 cms y desviación típica también 8 cms. A la vista de estos
resultados parece que ambas poblaciones tribales son igualmente homogéneas en este atributo, y
nadamáslejosdelarealidad.Deinmediatopodremoscomprobarlo.
Ambos problemas, uno comparativo y otro interpretativo, se solucionan gracias a un
estadísticopropuestoporKarlPearsonydenominadocoeficientedevariación,queaunqueenrigor
sólosepuedeemplearcondatosmedidosenescaladerazón,tieneunusomuyextendidoaúnen
variablesconmétricaintervalar.
Elcoeficientedevariaciónsedefinecomolaproporciónrelativaentrelavariabilidadyla
centralidad de una serie de datos. Es decir la razón, o el cociente expresado en porcentaje, que
representaloqueelvalordeladesviacióntípicaessobrelamagnituddelamedia:۱ ܄ൌ ሺ ܆܁Τ܆ ഥሻ ȉ
Deestadefinición,sededuce:
Ͳ que éste índice es un número abstracto (es decir sin unidad de medida), luego permite
compararvariabilidadesdeatributoscondistintasu.m.;
Ͳ y que además expresa la variabilidad en función de la media del grupo, lo que elimina el
segundoproblemacomentadoanteriormente.
Ahoraconél,podemosvercomoenlatribudePigmeos(CV = 8 / 162ͼ100 = 4,94)elgradode
variabilidadesmayor(menoshomogeneidad)queenlatribudeBatusis(CV=8/205ͼ100=3,90).
La primera propiedad que necesitamos conocer para describir
adecuadamenteunavariablecuantitativaessuforma.Necesariamenteeslaprimeraquedebemos
decalcularyanalizarporcuanto,comoveremosenseguida,deelladependeráladecisiónacercade
cuálessonlosíndicesmásadecuadospararepresentareinterpretardescriptivamentelacentralidad
ylavariabilidaddelosdatosobservadosenlamuestra.Sinembargo,comoyaseadvirtióenlapágina
119,resultarámuchomássencillocomprendersusconceptoseíndicesdespuésdehaberrevisadola
centralidadylavariabilidad.
Elanálisisdelaformaserealizaatendiendoadosaspectosocriterioscomplementarios:
a) elgradodeasimetríadeladistribución,
yb)sucurtosisoaltura.
En función de ambas se han establecido diferentes modelos generales de distribución que
tienenobviamentedistintaspeculiaridades.Portanto,loquesepretendeconelanálisisdeestasdos
cuestionesvinculadasalaforma,esveracuáldelosmodelosyadefinidosseparecennuestrosdatos
particulares. Y decimos “se parecen” porque es prácticamente imposible que en la realidad
aparezcanmodelosteóricoperfectoscomolosquevamosadescribir.
Porsen
ntidocomún sabemosqu uesedicedealgoqueeessimétrico cuandosep puede
encontraruunejequelo odivideenddospartesiddénticasentrresí;esdecirqueelcon nceptodesimmetría
estáligado alaexistencciadeeseejjecentraldeereferencia.EnEstadístiicatenemosunconceptoque
funcionacoomotaleje:lamediana.
Poresto,decim
mosquedosp puntosysonsiméttricosentressí:siladifereenciaentérminos
absolutosddesdesuvalo orhastaeldeelamedianaaeslamismaa;oloqueesslomismoq queseencue entran
a la mismaa distancia de la mediana, pero en
e lados op puestos. Gen neralizando, definimos a a una
distribución
ncomosiméttricacuando otodossusppuntos,empaarejados,cum mplenlacon ndiciónanterrior.
Sinembargo,losíndicesesttadísticosquesehandise eñadoparaeevaluarestapropiedad,m miden
elgradodeeincumplimientodelam misma,yporresosondenominadosííndicesdeasimetría.Losmás
utilizadosso
onlosíndiceesdescritosp porPearsonyyporFisher;;yenfunción ndesuvalorrsehandesccrito3
tipos,omod delos,dedisstribución:laasimétrica,laaasimétricapositivaylaasimétrican
negativa.
9 Sieelíndicees:
ൌ Ͳ,decim
mosquelad
distribución esperfectammentesiméttrica.Eneste ecaso
eneelejecentraaldelpolígonnodefrecuenciascoincid ഥ
denenvalorlayla .Ysisetraatade
unaadistribución nunimodal,lamodatam mbiéncoinciddiríaconlasaanterioresen
nelmismovvalor.
9 Sieelíndicees: z Ͳ,decim
mosqueesaasimétrica.P Peroeneste casohayqu uedistinguir entre
dosstiposoform masdeasimeetría:laposittiva(oalad derecha)ylanegativa(oalaizquierd da).
9 En las assimétricas po ositivas ( Ͳ), la mayyoría de los sujetos se cconcentran en
e las
puntuacio d continuo de valores (a la izquierrda del mism
ones bajas del mo) por lo que en
esa partee del contin nuo se obseerva una elevada homo ogeneidad; mientras qu ue las
frecuenciiasvandismiinuyendoam medidaqueaaumentaelvvalordelasp puntuaciones.
Losvaloreesmásextreemos,esdecciraquellosq quemásseaalejandelam mayoríaded datos,
sesitúan aladerechaadelcontinuo(desdeunpuntodevvistagráfico).Estaesla causa
por la quue la mediaa es el valorr más alto entre
e las 3 herramientaas de centraalidad
clásicas,aasícomodequetambién nsellameaestetipodeeformascom moasimetríahacia
laderecha.Portanto,,enasimetrííaspositivas siempre: ൏ ݊݀ܯ൏ ഥ.
9 En las assimétricas neegativas ( ൏ Ͳ) es al contrario. La L mayoría de los sujettos se
concentraan en los valores eleevados del continuo (d donde ento onces hay mayor
m
homogen neidad) y lass frecuenciass van disminuyendo a medida
m que ddisminuye el valor
delaspuntuaciones.Entoncesen nestecaso,lo osvaloresexxtremosqueemássealejaandel
resto lo hacen por el
e lado izquierdo del co ontinuo; por ello el valo or de la meddia es
menorqu ueeldeloso otrosíndicessdecentralid dadydeahívieneelnom mbredeasim metría
hacialaizzquierda.Asííqueenasim metríasnegattivassiempre: ݊݀ܯ ഥ.
A
AsimetríaPos
sitiva Asim
metríaNegativva
ഥ
൏ ݊݀ܯ൏ ഥ ൏ ݊݀ܯ൏ ܯ
ܯ
Enlasgráficasanterioressepuedecomprobarperfectamenteelaspectodelosmodelosde
asimetría positiva y negativa. Obsérvese la marca realizada sobre el valor de la moda () que
lógicamentesesitúasobreelpicomásaltodecadaunadelasdoscurvas.Tambiénsepuedeapreciar
cómolaaparicióndevaloresextremos,aunqueseanpocos,“tira”delamediahaciaellosporloque
siempre se ubica opuesta al lugar donde está la moda. De la relación entre los valores de ambas
(mediaymoda)sederivaelsigno(positivoonegativo)delíndiceyelnombredeltipodeasimetría.
En la práctica es muy difícil, por no decir imposible, que aparezca una distribución
perfectamente simétrica, por lo que habrá que dejar un margen, alrededor del valor 0, dentro del
cual se considera que hay simetría porque la desviación es pequeña. El siguiente gráfico trata de
exponerlo:
Marcada Ligera Ligera Marcada
Asimetría Asimetría
Simetría Asimetría+ Asimetría+
1 0,500 0 +0,500 +1
> Enelintervalo:[0,500<<+0,500]seconsideransimétricas;
> Entre0,500y1(consucorrespondientesigno)hayunaligeraasimetría(+ó);
> Convaloresapartirdelaunidadhayunamarcadaasimetría(consucorrespondientesigno).
Se denomina curtosis a la altura que tiene la curva observada en una gráfica (del
tipoalpolígonodefrecuencias)hasta elejedeabscisasmedidaenelvalor,opuntodel continuo,
correspondientealaordenadacentral(querecordemosquesiemprecoincideconlamediana).
Esmuyimportanteadvertirquelacurtosisnotieneporquéexpresarlaalturamáximadela
distribución;ydehechoendistribucionesasimétricas,contodaseguridadnoesequivalenteaella.
Enfuncióndeestapropiedadsehandescritotresmodelosdistintosparaexpresarcómoesla
distribucióndelosdatos:laleptocúrtica,laplaticúrticaylamesocúrtica.
9 lasleptocúrticas(palabradeetimologíagriega,queindica“alto”):sondistribucionesaltasy
estrechas. Por tanto, se reconocen porque tienen a la gran mayoría de los sujetos
concentrados en los valores centrales del continuo (lo que implica observar en ellos
frecuenciaselevadas);mientrasquetienenmuypocossujetos(frecuenciasbajas)enambos
extremos.
9 lasplaticúrticas(palabradeetimologíagriega,queindica“baja”):sonaquellasquepartiendo
ya de frecuencias altas en ambos extremos del continuo, se elevan ligeramente hacia los
valorescentralesdelmismo.Sonportantocurvasdepocaalturaensupartecentral.
9 las mesocúrticas (palabra de etimología griega, que indica “en medio de”): son un modelo
que se encuentra entre los dos anteriores, puesto que parten en ambos extremos de unas
frecuenciasnitanaltascomolasdelasplaticúrticasnitanbajascomolasdelasleptocúrticas,
para elevarse en el centro del continuo hasta una altura intermedia entre cada una de las
anteriores.
Los gráficos superiores representan a distribuciones que además de tener las diferentes
alturasdelos3modelosestablecidosenfuncióndelacurtosis,sonperfectamentesimétricas.Esto
notieneporqueocurrirasícondatosreales,dondenospodemosencontrarporejemplounavariable
que siendo mesocúrtica presenta una tendencia hacia la asimetría positiva. O cualquier otra
combinaciónentrelosmodelosdescritosenelestudiodelasimetríaycurtosisdelasdistribuciones.
Loqueocurreesquealahoradepresentargráficamentelasdiferentesalturas,esmásfácilhacerlo
conimágenessimétricas,porqueasíelojodellectornovatonosedistraeviendoloquenodebeyse
concentra exclusivamente en la cuestión de la altura de la curva en su ordenada central (la );
que,porcierto,estámarcadaenlos3gráficosporlalíneaverticalpunteada.
Sehanconstruidoyutilizadovariosíndicesestadísticosparadeterminarlacurtosis.Perosin
dudaelmásconocidoeselcoeficientedeexcesoqueesunacontinuacióndelíndicedeasimetríade
Fishercitadoenlasecciónanterior.
Elvalordereferenciaparasuinterpretaciónestambiénelcero( ൌ Ͳ).Siseobtuvieseeste
valor,estaríamosantelasdistribucionesmesocúrticas;mientrasquelosvaloresͲindicanquees
unadistribuciónleptocúrtica(másaltaenelejecentral)ylosvalores൏Ͳindicanqueesplaticúrtica
(másbajaendichoeje).
En la práctica, como ya ocurriera en el tema de la simetría, es muy difícil por no decir
imposible,queaparezcaunadistribuciónperfectamentemesocúrtica,porloquehabráqueadmitir
unintervalodevaloresalrededordel0dentrodelcualseconsideraqueladesviaciónconrespectoa
esta altura “media” es pequeña. Al estudiante le va a resultar fácil recordar estos límites
interpretativos porque son los mismos que en los índices de asimetría, aunque lógicamente con
distintosignificado.
Denuevoenelgráficoquesigue,seintentaexponerlo:
Marcadamente Tendencia Tendencia Marcadamente
Platicúrtica Platicúrtica Mesocúrtica Leptocúrtica Leptocúrtica
1 0,500 0 +0,500 +1
> Enelintervalo:[0,500<<+0,500]seconsideranmesocúrticas;valorespositivoscurvas
másaltasyvaloresnegativoscurvasmásbajas;
> Entre+0,500y+1unatendenciahacialeptocúrtica;porencimade+1yaloes;
> Entre0,500y1unatendenciahaciaplaticúrtica;porencimade1yaloes.
Laexperimentaciónylareiteradaobservacióndemúltiplesvariablesvinculadasalamedición
de rasgos psicológicos y en general de atributos observables en el ser humano, llevaron a la
conclusióndequeunagranmayoríadeellasmuestranunaevidentepredisposiciónamanifestarse
conelsiguienteperfil:simétrica(ൌͲ)ymesocúrtica(ൌͲ).
Por tanto si esta es la forma habitual, es decir la forma normal en la que se presentan o
distribuyenlosdatosdelasvariablescuantitativas,sedecidiódenominarcomodistribuciónnormala
todasaquellasquecumplíanambascondicionesdeforma.
A pesar de esto, es muy importante dejar constancia de que posteriormente estudiaremos
(enelTema8)quenobastaconqueunadistribuciónseasimétricaymesocúrticaparaasegurarque
setratadeunadistribuciónnormal.
Éstemodelodedistribuciónesunconceptomuchomásamplioycomplejo,ademásdeserde
vitalimportanciaparalaEstadísticaporsuimplicaciónennumerosasherramientasytécnicas;tanto
queenlasmayoríadelosmanuales,comoenelnuestro,selededicaunTemaexclusivoparaél(el
citadoTema8).
Loquesíescierto,yaquíesdondeestamosenestemomento,esquedesdeelpuntodevista
meramentedescriptivo,lapresenciadedatosquesedistribuyendeformasimétricaymesocúrticaes
unmuybuenindiciodelatendenciahacialanormalidaddelavariableanalizada.
Antes de completar este apartado, creo necesario insistir en el comentario de que cuando
conozcamos los fundamentos teóricos de la Estadística Inferencial (Tema 10) así como sus técnicas
(Temas13al19)veremoshastaquépuntoesimportantísimalacuestióndelapresenciaonodeuna
distribuciónnormalenlosdatosdelavariablemedida(siemprequeseacuantitativa).
Y también aprenderemos que el análisis del grado de ajuste de los datos empíricamente
observados a eso que llamamos el modelo de distribución normal se afronta más adecuadamente
desdeotropuntodevistaymedianteunatécnicadetipoinferencialquenosofrecesuconclusióncon
unelevadoniveldeprobabilidaddeaciertoynodeunaformameramentedescriptivacomohacemos
enesteinstante.Enrealidadelíndicedeasimetríaycurtosisqueseacabandeexplicarsolodescriben
laformadelosdatosdelamuestra,mientrasqueloqueponemosenjuegoenelanálisisinferencial
queestudiaremos en lostemas posteriores es si tenemos alguna evidenciaque nospermita afirmar
quelavariablesigueonoestemodelonormalenlapoblación(verapartado13.1).
Yahabíamosadelantadoconanterioridadyenvariasocasionesquedependiendodelaforma
deladistribucióndelosdatos,unosíndicesestadísticossonmásadecuadosqueotrosalahorade
describiraunavariablecuantitativa.
Ahorayatenemoslainformaciónsuficienteparapoderdecirquecuandonosencontramos
con este tipo de distribución denominada normal, los índices de centralidad y variabilidad más
representativos, y por tanto, aquellos con los que se debe de realizar la descripción de la variable
son: la media y la desviación típica. A la varianza se la reserva para la parte inferencial de la
Estadística;dehechoenposteriorestemas,vamosavercómolaasiduidaddesuutilizaciónesmucho
mayorqueladeladesviacióntípica.
Ya se decía arriba que muchos procedimientos y técnicas estadísticas se apoyan en el
cumplimiento de la condición de normalidad de la variable y emplean entre sus herramientas:
medias y varianzas (o desviaciones típicas), aunque aparezcan con otros nombres propios de cada
caso.
Encambiocuandotengamoscualquierotromodelodedistribución:asimétrica,leptocúrtica,
platicúrtica,etc…,estoes,cualquiercombinacióndiferenteasimétricaymesocúrtica,yasabremos
quenopuedeajustarsealanormal.Enestecaso,laparejadeestadísticosquesedebeutilizarestá
compuestaporlamedianaparalacentralidadylaamplitudsemiͲintercuartilparalavariabilidad.
Esto no quiere decir que la media y la desviación típica no se puedan calcular, sino que la
y son más eficaces a la hora de hacer la descriptiva de la variable. Por esta razón, es
relativamentefrecuenteverqueenestesegundocaso,noseempleeúnicamentealaparejay
sinoquesehagaunusoconjuntoycomparadodemediaymedianaporunlado,ydedesviación
típicayamplitudsemiͲintercuartilporotro.
Enresumen:
¿Es
Variable Media
mesocúrtica SI
CUANTITATIVA yDesviaciónTípica
ysimétrica?
Mediana
(juntoalaMedia)
NO
yAmpl.SemiͲinterc.
(juntoalaD.T.)
Con esto termina el repaso a las principales herramientas descriptivas para variables
cuantitativas.Ahorasólonosquedapracticarlas.Poryparaello,seincluyeelsiguienteapartado.
En el apartado anterior 6.4, se han presentado un buen número de índices
estadísticos,asaber:losdeforma(asimetríaycurtosis),losdecentralidad(media,medianaymoda)
ylosdevariabilidad(amplitudsemiintercuartil,varianza,desviacióntípicaycoeficientedevariación).
Nosehaacompañadoacadaunodeellosconunejemplo,resueltoconSPSSporsupuesto,porque
suutilizaciónenEstadísticaDescriptivaessiempreconjuntaycasinuncadeformaindividual.
Estaeslarazónquejustificalanecesidaddeesteapartadoenelquesevaatrabajarconun
ejemplo, global, donde aparezcan todas estas herramientas y en el que se hará una interpretación
estadísticadelainformaciónquenosaportan.
AlolargodelactualTema6hemosvenidoutilizandorepetidamenteelejemploconlosdatos
correspondientes a la variable Gastos semanales de los universitarios en esparcimiento. Parece
lógicorematarlafaenaconella.Allávamos:
Ejemplo8
Recogida la información de la cantidad de dinero que los universitarios
destinan semanalmente a su esparcimiento, se desea realizar la descripción estadística de esta variable
en la muestra estudiada.
Las tareas descriptivas de una variable cuantitativa, se pueden ejecutar en SPSSͲ15
empleandovariosmenúsdefuncionesdiferentes.Unadeellas,eslayamuyconocida:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖFRECUENCIAS[osubotón: ]
En su habitual cuadro de diálogo, en primer lugar se selecciona la variable a analizar y se
traslada a la casilla de la derecha (como siempre); y después clicando en el botón Estadísticos… se
abre el subcuadro que ya se presentó cuando se trató el tema de los centiles. En dicho cuadro se
encuentran todas las herramientas que acabamos de estudiar en el apartado anterior. Como no
sabemos, aún cuál es la forma de la variable, tenemos que activar todo lo que podemos necesitar
para hacer la descripción: Asimetría, Curtosis, Media, Mediana, Desviación típica, Varianza, y los
Cuartiles.EnlaimageninferiorseobservaqueademásdeloscitadossehapedidoaSPSSquenos
calculealgunaotrainformación:
Tambiénsepuedecomprobarendichaimagen,cómoenelcuadrodediálogoprincipalseha
desactivado la opción Mostrar tabla de frecuencias que nos daría una información que ya no
necesitamosyqueocuparíaunespacioinnecesario.Silodeseamospodremosacompañarnuestros
índicesestadísticosconunarepresentacióngráfica;paraellobastaríaconentrarenelsubcuadrode
diálogocorrespondientehaciendounclicenelbotón Gráficos…
Esta función ofrece pocas alternativas gráficas, pero sí
que tiene algo que es interesante en este momento: nos
permitecrearunHistogramaenelquesobrelosdatosrealesse
va a dibujar cómo habría sido la forma de una curva normal
paraesavariable(consumismamediaydesviacióntípica).Esto
será de mucha ayuda a la hora de intuir hasta qué punto los
datos de la variable analizada se aproximan al modelo de una
distribuciónnormal.
RecuérdesequetantodeestesubcuadrodediálogocomodelanteriordelosEstadísticos,se
salepulsandoen Continuar .Demaneraquesólonosrestapicaren Aceptarparaqueelprogramanos
presentelatabladeresultadosyelgráficoquevemosdebajo:
Estadísticos
Frecuencia
15
Varianza 113,584
Asimetría -,092
Error típ. de asimetría ,192
10
Curtosis -,431
Error típ. de curtosis ,381
Mínimo 16
5
Máximo 69
Percentiles 25 35,00
50 43,00 0
75 50,00 10 20 30 40 50 60 70
a. Existen varias modas. Se mostrará el menor de los Gasto (€) Universit. en esparcimiento
valores.
Acontinuaciónseprocedealainterpretacióndelosresultadosobtenidos.
Puestoqueelíndicedeasimetría(0,092)yeldecurtosis(0,431)semantienenentrelos
límitespermitidos(r0,500)podemosconcluirqueenestamuestralosdatossedistribuyendeforma
simétrica y mesocúrtica por lo que es muy posible que la variable siga un modelo normal 9. Este
indicio de normalidad se ve apoyado por el histograma adjunto, en el que si comparamos la
distribuciónrealconlaformanormal(queeslalíneanegrasobreimpresionada)comprobamosque
hayciertasemejanza.
En consecuencia las herramientas más adecuadas (o más representativas) para describir a
esta variable son la media aritmética y la desviación típica. La media ha resultado ser 42,48€ y la
desviación típica 10,66€. Esta es la información fundamental a la hora de sacar alguna conclusión
sobrecómoeselgastosemanaluniversitarioenocio.Segúnseve,elgastomedioesalgosuperiora
los42€conunavariacióndecasi11€;ellonosindicaquesegúnloqueseobtieneenestamuestra,
los individuos de esta población (los universitarios) no dedican excesivo dinero a este apartado
(seguramente porque no pueden, y absolutamente seguro que menos del que desearían), y que
ademásseconfigurancomoungrupobastantehomogéneopuestoquelavariabilidadobservadaen
torno a dicha media, es pequeña ( ൌ ͳͲǡΤͶʹǡͶͺ ȉ ͳͲͲ ൌ ʹͷǡͲͻ o ʹͷΨ; el coeficiente de variación,
comovemosnoseincluyeentrelasopcionesdeSPSS,perosucálculoesmuysencilloyaportaunainteresante
ayudaparalainterpretacióndelgradodevariabilidaddelamuestraሻǤ
Elpárrafoanterioreseltipodeconclusionesdescriptivasquepodemoshacerapartirdelos
resultadosdelasherramientasdescriptivasmásadecuadasalcaso;ysonconclusiones,queeneste
ejemplo,sebasanenelsentidocomún,enelconocimientoquetodosnosotrostenemosdeloque
suponegastarenocio,yenelniveldepreciosquehayenelmomentodeescribirestaslíneas(queal
ritmo que va la economía mundial y la inflación, pronto tendremos que decir que son valores
imposibles, por pequeños). En definitiva, que la interpretación de los resultados del análisis
estadísticoestáevidentementeenfuncióndelatributo(oconstructo)quesemideconlavariable,de
9
Esmuyimportantenoolvidar(verpágina131)quéparatenerunamayorseguridadacercadeestaafirmaciónesnecesarioutilizaruna
técnicaestadísticadetipoinferencialquenosaporteunaconclusiónprobabilística.DichatécnicaseestudiaenelTema13.
launidaddemedidadelamisma(queasuvezdependedelinstrumentoodelatécnicaempleada
pararecogerlosdatos)ydelconocimientoteóricoquetengamos.Portantonopodemosdarnormas
sobre cómo interpretar los resultados de unos índices estadísticos descriptivos. Debe ser el
profesional de cada rama (Psicología clínica, social, infantil, recursos humanos,…) el que sepa el
significado que adquieren unos valores determinados. ¿Qué indica una ഥ=30 u.m.?, ¿es mayor o
menor que otra ഥ=217,28 u.m.?; ... y una desviación típica de 20 u.m. nos dice que el grupo es
¿homogéneo o disperso?... pues depende…, y la Estadística y el profesional de la Estadística no lo
sabe.Estaestareadelinvestigadorcientífico.
Por otro lado, es necesario comentar que la parte descriptiva de un informe no se limita a
citar la centralidad y la variabilidad (siempre en función de la forma) como hemos hecho arriba.
Habitualmente se da toda aquella información que se considere relevante. Por eso, al utilizar la
funcióndeSPSSsehapedidoalgunainformaciónmásqueapareceenlatabladeresultadosanterior.
Enestalínea,desdelosresultadosdenuestroejemplopodríamosescribirunadescriptivaquediría
algoasícomo:
“En esta muestra de 160 universitarios, el gasto semanal en ocio se aproxima a una
distribuciónnormal(simétrica,As=0,092ymesocúrtica,K=0,431).Elgastomediohasidode
algomásde42€(mediana43€)conunadesviacióntípicadecasi11€.Seobservóqueelgasto
mínimoera16€yelmáximode69€;habiendoun25%deuniversitariosquegastanmásde50€
semanalesyotro25%quenollegaalos35€ ”.
Esteesunpárrafopuramentedescriptivodelosresultadosestadísticos,mástardeiríanlas
conclusionesdetipoteóricoalestilodelocomentadoarriba.
Unos de los objetivos de este manual es que el estudiante aprenda también la forma de
expresar los resultados estadísticos. Por ello, en cada una de las técnicas que iremos usando a lo
largodelosmuchosejemplosresueltosquevaisaencontrarosapartirdeaquí,seincluyeunpárrafo
deltipodelanterior.Esimportantequevayáishaciendoelesfuerzodefijarosencómoseescribeen
Estadística; así os resultará más fácil comprender los textos que tengáis que leer en el futuro y
también estaréis mejor preparados para poder escribir los vuestros. Con toda seguridad, al menos
durante la vida universitaria, vais a tener que redactar más de un informe de corte científico que
vayaacompañadoderesultadosestadísticos.Yenlaprácticaprofesionalfutura,también.
SPSSͲ15cuentaconotromenúquenospermitellegarhastalosmismosresultados.Setrata
deunprocedimientomássimple,enelsentidodequenosgeneramenorcantidadderesultados.
Por ello, personalmente, no me parece la mejor opción; pero ahí está. Para ejecutarla hay
queseguirlaruta:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖDESCRIPTIVOS
Suaspectoessemejantealanterioryacasitodosloscuadosdediálogoconlosqueseinician
los procedimientos estadísticos en SPSS. Tras seleccionar y mover la variable a analizar (como
siempre)alacasillacorrespondiente,elbotóndenominado Opciones abreunsubcuadrodediálogo
enelqueaparecenlasherramientasqueestafunciónponeanuestradisposición,quesonescasas
comoyaadvertíantes.
Enlaimagendelasiguientepáginasepuedenver,yamarcadas:
Compruébese que este menú no permite gráficos, así que solo nos queda cerrar con
Continuar y Aceptar paraqueaparezcalasiguientetabladeresultadoscompletamentecoincidentes
conlosobtenidosporlarutaanterior,porloquesuinterpretaciónesexactamentelamisma.
Estadísticos descriptivos
Quizáellectorrepareahoraenlaaparicióndeunainformacióndelaquenohemoshecho
menciónalguna,merefieroaesodel“errortípico”.Tambiénaparecíaenlatabladeresultadosdela
funciónanterior,peropuedequeestuviesemásdisimuladoyseguramentenooshabíaisfijado.
Setrata deunconceptotrascendental paralaEstadísticaInferencialyquese estudiaenel
apartado10.2.,portantohastaeseTema(el10)nopodemosentendersusignificado.Tranquilidad
aquí,puestoquenosenecesitaparalapartedescriptivadelasvariables.LoqueocurreesqueSPSS
loincluyepordefecto,asíquenopodemosevitartenerloalavista,salvoqueeditemoslatablaylo
borremos.AprovechoaquíparacomentarquetodaslastablasderesultadosdeSPSSsoneditablesy
modificablesensuaspectoy/opresentaciónparacolocarlasalgustodelusuario;sepuedecambiar
desdeeltipodeletrayeltamañohastalosbordes,elcolor,etc…Enprincipio,todaslasqueaparecen
en este manual están tal y como las presenta SPSS por defecto, salvo aquellas en que se ha
sombreadoalgopararesaltarlo,oaquellasenqueporrazonesdeespacioenelpapelimpresoseha
invertidolapresentaciónhorizontalporunaverticaloviceversa.
Antes de dar por terminado este importante y denso Tema, dedicado a la descriptiva de
variables cuantitativas, queda algo por explicar. Hoy en día, resulta imprescindible comenzar los
análisisestadísticosporloquesehadadoenllamarunanálisis exploratorio.Conéstetérminono
nos referimos a que convenga intentar comprobar “a ojo” si se van a cumplir o no las hipótesis y
objetivos que justificaron nuestra investigación; sino que antes de hacer ningún cálculo estadístico
convieneexplorarlosdatosparacomprobarquenohaya,enellos,“cosasraras”.Aestacuestiónse
dedicaelapartadofinaldelTema.
Gráficamentedisponemosdeunmétodomuyrápidodedeteccióndeesteproblema.Setrata
del denominado boxͲplot (en castellano diagrama de caja y bigotes), que en aplicaciones
informáticascomoelSPSSescapaznosolodedecirnossihayonodatosoutliers,sinoquetambién
identificaquiénessonlossujetosdelamuestraqueposeenestosvalores,paraquepodamosactuar
enconsecuencia.
En SPSSͲ15 podemos realizar esta representación gráfica usando una función del menú de
Gráficos;enconcretosiguiendolaruta:
GRÁFICOSÖGENERADORDEGRAFICOS
Enella,loprimeroquehaceelprogramaespreguntarnossideseamoscambiaralgunadelas
propiedadesmétricasdelasvariablesquevamosautilizar.Sinoesasí,pulsamos Aceptaryseabreel
cuadrodediálogoqueseincluyeenlaimageninferiorizquierda.Enélapareceunlistadodegráficos
enlapestañadenominadaGalería.DentrodeeselistadoseseñalaenDiagramadeCajaydelastres
figurasqueaparecenenelrecuadrodesuderechasetomalaterceraysearrastrahastaelespacio
enblancosuperior(enélsepuedenleerlasinstruccionessobrecómoactuar).Despuéssearrastrala
variableaanalizar(gasto…)allugardelgráficodondedice:¿EjeX?…,yyaestá.
Enlacajavienerepresentadoel50%centraldeloscasosdelamuestra,portantosusbordes
(olímites)estánalaalturadelvalordeloscentiles:ʹͷ(elinferior)yͷ (elsuperior).Lalíneanegra
que corta la caja corresponde con la mediana (o centil 50). Los valores de estos tres índices se
puedenconocer,aproximadamente,viendolaalturaquetomanenelejedelavariable:lamediana
cercade45€,elʹͷsobrelos35€yelͷsobrelos50€.Elgradodesimetríadeeste50%centralde
datosseobservaenfuncióndelocentradaqueestélamedianaconrespectoaloscentiles;esdecir
quecuantomásalcentrodelacajaestélalíneanegramássimétricaesesapartedeladistribución.
Losbigotessealarganhastaambosextremosdelcontinuo,perosinllegarhastalosvalores
máximoymínimoobservadosenlamuestra.Terminanaproximadamentealrededordeloscentiles:
ʹenlaparteinferioryͻͺenlasuperior.Elgradodesimetríaentrelosextremosdeladistribución
seobservaporlasemejanzaentrelaslongitudesdeambosbigotes;amayorsemejanzamássimetría.
Peroloverdaderamenteinteresanteaquí,esqueenelcasodequeexistandatosoutliers(deltipofar
out) van a aparecer fuera de los bigotes. Esta es la forma en que SPSS los identifica. Como ya
sabíamosqueentrenuestrosdatosnohabíaoutliers,ennuestrodiagramadecajanoaparecenadie
porencimanipordebajodeloslímitesdelosbigotes.
¿Cómo seríaun diagrama de caja que indique la presencia de valores outliers? Lo vamos a
verconelsiguienteejemplobasadoenlamismavariablequehemosusadoalolargodetodoeste
tema.
Ejemplo9
Supongamos que a la muestra anterior se añaden 3 nuevos casos que sean
verdaderos outliers, uno que gasta 5€, otro que gasta 90€ y por último uno que se gastó 150€. Como
había 160 elementos en la muestra, ahora tendremos ൌ163, y han sido insertados en la muestra al
azar para evitar que tengan números de identificación consecutivos.
Trasello,utilizandolamismafunciónanterior:GRÁFICOSÖGENERADORDEGRAFICOSyconel
mismoprocedimiento,apareceelsiguientegráfico:
Enélyaseobservalapresenciade
los3datosoutliers(farout)previstos.
Aunque con cierta dificultad
debidoaltamaño,ellectorveráqueenla
parte inferior aparece un circulo junto al
cualestáelnúmero133yqueenlaparte
superior han aparecido 2 marcas, una
correspondealcaso44ylaotraal153.Es
decirqueloqueseindicaeneldiagrama
eselnúmerodelcasodelahojaVistade
datos de SPSS que es considerado como
outlier,ynoelvalordelavariable.
Localizados estos datos far out será en la citada hoja de Vista de datos, en la columna
correspondientealavariableanalizadadondepodemosverquévaloresson:ൌ5paraelcaso133,
ൌ90paraelindividuo44yൌ150paraelsujeto153.
La presencia de este tipo de datos puede traer consecuencias tremendas en los resultados
delanálisisestadístico.Enesteejemplo,vemoscuálessoncomparandolosdescriptivosqueteníamos
antes(verpágina132)conlosqueobtenemosahoratraslaincorporacióndeestos3farout:
Estadísticos Estadísticos
Lamediana,lamodayloscentiles,lógicamente,nohancambiadodevalor.Lamediaapenas
sehaelevadoalgo(yaqueelsujetooutlierdelextremoinferiorcompensaalosdelsuperior)perola
desviación típica ya se incrementa sustancialmente, algo se aprecia mucho más en el valor de la
varianza.
Perodondehayuntremendoefectoesenlaforma,dondelosíndicesdeasimetríaycurtosis
son totalmente distintos, hasta el punto de que ya la distribución ya no presenta indicios de
normalidad,sinotodoloscontrario,yaqueesaltamenteasimétricapositivaoaladerecha(2,574)y
marcadamenteleptocúrtica(18,654).
Sobrequéhacer,entonces,cuandodetectemoslapresenciadedatosoutliershayunabuena
cantidaddesolucionespropuestas.
Desde luego la más simple es la eliminación de estos casos convirtiéndolos en “datos
perdidos”enlaspropiedadesdefinidasenlahojadeVistadeVariablesdelEditordedatosdeSPPS
(revisarpágina77).Estosóloafectaalanálisisdeestavariableperonoaldeotrasparalasquelos
sujetossiguencontando.Estaeliminacióndecasossepuederealizarsiempreycuandodentrodel
totalnoseanunporcentajesignificativo.
Otra opción pasa por su sustitución por otros valores más “lógicos”, como pueden ser la
moda,lamediana,olamedia(en concretoestemétodosedenominaregresiónalamedia)conla
intencióndenoperdertamañodemuestra.
E incluso se han ideado soluciones de corte mucho más matemático como puede ser la
transformación de todos los valores de la variable en otros nuevos de tal manera que los outliers
pierdansuestatusdefueradelrango;porejemplo:convertirlosvaloresdirectosdelavariableen
sus logaritmos (decimales o neperianos) en aquel caso en que los valores outliers cuyo efecto se
quieraeliminaresténprovocandounaligeraasimetríapositivaenladistribución.
Perotodoestoyaquedafueradelespaciodelpresentemanual.
Páginadonde
Páginadonde
Término aparecepor
sedefine
primeravez
143
CAPÍTULO
3
PROBABILIDAD
Conceptos Básicos de probabilidad
Otros modelos de
distribuciones de Probabilidad
145
Tema 7
CONCEPTOS BÁSICOS
DE PROBABILIDAD
7.1.ͲConceptosbásicosdelaTeoríaElementaldelaprobabilidad
7.2.ͲDefinicióndeprobabilidad
7.3.ͲDistribucionesdeprobabilidad
DesdeunpuntodevistallamémoslemetodológicolaProbabilidades,como
yaseexpusoenpáginas49Ͳ50aldefiniralaEstadística,elnexodeuniónentrelaspartesDescriptiva
e Inferencial: es decir aporta los recursos necesarios para que la información obtenida por las
técnicas descriptivas en la(s) muestra(s) pueda ser generalizada a la población, junto al grado de
veracidadoprobabilidadquetienenestasinferencias.
Sinduda,estaeslarazónporlaquelainmensamayoríadelosmanualesaluso,sitúanala
Probabilidad alfinaldetodoslostemasdelacitadaparteDescriptiva,oincluso,alcomienzodela
Inferencial.Yeseesnuestrocaso;laestructuratemáticadeestecursoabordaelestudiodelCálculo
de Probabilidades como puente imprescindible entre el proceso del análisis estadístico descriptivo
queacabamosdeterminarylastécnicasinferencialesdelasqueseocupanlosCapítulos4y5.
La probabilidad es un fenómeno que interviene en todo trabajo experimental; es más, nos
atrevemosadecirqueintervieneentodoslosórdenesdelavidadelserhumano,quiennoestáen
situaciónnideafirmarnidenegarcontotalcertezaabsolutamentenadadeloquelerodea,excepto
elhechoirrefutabledesumuertecomodijeramiprimerprofesordeEstadística(verpágina32)yni
siquiera en este caso puede aseverar algo sobre el momento en que va a ocurrir. Piense el lector,
¿hayalgunaotracuestiónrelacionadaconlavidacotidianalaspersonas,delaquepodamossaber
contotalcertezasudesenlaceantesdequeprocedamosasuobservación?
Vivimos inconscientemente rodeados de eventos sujetos a la probabilidad: los informes
meteorológicos, el presupuesto de gastos del mes, las previsiones de los políticos, los pronósticos
médicossobreeltiempodecuracióndelenfermo,elresultadodeloslancesdeportivos,lasquinielas,
la lotería, etc..., aunque nada de esto sea expresado cuantitativamente con un índice estadístico.
Cuestión que tiene su lógica ¿no?..., los telediarios y las periódicos perderían su impacto si
acompañasenlasnoticiasdevaloresdeprobabilidad;imaginaros:“Españajuegahoylafinalolímpica
deBaloncestocontraU.S.A.;haypocaesperanzadelganareloro,laprobabilidaddeconseguirloes
sólo…del7,32%...”;adiósalanoticia,alailusión,alaemoción,…¿dóndeestaríaentonceselinterés?
Pero en la Ciencia es otra cosa. La Ciencia necesita imprescindiblemente conocer la
probabilidaddecertezadesusafirmaciones.Ylainvestigaciónpsicológicanopuedeescapardeesta
realidad rodeada de acontecimientos probabilísticos. Nos encontraremos con un gran número de
sucesosenlosqueantevariasposibilidadesnopodremospredecircontotalcertezacuálvaaserla
conductadelsujeto:¿cuálseráeltiempodereacciónanteunaláminadelTestdeRorschach?,¿qué
grado de depresión tiene un paciente? y ¿su tendencia suicida?, ¿qué respuesta tendrá un sujeto
antelapresenciadeunestímuloagresivo?...;ydeahínuestraincapacidad,onuestralimitación,para
afirmaronegarconplenacerteza 10.
Pues bien, la probabilidad nos va a permitir asociar a todas las opciones posibles un valor
numéricoapartirdelcualpodemos“jugaraseradivinos”(perofuturólogosno!porfavor)ypredecir
cuálpuedeserycuálno,elcomportamientofuturodelosindividuos.
Este valor numérico es justamente lo que llamamos probabilidad. Ahora bien, antes de
enfrentarnos a su definición formal necesitamos revisar algunos conceptos previos. Ello se debe a
que esta materia tiene un lenguaje propio y particular que resulta imprescindible para poder
comprenderlasdefinicionesdeprobabilidadasícomosuscaracterísticasypropiedades.
De inmediato vamos con ello. Pero antes conviene advertir que durante este Tema de
carácter introductorio a la Probabilidad, resulta mucho más fácil exponer los ejemplos utilizando
cuestionessimplesdelavidacotidianaquesonclásicasdelasMatemáticas.Peroquenoseasuste
ningún estudiante, que el uso que hacemos en la Estadística Aplicada de la probabilidad no tiene
nadaqueverconaquellode“enuncajónhaycalcetinesde3coloresy5tiposdematerialesdistintos,
elegido1calcetínalazar,¿cuáleslaprobabilidaddeque……”
Yahorayasí,vamosconlaterminologíapropiamenteprobabilística:
1. Experimentoaleatorio.
Es todo ensayo, prueba u observación, cuyo resultado no podemos
predeciroprevercontotalcerteza.Losejemplosclásicosson:ellanzamientodeunamoneda,o
de un dado, la extracción de una carta de la baraja, etc..., que no necesitan mucha explicación
más. Pero estos ejemplos corresponden a experimentos regidos por el azar puro, algo que no
ocurreenlainvestigacióncientíficadondenonoshallaremosfrenteaeventosdeestetipo.
AhorabienenestecontextoinvestigadordondevamosaemplearlaEstadística,podemos
(ydebemos)hacerusodelaprobabilidadporquelassituacionesexperimentalesquenosvamosa
encontrarestánenpartecontroladasporelinvestigadoryenparteno;yesapartenocontrolada
eselfactordeazardelainvestigación.Evidentementenosetratadelazardelosdenominados
“juegos de azar”; se trata más bien de un azar experimental asociado a la imposibilidad de
manipularycontrolarabsolutamentetodaslasvariablesofactoresqueintervieneenunmismo
fenómenoobservadoyqueportantoinfluyenenél.
2. EspacioMuestral.()
Eselconjuntodetodoslosresultadosposiblesparaunmismoexperimento
aleatorio.Así,empezandoconlosejemplosclásicos,enlamonedasuespacio: ൌ ®cara;cruz ¾;
eneldado:ൌ®las6caras¾;enlabaraja:ൌ®las40cartas¾sieslatradicionalespañola;etc...
En la investigación psicológica (y similar) los espacios muestrales son equivalentes a las
modalidadesqueintegranunmismoatributo(verpágina55)yestánenfuncióndelavariableque
seestáempleandoparamedirlo.Porejemplo:eldiagnósticodeltipodeansiedadquesufreuna
persona sería un experimento aleatorio desde el enfoque probabilístico y su espacio muestral
estaríacompuestoportodaslasformasdeansiedadposibles.
10
Serápor esoporloquealgunosafirmanconironía,quelaEstadísticaeslacienciaqueexplicará mañana, porqué noocurrieronlos
fenómenosquepronosticóparaayer.
3. AcontecimientooSuceso.
Estodasubserieosubgrupoimaginabledentrodelespaciomuestral.
Enparticular,deaquellossucesosqueocurrenodejandeocurrirdependiendodesisepresentan
onociertascondicionesdecimosquesonsucesosaleatorios;portantonosonnisucesosciertoso
segurosnisucesosimposibles.
Yéstos,losaleatorios,sonlógicamentelosquenosinteresaestudiar.
Volviendo de nuevo a los ejemplos clásicos: en el lanzamiento de la moneda el espacio
muestral contiene solamente 2 sucesos (uno es la cara y el otro la cruz). Pero en el caso de la
barajaespañolahaymuchosmássucesosporqueademásdelas40cartasconsideradasdeforma
individual,segúnladefiniciónanteriorlas10cartasdelpalodecopas(porejemplo)tambiénson
unsuceso,comoloserían:los4reyes,todaslasfiguras,etc…yaqueladefinicióndice“cualquier
subgrupo”.Elmatizvieneacontinuación.
4. Sucesoelemental.(ǢǢ
Ǣǥ)
Es cada uno de los resultados individuales del experimento,
contenidosensuespaciomuestral. Esdecirque enelejemplodelamonedasalircruzesun
suceso elemental; en el del dado el lado con el número 3 es un suceso elemental; en la baraja
cadaunadelas40cartasseríanunsucesoelemental,...Porelloobviamente,todoslossucesos
elementalesunidosequivalenalespaciomuestraldelexperimentoaleatorio.
5. Sucesocompuesto.(ǢǢǢǥ)
En cambio el suceso compuesto es la unión de varios de los
sucesoselementalesdelmismoespacio.Definiciónquenonospermiteencontrarningúnsuceso
compuesto en el ejemplo de la moneda, porque la unión de cara y cruz ya es el espacio
completo. Pero, en el caso del dado sí: sacar un número impar es un suceso compuesto que
equivalealaunióndelossucesoselementalessacarun1,un3yun5.Yenlabarajaespañola,las
10 cartas del palo de copas de antes, o los 4 reyes, etc… son cada uno diferentes sucesos
compuestos.
6. Variablealeatoria.()
Yllegamosalconceptoclave.Esunafunciónqueasociaunnúmeroreal,
y sólo uno, a cada suceso elemental del . Es decir que en el caso de la moneda consiste en
representar con un 1 a la aparición de la cara y con un 2 a la cruz, de manera que siendo el
espacio ൌ ®cara;cruz ¾,lavariablealeatoriacorrespondientees ൌ ®1;2 ¾.¿Cómonossuena
estono?...¡Efectivamente!,eselmismoprocesovistoenelTemadelamedición(páginas56Ͳ57),
pero enfocado desde la perspectiva probabilística. Luego las variables, las mismas que hemos
venido utilizando hasta ahora (y las que usaremos en el futuro) son, para la Teoría de
Probabilidades,variablesaleatorias.
Quizás la única diferencia es que en Probabilidad solamente hay dos tipos de variables
aleatorias:lasdiscretasylascontinuas.
Las discretas son todas aquellas que contienen exclusivamente números enteros; y por
ello incluyen a las variables: dicotómicas y dicotomizadas, a las categóricas (policotómicas y
policotomizadas)yalasordinales,delaclasificacionesvistasenpáginas63y65.
Y las continuas son todas las que admiten números susceptibles de ser tratados con
decimales,yporellosecorrespondenconlasquesonpuramentecuantitativas.
Hay más, bastantes más, conceptos y cuestiones teóricas relacionadas con el estudio y el
manejo de la probabilidad. Pero con los anteriores términos bien asimilados, ya estamos en
condicióndeentenderperfectamentesudefinición.
Noobstanteyantesdeabordarla,quieroinsistirenquehandequitarseelmiedoloslectores
temerosos que seguramente al pensar en probabilidad, y más después de los ejemplos anteriores,
han recordado dados, barajas, bolas de colores y todo aquel arsenal de objetos con los que en su
infancia escolar asociaron la probabilidad. No quiero decir con esto que aquello fuese un martirio
innecesario,sinoincidirunavezmásenqueelusoquehacemosenlaEstadísticadelaprobabilidad
nadatienequeverconello.
El estudio de la probabilidad se remonta a los albores de las Matemáticas
puestoquehayreferenciasaellainclusoentrelosclásicosgriegos.Hasidoportantounaconstante
preocupaciónparalosteóricos.Talvezporello,esunconceptoquenotieneunaúnicadefinición.
Entérminosmuygeneralesalaparquecasicoloquiales,podemosempezardiciendoquela
probabilidad es un valor numérico comprendido siempre entre 0 y 1, que cuantifica de forma
relativalasopcionesoposibilidadesdequeundeterminadosucesoseverifique,esdecirqueocurra.
Ahorabien,elorigendeesevalornuméricomarcaladiferencia,noentredistintostiposde
probabilidad,sinoentredistintasenfoquesparaelmismoconcepto.
Así, Bayes, el del famoso Teorema que aparece en todos los textos de Estadística y que ni
hemos enunciado ni lo vamos a hacer posteriormente, definió (en el siglo XVIII) una probabilidad
subjetivaqueeslaestimacióndeloqueteóricamentesecreequesucederásinningunainformación
empíricacontrastada;yqueesunadefiniciónbasadaenlaexperienciapersonaldelinvestigadoroen
susconjeturasacercadelasolucióndelexperimento.
Evidentementeéstanoeslaprobabilidadquenosinteresadesdeunpuntodevistadigamos
investigador.
Las definiciones operativas de probabilidad que vamos a manejar son dos: la clásica y la
estadística:
1. Enfoque clásico o a priori: Dado un espacio con
sucesos elementales y excluyentes, la probabilidad de ܛ܍ܔ܊܉ܚܗܞ܉ܛܗܛ܉܋ ۯܖ
ܘሺۯሻ ൌ ൌ
un suceso , ሺሻ, es la frecuencia relativa de ۼ ܛ܍ܔ܊ܑܛܗܘܛܗܛ܉܋
dentrodelespacio.
Estaprimeradefinición(enunciadaporLaplace)estábasadasimplementeenelconceptode
espacio muestral y supone que todos los sucesos elementales que lo componen son igualmente
probables, por lo que la probabilidad de aparición de cada suceso elemental del espacio muestral
seráͳȀ,paraloselementosexistentesenél.
Recurriendodenuevoalosejemplosclásicosdebidoasusencillez:laprobabilidaddecada
ladodeunamonedaes1/2;laprobabilidaddecadacaradeldadoes1/6,oladesacarunnúmero
impar3/6.Comosuotronombreindica,predice“apriori”losresultadosdelexperimento,esdecir
antesdequeésteserealiceempíricamenteniunasolavez.
2. Enfoque estadístico o a posteriori: Si un mismo
experimento se repite veces en las mismas
ۯ܍ܚܚܝ܋ܗ܍ܝܙܛ܍܋܍ܞ͑ܖ
condiciones,llamamosprobabilidaddelsuceso,ሺሻ, ܘሺۯሻ ൌ ۯൌ
ۼ ܛܗܡ܉ܛܖ܍܍܌ܔ܉ܜܗܜ͑ܖ
a la frecuencia relativa de aparición del suceso
durantelosensayosorepeticionesdelaprueba.
Encambioenestasegundadefinición(propuestaporVenn)seprecisaenprimerlugardeuna
observación sistemática de lo que ha ocurrido anteriormente en experimentos idénticos al que
vamos a replicar. Por eso la probabilidad de cada suceso elemental del espacio muestral no tiene
porqué ser necesariamente igual; es más, la lógica dice que unas serán mayores que otras puesto
quehabrásolucionesquesehanproducidounmayornúmerodeveces.
Esta forma de platearse la probabilidad también es denominada enfoque frecuencialista
debido a que el cálculo de su valor se basa en el recuento de la frecuencia de ocurrencia de los
sucesoselementalesdeunespaciomuestral.
Asimismocomoeltérmino“aposteriori”indica,estaprobabilidadpredicelosresultadosde
uneventolapróximavezqueésteserepitaencondicionesidénticas.
Vistotodoloanteriorysegúnladefiniciónclásica,laprobabilidaddequeenunpartidode
fútbolRealMadridVillaconejosdelMonteganeelequipovisitantees1/3(elespaciomuestraltiene
3sucesos,noolvidéislaposibilidaddelempate);perosiutilizamosladefiniciónestadística,estevalor
deprobabilidadpuedesercasimuycercanoacero.
En aquellos experimentos en que rija el azar puro podemos afirmar que si se replica el
experimento indefinidamente (hasta el infinito) el valor de la probabilidad estadística acabará
coincidiendo conelvalordelaprobabilidadclásica; esdecirque silanzamosunamoneda alaire8
vecesporejemplo,esdifícilqueaparezcanexactamente4carasy4crucesparaque4/8(50%)dela
definiciónestadísticaseaigualal1/2(50%)deladefiniciónclásica;encambiosifuésemoscapacesde
lanzarla1millóndeveces…casiseguroquelamitad(1arriba,1abajo)seríadecadalado.
Perocomosabemos,enlainvestigacióncientíficaelazarexperimentalnoesazarpuro(yase
dijo que se debe a los factores no controlados por el investigador), por lo que esta tendencia a la
igualdaddeprobabilidadesesmuydifícil,casiimposible,quesepresente.
Por ello, supongo que a estas alturas ya no hay duda acerca de la forma en que debemos
cuantificarlaprobabilidad;noobstante,porsialguiennecesitaqueseloconfirmemos,tenemosque
contestar que sin duda el enfoque estadístico es más adecuado e universal para la investigación y
paralaEstadísticaAplicada.
El concepto de distribución de probabilidad es muy semejante a la ya
conocidadistribucióndefrecuencias(verdefiniciónenpágina92).Porellonoseránnecesariosmás
preámbulosypodemosdecirsimplemente,que:
Unadistribucióndeprobabilidadesunatablaqueponeencorrespondencia
los valores de una variable aleatoria que representa a todos los sucesos de un
espaciomuestral,conlaprobabilidaddeocurrenciadecadaunodeellos.
Losvaloresdeestasprobabilidadespuedenestardeterminadosbienconelenfoqueclásicoo
bien con el estadístico según convenga, aunque éste último es prioritario como ya sabemos, de
maneraquemientrasnosedigalocontrariolasdistribucionesquemanejamosestánbasadasenel
enfoquefrecuencialistaoaposteriori.
Enconsecuenciacadaexperimentoaleatorio(queescasicomodecircadaobservacióndela
realidad)conllevaimplícitamentelaexistenciadeunadistribucióndeprobabilidades;yportantosi
podemos imaginar la realización de infinitos experimentos, podremos afirmar la existencia de
infinitasdistribucionesdeprobabilidaddiferentes.
Afortunadamente muchas de estas distribuciones tienen características comunes, lo que le
hapermitidoalasMatemáticasagruparlasenmodeloscuyaspropiedadessonconocidasyserepiten
constantemente.Unossonmodelosqueseencuentranrealmenteenlanaturalezadelasvariables
que se observan en los experimentos; otros modelos son sólo instrumentos estadísticos creados a
propósito.
Ademáshemosdediferenciarentrelosmodelosaplicablesparavariablesaleatoriasdiscretas
ymodelosparavariablesaleatoriascontinuas.
Concretamente,losmodelosquemásinteréstienenparalainvestigaciónpsicológicason:
1) laDistribuciónBinomial,
2) laDistribuciónNormalEstándar,
3) laDistribuciónJiͲCuadrado,
4) laDistribución“t”deStudent,y
5) laDistribución“F”deSnedecor.
aunqueexistenmuchosmás.
Losdosprimerosdellistadoanterior,sonmodelostomadosdirectamentedelaobservación
de la realidad y presentan un enorme interés para los psicólogos porque hay muchos rasgos o
atributos psicológicos que se ajustan a ellos. Ambas tienen campo de aplicación tanto en la parte
DescriptivacomoenlaInferencialdelaEstadística.
Seguramente el lector haya reparado en la expresión normal “estándar”,… ya que hasta
ahora había aparecido el término distribución normal. Y es que no son la misma cosa, aunque su
vinculaciónesestrechísima.ElloseestudiaconprofundidadenelyainminenteTema8.
Por el contrario, los otros tres modelos de la relación anterior, son deducciones o
derivacionesmatemáticasquefuenecesariocrearparaelcorrectoanálisisdeciertotipodedatosy
situacionesespecíficasquesólosedandentrodelámbitodelaInferenciaestadística.
Por otro lado y desde otro punto de vista, la Binomial es un modelo de distribución de
probabilidadesdetipodiscreto,esdecirqueseaplicaenaquelloscasosenquelavariablealeatoria
creada para el espacio muestral, contiene un número finito de valores enteros. Por tanto esta
distribución (junto a otras que no nos merece la pena citar) tiene su campo de aplicación en la
observacióndevariablesdetiponominal,fundamentalmentedetipodicotómicoodicotomizado.
En cambio, los otros cuatro modelos citados en la página anterior, son distribuciones de
probabilidaddetipocontinuo,esdecirqueseutilizanconvariablesaleatoriascontinuasquepueden
tomarunnúmeroinfinitodevaloresenterosy/ocondecimales;portantosuámbitodeaplicaciónlo
encontramosenlamedicióndevariablescuantitativasquerepresentanaconstructosoatributosde
estanaturaleza.
Laenormeimportanciadelmodelodedistribuciónnormalestándarparaunagrancantidad
deherramientasydetécnicasestadísticas,talycomohemosvenidoadvirtiendodeformareiterada
en las últimas páginas, hace que sea absolutamente necesario y prioritario que se le dedique un
Temaexclusivo.Conélvamosacontinuación.
Tema 8
EL MODELO
NORMAL ESTÁNDAR
8.1.ͲPuntuacionestípicas
8.2.ͲLacurvanormalyelmodelonormalestándar
8.3.ͲAlgunosejemplosdelusodelmodelonormalestándar
Antesdeentrarenlascuestionesrelacionadasconladistribuciónnormalyel
modelodeprobabilidadesnormalestándaresnecesariohablar,aunqueseadeformabreve,deuna
nueva herramienta estadística. Como el título de este apartado indica se denomina puntuaciones
típicasyademásdesuaplicaciónenelmodelonormal,tambiéntieneinterésparalospsicólogosen
elámbitodelainterpretacióndelnivelderendimientodelaspersonasenlaspruebaspsicológicas
(los test) que se emplean para la medición de los rasgos. Pero ésta última es una cuestión que le
compete a la Psicometría (ver páginas 26Ͳ27) así que en este momento no vamos a abordar esta
segunda faceta de las puntuaciones típicas. Necesitamos ahora afrontar este nuevo concepto sólo
porqueesimprescindibleparallegaracomprendercorrectamentealmodelodedistribuciónnormal
estándar.
Como antecedente se puede comentar que en ocasiones las puntuaciones directas que se
obtienen con los instrumentos de medida no son cómodas de manejar, bien porque son números
demasiado grandes, o demasiado pequeños, o porque incluyen excesivos decimales, etc... Este
problema tiene una fácil solución propuesta por las Matemáticas y que consiste en emplear las
denominadastransformacioneslineales.
Unatransformaciónlinealnoesotracosaqueunaecuacióndeconversiónoequivalencia,
quetieneunaseriedetérminosconstantesydosvariables,ladeorigenyladedestino.Es,buscando
un símil, lo mismo que hacemos cuando cambiamos de moneda, o cuando convertimos millas en
kilómetros, por ejemplo. La citada conversión de las puntuaciones en logaritmos que apareció
hacemuypoco(verpágina140)parasolucionarelinconvenientedelosdatosoutliers,estambiénun
ejemplodetransformaciónlineal.
Engeneral,todatransformaciónlinealtienelaestructura: ൌ ,queseguramenteya
hareconocidoellectorpuestoqueeslamismaqueladeconversióndeequivalenciaentreescalas
intervalares(verpágina61),dondeysonlasconstantes(enconcreto,eslamultiplicativayes
laaditiva)ydondeeslavariableoriginaleeslavariablededestinootransformada.
Aplicar una de estas ecuaciones supone modificar todos los valores del continuo de la
variablesmediantelasconstantesdelaecuación.Cuestiónquenecesariamentetieneunreflejoen
losíndicesdescriptivosdeladistribucióndedatos,quienesmodificansusvalores;asíporejemplo,la
mediayladesviacióntípicaresultantedeunatransformaciónlinealcambiandevaloryaquedeben
decorresponderseconlosnuevosvaloresdirectos(unamediaenkilómetrosyunamediaenmillas,
notienenelmismovalornuméricoaunqueexpresanexactamentelamismadistancia).
Puesbien:
Laspuntuacionestípicas,tambiénllamadasestándaryrepresentadascomo
, son simplemente una transformación lineal de las puntuaciones directas,
construidas de manera que expresen la distancia observada desde cada valor
individual del continuo hasta la media del grupo en función de la variabilidad
observadaenelmismo.
܆െ܆ ഥ
esdecir: ܈ൌ paratodovalordeXdeunmismoconjuntodedatos,
܆܁
yconlamediayladesviacióntípicadedichoconjunto.
Éstaesunadelasescasassituacionesenquelaecuacióndecálculoesimprescindiblepara
mejorarlacompresióndelconcepto.Enella,seapreciaquecomolosvaloresdemediaydesviación
típica son constantes para un mismo grupo de datos (de individuos). La transformación de los
valores directos en es nada más que una conversión de escalas (como el ejemplo de la
equivalenciaentremonedas:mismoprecio,distintovalornumérico).
El resultado de este proceso de transformación (denominado tipificación) es siempre, una
escaladevaloresconocidos,queverificanlassiguientespropiedadesconstantes:
1. Notienenunidaddemedia,porloquepermitenlacomparacióndedistintosatributos.
2. Cumplenpropiedadesmétricasintervalares,porloqueadmitenaperadoresaritméticos.
3. Sidospuntosytienenentresíunadiferenciaigualalvalordeladesviacióntípicadela
variable: la diferencia ൌ 1; es decir que la distancia correspondiente al valor de 1
desviacióntípicaes1Z;oloqueeslomismo,comosesueledecir:ͳequivaleaͳ ܆܁
Ycomoconsecuenciadeestoúltimo:
4. lamediadelaescalaessiempre:0,y
5. ladesviacióntípicaessiempre:1.
Estaequivalenciasepuedecomprendermejorviendoelsiguienteesquemagráfico,enelcuál
los valores de media (80) y desviación típica (10) de la variable X son meros ejemplos elegidos a
propósito para que sean muy sencillos; y donde la correspondencia entre ellos y las Z la puede
comprobarelestudiantehaciendoloscálculosconlaecuaciónincluidaarriba.
ͳ ܆܁ ͳ܆܁ ͳ܆܁ ͳ܆܁ ͳ܆܁ ͳ ܆܁
ഥ െ ܆܁
܆ ഥ െ ܆܁
܆ ܆ഥ ഥ ܆܁
܆ ഥ ܆܁
܆
60 70 80 90 100
10 10 10 10
ഥvaaserlaൌͲ);laൌͻͲ
Esdecirque:laൌͺͲalserlamediaequivalealaൌͲ(siemprela܆
equivalealaൌͳylaൌͳͲͲequivalealaൌʹ;laൌͲalaൌͳylaൌͲalaൌʹ;etc…,
etc…,contodoslosvaloresdeestavariabledeejemplo.
Enconsecuencia,sededucequelaescalatípica,esunmodelouniversaltalquecadavalor
tiene siempre el mismo significado por lo que permite la comparación de todo tipo de atributos
cuantitativos,seacualseasuunidaddemedidayelinstrumentoutilizadoparaevaluarlo.
Al respecto y buscando una similitud para el funcionamiento de esta escala típica, podemos
reflexionarquelassonalgomuyparecidoaloquesehaceentodoelmundopararepresentaralas
calificacionesdelrendimientoescolaryacadémico.Tomemoselejemplodenuestropaís.Laescala
tradicionaldenotastomalosvaloresentre0y10(aunquealparecerhayunaapostilladelMinisterio
correspondiente que insta a los profesores a no poner nunca 0). Todos sabemos qué significa un
3,8… ó un 7,5…, y no necesitamos más explicaciones para saber si hemos aprobado, tenemos un
notable,oqué;porqueesunaescaladevalorescuyosignificadoesconstanteyhemosinteriorizado
desdehacemuchotiempo.AdemáslaescalatieneelmismosignificadoenPrimaria,enSecundaria,
en la Universidad, etc… y es independiente de que los exámenes sean de un tipo o de otro (test,
desarrollo, teóricos, prácticos,…), sean de Inglés, de Física, de Historia Contemporánea, o… de
Estadística,…, Y adviértase que cada una de estas posibilidades la podríamos considerar como un
instrumento de medida del rendimiento en diferentes áreas y formas, y por ello generadores de
valorescondistintaunidaddemedida.Ysinembargo,siemprelascalificacionesexpresadasenesta
escalasontotalmentecomparables.
Todo esto quiere decir que una representa fielmente el nivel de una persona en el rasgo
medido,améndeindicarconexactitudlaposicióndelsujetodentrodesugrupo.
Por ello, es obligación del estudiante de Psicología acostumbrarse al manejo y a la
comprensióndelsignificadodelosvalores(comohizoensuinfanciaconlaescaladecalificaciones
académicas) puesto que va a ser una herramienta útil y necesaria a todo lo largo de su formación
académicaydesufuturoejercicioprofesional.
Para finalizar este apartado un breve añadido. A pesar de la innegable, valiosa e
imprescindible labor que cumplen las puntuaciones , no podemos dejar de admitir que tienen
ciertosinconvenientes;fundamentalmentedos:
Ͳ lafrecuenteexistenciadevaloresnegativos(altenermediaigualacero),
Ͳ ylainevitableutilizacióndevaloresdecimales(conredondeoalacentésima).
PorelloenPsicología,noesextrañoqueseutilicenotrasescalasllamadastípicasderivadas,
quesonasuvezunatransformaciónlinealrealizadadesdelas,paralocualbastacondefiniruna
mediayunadesviacióntípicaarbitrariasyconstantes.
Lastresmáscomunes,juntoasusrespectivasecuacionesdeequivalencia,quedanresumidas
enlasiguientetabla:
Ya hemos comentado muy brevemente que la distribución normal y el
modelo de probabilidad normal estándar no son la misma cosa aunque están estrechamente
vinculadas.Enesteapartadosevaatratarestacuestiónprofundamente.
La llamada curva normal o distribución normal es un fenómeno natural, en el
sentido de que aparece espontáneamente con insólita frecuencia en la observación de la realidad.
Esta observación demostró que es muy habitual que los datos de una gran cantidad de variables
aleatoriascontinuastenganunaprobabilidaddeaparicióncuyarepresentacióngráficarecuerdaala
deunacampanacomolaqueseincluyedebajo:
Laabundanciadeesta“casualidad”delanaturaleza,yaesrazónsuficienteparaexplicarel
interésquetenemosenellayjustificaresenombrede“lanormal”.
Pero su importancia radica en la gran cantidad de fenómenos relacionados con los seres
humanosquepresentanestaformanormal.Comoejemplos,bastacitar:
Ͳ característicasmorfológicas,como:edad,estatura,peso,…
Ͳ característicasfisiológicas,como:elfuncionamientorenal,latasacardiaca,…
Ͳ característicassociológicas,como:lapoblación,elconsumo,…
Ͳ yporsupuesto,característicaspsicológicascomo:inteligencia,rendimiento,razonamiento,
aptitudverbal,aptitudmanipulativa,introversiónͲextroversión,etc…;
asícomootrobuennúmerodevariables,como:nivelderuido,produccióndealimentos(maíz,trigo,
leche,…),númerodeerroresdelosinstrumentosdemedida,tiempodeduracióndelosaparatosy
máquinas (coches, televisores, bombillas),… etc…, etc…; e incluso valores de las herramientas
estadísticas(demedia,devarianza,deproporción,…)queseobtienedeformarepetidaenlamisma
variableperocondistintasmuestrasextraídasdeunamismapoblación.
Aunquenohayabsolutaseguridadsobreello,pareceprobadoquefueAbrahamDeMoivre
(1667Ͳ1754)elprimeroenreconocersuexistencia(en1733).Lahistoriadeesteeminentehombre
estansorprendente,quenomeresistoalanecesidaddeincluiracontinuaciónloqueArthurAarony
ElaineAaronpublicansobreélensulibro“Estadísticaparapsicología”(2001):
ഥ
܆
ഥ െ ܆܁
܆ ഥ ܁
܆ ܆
6
6ª) Lasextaapropiedad,verificadasindudaporDeMoivre(vvercuadrod delapáginaanterior),see
puedeeenunciarenvvariaspartess;lassiguienttessonlasm másusuales:
ഥ se le sum
a) si al valor de la ܆ ഥ േ ) ܆܁se o
esta ͳ ܆( ܆܁
ma y se le re obtiene un intervalo dee
punttuaciones qu ue capta ap proximadameente al 68% % central (el 68,26% paara ser máss
exacctos)delossujetosdelgrrupo;obsérvvesequeesteedatocorrespondealárreaentreloss
punttosdeinflexiiónrepresen ntadosenelggráficodearrriba;
b) sialvalordela܆ ഥ
܆selesumayselerestaaͳǡͻ܆( ܆܁ ഥ േ ǡ ૢ) ܆܁,e
esdecirmuycercadelass
2desviacionestíípicasapartirdelamedia,seobtieneeotrointervalodevalore esquecaptaa
al955%centraldelosindividuos;
c) sialvalordela܆ ഥselesumayselerestaʹǡͷͺ܆( ܆܁
܆ ഥ േ ǡ ૡ) ܆܁se eobtieneunintervalodee
punttuacionesqu uecaptaal99%centrald delossujetos;
d) sial valordela ܆ ഥselesumanyselere estan͵ ܆( ܆܁ ഥ േ ) ܆܁se obtieneun intervalode e
valorresquecapttaprácticamenteal 99,8 8%centraldelossujetoss(esdecira “casitodos””
loscasos).
ǡ͵Ͷ ǡ͵Ͷ
ǡͳͶ ǡͳͶ
ǡͲʹ ǡͲʹ
െ ܆܁ሻ ܡ൏
ሺെ െ ܆܁ െ ܆܁ ഥ
܆ ܆܁ ܆܁ ሺ ܆܁ሻ ܡ
Toddos y cada uno
u de los ejjemplos citaados en la página 157, y y muchos más, se distrib buyen
normalmen nte cumplien ndo todas estas
e propied dades si el número de datos ess suficientem mente
grande: a partir
p de 30 ya se suele dejar ver laa normal; peero con poccos más, unoos 120, ya es
e casi
seguroquehabráapareecido,…siemprequelavaariablesean normalporsu upuesto.
Enccadaunodeestoscasos,elconjunto odevalores distribuidos normalmen ntesondifere entes,
o depende del instrumen
ya que ello nidad de meedida, y en cconsecuencia: del
nto de mediida, de la un
valordela mediaydel deladesviaacióntípica, quienessuelenserdeno ominadosaq quílosparám metros
característiccos de la disstribución noormal. De hecho, incluso el que la desviación ttípica indique una
mayor o menor
m homo ogeneidad in nfluye en quue la curva sea un pocco más apuntada (si ess más
homogéneaa)ounpocomásplanao oachatada(ssiesmásdisp persa:mayordesviacióntípica).
De lo anterior se deduce que no hay, ni mucho menos, 1 única distribución normal,… sino
infinitasdistribucionesnormales;esosí,todasconlasmismaspropiedadesyunaformaacampanada
similar,perocondistintosvaloresnuméricosenfuncióndesusparámetroscaracterísticos.
Ahora bien, ¿qué pasaría si transformásemos linealmente estos valores (diferentes) en las
puntuacionestípicasdelasquehablamosenelapartadoanterior?(revisarpágina155)…puesque
elresultadoseríaunconjuntodevalorescondistribuciónnormalysiempreconmediaiguala0y
desviacióntípicaiguala1.
Enconsecuenciatodaslasvariablesaleatoriascontinuasquesedistribuyennormalmentede
lasquehablábamosantes,convergeríanenunamisma.Puesbien,éstaeslaquesehadenominado
comodistribuciónnormalestándar.
Esdecirque:
La distribución normal estándar, es un modelo de distribución de
probabilidad, único y universal, que contiene infinitos valores de ሺǣ λ λሻ,
distribuidos normalmente, con media 0 y desviación típica 1. Por eso, se suele
representarabreviadamentecomolaN ( 0 ; 1 ).
Éstaeslagrandiferenciaentrelanormalylanormalestándar.Mientrasquedistribuciones
normales,dijimos,haymuchas,casiinfinitas,cadaunaconsusvaloresyconsumediaydesviación
típicadiferentes,normalestándarhaysolamente1,siempreconlamismaforma,losmismosvalores,
ylamismamediaydesviacióntípica.Poresoesunmodelouniversal.
ElmodeloN ( 0 ; 1 )verificalassiguientespropiedadesderivadasdelasqueanteriormentese
estudiaronparaladistribuciónnormal:
1ª) essiempre:
Ͳ mesocúrtica,
Ͳ simétrica,
Ͳ asintótica
Ͳ yunimodal;
2ª) convalorescaracterísticos:
Ͳ mediaiguala0
Ͳ ydesviacióntípicaiguala1.
3ª) y dado que por la misma razón que en la curva normal podemos afirmar que: entre los
valores de ൌͳ y ൌͳ hay comprendidos aproximadamente un 68% de casos, entre las
ൌͳǡͻ y ൌͳǡͻ un 95%, etc… (ver página 159) la normal estándar es un modelo
continuodedistribucióndeprobabilidad;donde:
a) lasuperficieentrelacurvayelejedeabscisasequivalealaprobabilidad(yporelloelárea
totaldesdefhastafesigualalaprobabilidadtotal,esdeciriguala1);y
b) se establece una relación biunívoca y constante entre los infinitos valores de esta
distribuciónN ( 0 ; 1 )ysusprobabilidadesdeaparición,esdecirqueacadavalordele
corresponde1,ysólo1,valordeprobabilidadqueesconocidoyconstante.Estohadado
lugar a la existencia de una tabla (generada por ordenador a partir de una ecuación
matemática)quepermiteaveriguarlaprobabilidadasociadaacadavalor.
A continuación se encuentra una pequ e los valoress más utilizados junto a sus
ueña lista de
respectivasáreaspercentílicasqueporsupuestosepuede encomprobaarviendolattabladelAnexo2.
Aprovecho estemomen ntoparareccomendarleeencarecidam mentealestu udianteque hagaunesffuerzo
pormemorrizarestos6 valores.Elggráficoadjun
ntodebede servircomo oejemplodeelaformaenque
tantoestalistacomolatabladelAn
nexorelacionnalasconssusáreaspro obabilísticas.
,100 1,28 ,900 1
1,28
,050 1,64 ,950 1
1,64
,025 1,96 ,975 1
1,96 P=,97
75
,010 2,33 ,990 2
2,33
,005 2,58 ,995 2
2,58
Z==1,96
Según todo lo que acabamos de exponer en el apartado anterior, para
averiguarlaprobabilidadquelecorrespondeaunvalorquepertenecealespaciomuestraldeuna
variablealeatoriacuantitativaquesedistribuyenormalmente,bastacon:
1º)convertiresevalorensulinealequivalente,y
2º)consultarlatabladelaN ( 0 ; 1 )paraobtenerlafuncióndedistribucióncorrespondiente.
Enesquema:
Ecuación: Tabladela
ൌ
܆െ܆ ഥ N ( 0 ; 1 )
܈ൌ
܆܁
Esimportantequenosfijemosenelsignodeigualdadentrelaslinealylaspercentil.El
primerpasodelesquemanosdejaenlaslineal,siéstasnofuesenidénticasalaspercentilnose
podríacontinuar.Yasedijo,enpáginaanterior,queestaigualdadsedasiemprequelavariablecon
susvaloresoriginalessedistribuyenormalmente.
Asimismo, nótese que las flechas son de doble dirección por lo que el camino indicado
también se podrá realizar a la inversa, es decir que conociendo una determinada probabilidad
(función de distribución), se puede averiguar cuál es el valor de la variable específica que le
corresponde.
SPSSlamentablementenocontieneentresusrutinasymenúsningúnprocedimientonimenú
que realice este trabajo por nosotros. De manera que el único medio que tenemos a nuestra
disposicióneselcálculo“manual”deestasprobabilidadesasociadasalmodeloN ( 0 ; 1 ).Paraello,la
ecuación citada arriba y la tabla del Anexo 2 nos bastan. No obstante, tampoco viene mal tener a
manounahojadecálculo(comoporejemplo:ExceldeMicrosoftOffice)yaqueentresusfunciones
operativasincluyelasquesustituiríanalacitadatabladeáreaspercentílicasdelAnexo.Así,quienes
manejenunpocoExcelpuedenusarloenellugardelacalculadoraylastablas.
Porestemotivo,unidoalaimportanciaquetieneelmodelonormalestándarenlastécnicas
inferencialesdelosCapítulos4y5,sevaacompletarestetemaconvariosejemplosresueltos.En
cada uno de ellos se va a intentar exponer una situación distinta pero todos se van a resolver
siguiendoelesquemaanterior,enelquecabríaañadirquedelassederivanotrasescalastípicas
(verpágina156)yquela superficie (funciónde distribución)esuna probabilidadestadística(ver
página150)ycoincideconeláreadefinidajuntoalconceptodecentil(verpágina112).Esdecir:
Ecuación: Tabladela
ൌ
N ( 0 ; 1 )
܆െ܆ ഥ
܈ൌ
܆܁
T;S;CIS ÁreaCentil ۾ൌ ൗܖ
Ejemplo10
Supongamoos que sabem mos que la Depresión
D se ha medidoo con una prueba
p
nte con mediia 80 y desviiación típica 10 en
psicométricca que generaa una variablle distribuidaa normalmen
cierto grupoo de personaas. Se sabe que
q el puntoo de corte qu ue diagnosticca depresiónn severa es 97.
9 Se
desea saberr cuál es la probabilidaad de que un u individuoo de ese gruupo, elegido al azar, paadezca
depresión seevera.
Esdeciirquetenem
mosquecono ͻሿenu
ocerlaሾ unavariabled distribuidaNN(80;10).
Siguien
ndo el esqueema anterior, convertim e lineal y
mos la X=97 en y como la vaariable es noormal,
consideerandoesevvalorcomou unapercen ntilextraemo
ossuáreadeelastablasdeelaN ( 0 ; 1 ):
െ ഥ ͻ െ ͺͲ
ൌ ൌ ൌ ͳǡͲ
ͳ ՜ ൌ ͳǡͲ ՜ ൌ ǡͻͷͷͶ
Ͷ
ଡ଼ ͳͲ
Perodadoqueloq
quebuscamo ͻሿentoncces:
osesሾ
ሾ
ͻሿ=ሾ
ͳǡͲሿൌ
ൌሺͳǡͻͻͷͶሻൌ ൌǡͲͶͶ
Por tanto la probabilidad de encontrar a ona de este grupo con depresión severa
a una perso s
diagnoosticadaporeestapruebaes,0446.
Todolo nteaesteejeemplosepueedeapreciarrenelsiguientegráfico:
oconcernien
ሾ ͳǡͲ
ሿ ൌǡǡͲͶ
ͶͶ
P=,9954
N(80;10)
80 97
N(0;1)
0 1,70
Ejemplo11
Sabiendo quue cierta prueeba de seleccción de persoonal aplicadaa en el contex
xto de
Recursos Humanos
H se distribuye
d norrmalmente con media 14 40 y desviación típica 25. Ante un gruupo de
220 candidaatos que realizan la citadda prueba, el
e psicólogo decide selecccionar solam mente al 15% % con
mejor rendimiento. ¿En qué valor deel test se debbe de situar el punto de coorte?
Este caaso es el invverso del an
nterior, tenemos una variable distrib 40 ; 25 ) y lo que
buida N ( 14
necesittamosessab berunvalor pertenecien nteaesavarriabletalqueelaprobabilidaddeenco ontrar
sujetossquelosupeerenseade,1500.Obsérrvesequeese evalordeco ortecorrespo onderíaalͺͷ ͺ .
െ ഥ
ൌ ഥ ՜ ൌ ሺͳǡͲͶ ȉ ʹͷሻ ͳͶͲ
՜ ൌ ሺ ȉ ଡ଼ ሻ ͳ ൌ ͳͷǡͻ
ͻͳ̱
ଡ଼
ሾ
ͳ ሿ ൌǡͳͷͲͲ
P=,8500
N(140;2
25)
14
40 166
N(0;1
1)
0 1,04
Centilles
C85
Ejemplo12
Si en cierto test que
q se distrib
buye N(55;7)) sabemos quue un sujeto ha obtenidoo
64 puuntos, ¿ qué centil
c le corrresponde?
l ሾ ൏ Ͷ ሿ en unaa variable disstribuida N ( 55 ; 7 ). Ell
Para deducirr el centil neecesitamos la
P
p
procedimien nto es el mismo que el del ejemplo o 10 con la diferencia dde que al final una vezz
c
conocido ell área (probabilidad, proporción),
p se deducee el centil multiplicand do por 100 0
(
(corriendola
acoma2lugaares):
െ ഥ Ͷ െ ͷͷ
ൌ ൌ ൌ ͳǡʹͻ ՜ ൌ ͳǡʹͻ ՜ ൌ ǡͻͲͲ
Ͳ ՜ ۱ૢ
ଡ଼
Por consiguiiente, cualqu
P uo que al realizar este test obtenga un valor iggual a 64, see
uier individu
h
habrásituad
doenelcentiil90.
G
Gráficament
te:
P=,900
07
N(55;7)
55 64
N(0;1
1)
0 1,29
Centilles
C90
Ejemplo13
Supongamoos que se estáá construyen ndo una nuevva escala psiicométrica ded tipo
bipolar paraa medir el grado
g de intrroversión-extroversión ded las personnas. La escalla se aplica a una
muestra de 450 sujetos, y los resultaados se ajustaan a una cam mpana de Gauuss con media 75 y desviiación
típica 14. Trras consulta realizada a especialistas
e q todos los sujetos con valores may
se decidió que yores a
92 eran exccesivamente extrovertidoos por lo quue su conduccta podía inddicar algunaa patología, y que
aquellos conn valores meenores a 55 eran
e tan introovertidos quee también poodía ser síntooma patológicco. Se
desea conoccer qué porccentaje de caasos de la muestra
m preseentó una connducta que ppodría calificcar de
normal segúún los criterios citados.
Enestee casonecessitamosconocerlasupeerficie comprrendida entrre2valores (X=55yX=992)de
unavariablequeesN(75;144).Paraello,,secalculanlasáreaspeercentildeambosvalore
esyse
restan..Elresultado
oesloqueeenlaparteteóricaanterrior(verpágina162)sed denominófu
unción
dedensidad.
െ ഥ ͻʹ െ ͷ
ଵ ൌ ൌ ൌ ͳǡʹͳͳ ՜ ൌ ͳǡʹͳ ՜ ൌ ǡͺͺ
ଡ଼ ͳ
ͳͶ
െ ഥ ͷͷ െ ͷ
ଶ ൌ ൌ ൌ െͳǡͶ͵ ՜ ൌ െͳǡͶ͵ ՜ ൌ ǡͲ
ଡ଼ ͳ
ͳͶ
P=,,8877
P=,,0766
P=,8111
N(75;14)
55 75 92
9
N(0;1)
1,43 0 1,,21
Un apuntefinal.Habráobsservadoelleectorquesigguiendolano otacióntrad
dicionalamerricana
losvalores deprobabiliidadapareceencon4deccimalesycon nomisióndeel0delante delacoma (sinir
más lejos, arriba
a mismo se ve: ,81 d 0,8111 ó simplementte 0,81). Estta es la línea que
111 en vez de
seguiré en el resto del manual cad
da vez que se
s usen valo babilidad. En cambio, para los
ores de prob
valoresdel restodeherrramientas,aaúnenelcassodequese eaninferioreesalaunidad
d,sevaaem mplear
lanotaciónclásicaconeel0delanteddelacomap paraevitarpo
osiblesdudaas.
Tema 9
OTROS MODELOS
DE DISTRIBUCIONES
DE PROBABILIDAD
9.1.ͲModeloJiͲcuadrado
9.2.ͲModelo“t”deStudent
9.3.ͲModelo“F”deSnedecor
AntesdecomenzarconestebreveTema,uncomentarioigualdebreve.Enel
apartado 7.3 (página 151) se citaban junto a la N ( 0 ; 1 ) algunos otros modelos de probabilidad. Si
fuésemos matemáticos, o alumnos de matemáticas, el estudio profundo estos modelos sería algo
importante, apasionante y prioritario. Pero, es obvio, que no lo somos. Por tanto, nuestro interés
haciaellosesbastantesecundario.Ymásaúncuandotodoeltrabajonecesarioquehayquellevara
cabopararealizarloscálculosprobabilísticoscondichosmodelosdurantelosanálisisestadísticosse
loencomendamosaSPSS.
Portodoello,estevaaserunTemabreve.Enélnosvamosalimitaraexponerunasideas
básicas sobre los otros 3 modelos de probabilidad que tienen relevancia en las técnicas de la
Inferencia Estadística que componen el Capítulo 5 de este manual. Serán apenas unas pinceladas
paraquecuandoellectorllegueallí,lostérminos:JiͲcuadrado,“t”deStudenty“F”deSnedecorno
lesuenenextrañostotalmente.
Por último, antes de abordarlos, una cuestión que sí que tiene trascendencia. De entrada
estostresmodelospresentanunagrandiferenciaconrespectoaladistribuciónnormal:nosonun
fenómenoespontáneoynatural.Todolocontrario,sonproduccionesmatemáticasespecíficamente
diseñadasparacubrirsituacionesdóndenocabelanormalestándar.
Ahorayasí.Vayamosconcadaunadeellas.
mediante un proceso que, en resumen, consiste en sumar los cuadrados de n valores típicos ୮
aleatoriamenteextraídosdelamisma.
Dadoqueesalgociertamentepeculiar,veámosloconcalma:
a) SupongamosquedelasinfinitasincluidasenlaN( 0;1)setomaalazar1solovaloryquese
elevaalcuadrado.ConestosehaobtenidootrovaloralquellamamosJiͲcuadradocon1grado
delibertad.Mástardehablaremosdelconceptodegradodelibertad;demomentoloprimero
enloquehayquefijarseesenqueelapellido“cuadrado”delnombredelmodelosedebeala
accióndeelevaralcuadradoelvalorde.
Repitiendoelmismoprocesoinfinitasvecesconseguimosunadistribuciónconfvaloresque
denominaremosJiͲcuadradocon1gradodelibertadyquerepresentamoscomo:
b) SupongamosahoraquedelasmismasinfinitasdelaN ( 0 ; 1 )setomanalazar2valoresque
seelevanalcuadradoyqueparaquenosdenunresultadoúnicosesuman;esdecir: ଵଶ ଶଶ .
Obtenemosasí1valorquedenominamosJiͲcuadradocon2gradosdelibertad.
Denuevo,repitiendoelprocesoinfinitasvecesconstruimosunadistribucióndefvaloresque
llamaremosJiͲcuadradocon2gradosdelibertadyquerepresentamoscomo:
c) ¿Ysienvezde2,fuesen3losvaloresextraídosalazar?...puesactuandodelamismaforma,
es decir: primero elevando al cuadrado cada , luego sumándolas (ଵଶ ଶଶ ଷଶ ) y después
repitiéndolo todo infinitas veces, llegaríamos a tener una distribución JiͲcuadrado con 3
gradosdelibertad:
Esdecir,quevistoloanterioresfácildeducircomodefinicióngeneral,que:
JiͲcuadrado con grados de libertad ( ) ܖes un modelo teórico de
distribucióndeprobabilidad,queaparececomoresultadoderepetirinfinitasvecesla
sumadeloscuadradosdevaloresextraídosaleatoriamentedelanormalestándar.
Porloquea diferenciadelaN ( 0 ; 1 ) que,recordemosesun modeloúnico, JiͲcuadradoes
todaunafamiliadedistribucionesdeprobabilidad,cuyasprincipalesdiferenciasvienenestablecidas
porsusgradosdelibertad.
Este concepto aún no se ha definido; aunque de todo lo anterior, es fácil deducir que un
modelo de JiͲcuadrado tiene tantos grados de libertad como valores se han tomado
aleatoriamente.Estoes,quegradosdelibertadequivalealnúmerodeextraídasalazar11.
Por tanto, dentro de la familia de distribuciones JiͲcuadrado existen infinitas distribuciones
teóricas: desde hasta f que tienen propiedades comunes y también alguna característica
diferencial.
11
Másengeneral,ladefinicióndegradosdelibertadvieneadecirque:eselnúmerodevaloresdeunamismaseriequepuedenvariar
aleatoriamente,libremente,sincondiciones.Sepierde1gradodelibertadporcadacondiciónqueseimponga.
principal difeerencia la en
La p ncontramos een que tieneen distinta fo
orma, cuestión que se ap precia
claramente en sus gráficas.
g En concreto, hasta los 30 grados de lisbertaad (en ade elante,
abreviadammente usarem mos: g.l.) tod
das varían de
d forma, au
unque en general podem
mos decir qu
ue son
asimétricas positivas y unimodales. En la imageen inferior se e puede apreeciar cómo ccambian de ff
según aumeentan los g.l..:
A paartir de estos 30 g.l. van perdiendo laa asimetría yy se aproximan cada vez más a la form ma de
una distribuución normaal; de hecho en la gráficaa superior en n Ji‐cuadrado
o 16 g.l. ya sse va intuyen ndo la
forma típicaamente acam mpanada de la normal, yy en Ji‐cuadraado 30 g.l. yya se ve con bastante claridad.
Pero habríaa que llegar hasta la Ji‐cuadrado con n ∞ g.l. para que la formma fuese idéntica a la no ormal.
Ahora bien,, cuidado, idéntica en forma a la N ( 0 ; 1 ) pero no
o en valores.. Los valoress χ∞ resultaríían de
nitas Z, elevarlas al cuad
extraer infin drado y sumaarlas; hecho esto, es imp posible que eel resultado fuese
coincidentee con las Z orriginarias.
Lo qque sí ocurree es que los vvalores de esstas Ji‐cuadraado con n>30 g.l. y los vaalores de la N
N(0;1)
son equivallentes, razón n por lo cuall disponemo os de ecuacio ones de convversión que hacen el paaso en
ambas direccciones a iguualdad de percentiles. Uttilizando SPSS estas ecuaciones no so on necesariass.
Entre las propieedades comu unes a toda Jii‐cuadrado se puede destacar que:
1) Soon distribuciiones asintóóticas respecto al eje de
d abscisas con valores que solam mente
puueden ser po ositivos, es d
decir entre 0
0 y +∞; cuesttión que es ló ógica dado q que al elevarr las Z
al cuadrado no o puede hab ber resultado
os negativos.
2) El valor de su media es ap proximadameente igual al número de grados de libertad n, sie empre
quue n 1. Estaa aproximaciión se hace m más exacta aa medida que aumentan n dichos graddos de
lib
bertad, de hecho a partir de los 30 gg.l. la mediaa ya es práctticamente id déntica al valor de
suus grados de libertad.
3) El área bajo la curva es equivalente a la probabilidad de cada vvalor χ ; por ttanto la supe erficie
otal es igual aa la probabilidad total (p
to p 1). Esto im mplica, tal y como ocurrre en la N ( 0 ; 1 ), la
9..2.- Mo
odelo “t” de
d Studen
nt
udent es un nuevo modeelo matemático derivado 12 del cociente
Laa “t” de Stu
entrelos valoresdelaaN ( 0 ; 1 )ylosvaloresdecadaunad
delasinfinitaasdistribuciones
delafamiiliaJiͲcuadrado.
Concretamentemediantelaexpreesión:
܈
ܖܜൌ
eaplicaparavaloresconelmismope
quese ercentil.
ටܖ
ܖ
Utilizarestecocienteeunasolaveezgenera1 únicoresulttado“t”deSStudent, evid dentementee
necessitamos repetir el proceeso infinitass veces con las infinitass y JiͲcuad
drado para generar
g unaa
distribucióncomp ores“”deStudent.Yestto,serepitedesdeelcomienzoconcadaunadee
pletadevalo
ଶ
lasJiͲͲcuadrado(ddesdeɖଵ hasttaɖଶf )queexxisten.
En consecuencia, el resultado
r ess de nuevo una
u familia de
d infinitas distribucion
nes teóricas,,
desdeeͳhastafquesediferrencianunassdeotraspo orsusgradossdelibertadquehanherredadodelaa
JiͲcuaadradoqueaapareceensuecuaciónggeneratriz.
Como en el caso antterior, la principal difere
encia la enco
ontramos en n su forma gráfica.
g Y dee
nuevoéstavacam mbiandoam mediaqueseeincrementanlosgradossdelibertad..Así,comoseapreciaen n
lagrááficaquevienedebajo,conmenosdee30g.l.las““t”deStuden ntsonmásaachatadasqu uelanormal,,
esdeecirtienenunaclaratend denciaplaticcúrtica;pero ovansubiendosualturaaproximánd dosealadell
modeelonormal.A Apartirdeloos120g.l.ladiferenciae entreuna“t””ylaN ( 0 ; 1 )esyainaprreciable,porr
fg.l
120g.l.
30g.l.
10g.l.
5g.l.
1g.l.
12
El autordelmodeloo“t”nosellamabaStudent,que podríahabersiddoasídadalacosstumbresajonaddequelosapelliddosserelacionenn
con
n las ocupacionees profesionales. Se llamaba Willliam S. Gosset. De
D él hablaremo
os más tarde. Stu
udent, era el pse
eudónimo que ell
pro
opioGossetempleabaparapubliccarsustrabajos.
Sedalacircunstanciadequeestatendenciadelas“t”deStudentaparecersealaN ( 0 ; 1 )no
aparece sólo en el aspecto gráfico, sino también en los valores. Para menos de 30 g.l. siempre un
valor paraelmismoáreapercentil.Latendenciaaparecerseestalquecon120g.l.las“”ya
sonapenasunascentésimassuperioresalas,porloqueladiferenciaesdespreciable.Pero,laplena
igualdadentrelosvalores(ൌ)sóloocurrecuando“”llegaalosfg.l.
Entrelaspropiedadescomunesatodaslasdistribucionesdelafamilia“t”,cabecitarque:
1) Sonasintóticasrespectoalejedeabscisas,ytomanvalorespositivosonegativosentrefy
+f como se deduce de la ecuación generatriz en la que el signo de la utilizada es
arrastradoporelvalorde“t”.
2) Elvalordesumediaserásiempre0(apartirdeͳg.l.)
3) Eláreabajocurvaesequivalentealaprobabilidaddecadavalor;portantoeláreatotal
esigualalaunidad;yunavezmásexistentablasqueasocianlosvaloresysusfunciones
dedistribución.
4) Sonsimétricasconrespectoalaordenadacentralyunimodales.
5) Yelvalordesuvarianzaes:Ȁሺʹሻ,siemprequeʹg.l.
La“F”deSnedecoresunnuevomodelomatemático,derivado 13enestecaso
medianteelcocienteentredosdistribucionesdelafamiliaJiͲcuadrado
Concretamente:
ܖ
۴ܖǢܕ ൌ ܖ queseaplicaparavaloresconelmismopercentil.
ܕ
ܕ
y donde conviene observar que el resultado hereda los g.l. del modelo JiͲcuadrado que está en el
numerador()ylosg.l.delqueestáeneldenominador().
Como en el caso anterior, no basta con utilizar la ecuación 1 vez, ya que esta nos daría 1
únicovalor.Elprocesoconsisteenrepetirinfinitasveceselcálculoindicadoenlaexpresiónanterior,
contodosycadaunodelospercentilesdetodaslasdistribucionesJiͲcuadrado(desde ɖଵଶ hasta ɖଶf )
13
EscuriosoqueseaFdeSnedecorpuestoqueelapellidoniempiezaporF,nillevalaFporningúnlado.Larazónesqueelfundamento
teóricodeestasdistribucionesdeprobabilidadfueideadoporFisher,quiennoestablecióecuaciónalguna.FueprecisamenteSnedecor
elquedesarrollólaecuacióndándoleademásunsentidoútilaestafamiliadedistribuciones.Porestacausa,algunosautores,aunque
deberíamossertodos,serefierenaestosmodeloscomolaFdeFisherͲSnedecor.
Estaasim
metríairíadeesapareciend
doamediaq queaumentaasenlosg.l. deambosttérminosdell
cocieente.Yelmo
odeloresultantetenderíaahacialanorrmal,especiaalmenteapaartirde ͵ͲǢ͵͵Ͳ;peroestaa
tendeencianocon ntinúahastaelinfinito,yyaquesedaalaparadojaadequecuandollegam f
mosala fǢf
(derivvadade2JiͲͲcuadradoco
onfg.l.queetienenlamismaformadeunanorm mal)ladistrib
buciónyano
o
es tal, sino que se f ൌͳ para cualquier pe
s ha convertido en unaa constante de valor: fǢf ercentil, y all
repreesentarlagrááficamentenoapareceniingunacurvaa(seríaunpu untoperdido
oenelespaccio).
Unacuestiónquepueedetenercieertointerés,esquelosm
modelos ͳǢ esdecircon1g.l.enell
numeeradorycong.l.eneldenominado or,equivalen
nalcuadrado
odeunaSttudentcong.l.Estosee
demuuestrafácilm
mentesegún seveenla cadenadee ecuacionesquesigueacontinuación ydóndelass
clavesestánenque es( ܈verpágina169)yenlaecuacióngen
neratrizde““”(página17
71)queaquíí
apareececontodo
ossustérminnoselevadosalcuadrado o:
܈
ycomo: ܖ ܜൌ
ට ܖ
܈ ܖ ۴Ǣ ܕൌ ܜ ܕ
۴Ǣܕ ൌ ൌ ൌ
ܕ ܕ ܕ ܈ com demostrar
mosequeríad
uadradoquedaría: ܜ
quealcu ܖൌ
ܕ ܕ ܕ
ܖ
ܖ
Le pido perdón al lector por esta licencia matemática. Es la única de todo el manual. Y el
interésquetieneestaigualdadentre yʹ,esdeservirdeapoyoparaalgoqueposteriormentese
comentará (en el Tema 18) cuando se hable de una de las técnicas estadísticas inferenciales más
importantes:elANOVAde1factordeefectosfijos(apartado18.2).
YaparafinalizartantoelapartadocomoelTema,entrelaspropiedadescomunesatodoslos
modelos ,sepuededestacarque:
1) Son distribuciones asintóticas respecto al eje de abscisas que únicamente pueden tomar
valorespositivos,esdecirentre0y+f.Algológicopuestoqueprocedende2JiͲcuadrado
quienes,asuvez,solocontienenvalorespositivos.
2) Eláreabajocurvaesequivalentealaprobabilidaddecadavalor ǡ;portantoeláreatotal
esigualalaunidady,comoentodosestoscasos,existentablasqueasocianlosvalores y
susfuncionesdedistribución.
3) Sonunimodales.
4) Elvalordesumediaestáenfunciónexclusivamentedelosg.l.deldenominadoryequivale
a:Ȁሺʹሻsiemprequet͵g.l.
5) La mediana (dato interesante, dada la asimetría de la mayoría de ellas) es menor a 1
(exceptopara fǢfporlarazónyacomentada).
6) Lavarianzaes:[ʹʹሺʹሻሿȀሾሺǦʹሻʹͶሻ]siemprequetͶg.l.
Páginadonde
Páginadonde
Término aparecepor
sedefine
primeravez
177
CAPÍTULO
4
LA INFERENCIA
ESTADÍSTICA
El proceso inferencial:
fundamentos teóricos básicos
La estimación de parámetros
El contraste de hipótesis
179
Tema 10
EL PROCESO INFERENCIAL:
FUNDAMENTOS
TEÓRICOS BÁSICOS
10.1.ͲElprocesoinferencial
10.2.ͲElconceptodeDistribuciónMuestral
10.3.ͲTresejemplosdedistribucionesmuestralessencillas
NoesarriesgadoafirmarqueelobjetivoprincipaldelaEstadísticaeseldeser
unmedioeficazparaalcanzarelconocimientodelaspoblaciones.Ymásconcretamente,elpropósito
delaEstadísticaAplicadaalasCC.HH.engeneralyalaPsicologíaenparticular,eselconocimiento
del comportamiento de los sujetos que componen las poblaciones en una o más variables
directamente observables. En definitiva, que utilizamos la Estadística como un método para
determinarlosparámetros(laspropiedades)quedefinenalaspoblacionesyservir,deestamanera,
comoayudaparalaPsicologíaensucomprensióndelserhumano.Siellectorloconsideranecesario,
puederevisarlosconceptosdepoblación,muestra,estadísticoyparámetroqueseexplicaronenel
Tema2,antesdecontinuarconestapartedelestudio.
Los parámetros son los protagonistas principales de la Estadística Inferencial. Cada uno de
ellos es único y constante. Y esto les da más relevancia aún. Por ejemplo, definida una población
(supongamoslosestudiantesuniversitariosmatriculadosenEspañaenestecursoacadémico)cierto
aspectodesuconductaenunadeterminadavariable(pensemosenalgotípico:elnúmerodehoras
deestudiodiario)estáexpresadoporunúnicoparámetro.
Ahorabien,¿cuáleseldetalleconcretoquenosinteresadeesavariableenesapoblación?
Porqueunamismapoblaciónpuedetener,ydehechotiene,variosdeesos"únicos"parámetros.Así,
ysiguiendoconelejemplopropuesto,cuandocentremosnuestrointerésenlacantidaddetiempo
dedicadaalestudioporestosuniversitarios,estaremoshablandodelparámetromedia poblacional
(representadoconP)queseráúnicoyconstanteenvalormientrasnocambienlascondicionesque
definen a la población o a la variable medida; pero si nos preocupa el grado de homogeneidad
observadaentrelossujetoscitados,estaremoshablandodelparámetrovarianzapoblacional(quese
representaconV2)yquetambiénseráúnicoyconstantecomoelanterior;yasí,etc…etc…
Además,lodichonosignificaqueestapoblación(ocualquierotra)solamentepuedatenerun
parámetro P y un parámetro V2. Una población, tendrá tantas P (medias) y tantas V2 (varianzas)
comovariablescuantitativasdeseemosinvestigar.Perodecadaunodeestosparámetrospodremos
decirquesonúnicosenelsentidodequesondiferentesunosconrespectoaotros.Esdecirquela
poblaciónuniversitariadelejemplo,tieneunamediaPyunavarianzaV2enesavariabletiempode
estudiodiario,perotambiéntieneotrasPyotrasV2:enrendimientoacadémico,eninteligencia,en
motivación,eninterésvocacional,en……,ydecadaunodeesosparámetrosdecimosqueesúnicoya
queserándistintos.Cadaunodeellosvaadiferenciarsedeldeallado,bienporlavariablemedida,
bien por la población a la que representa; y por supuesto la primera diferencia es de qué
herramientaestadísticasetrata.
Por otra parte en este ejemplo se han incluido variables cuantitativas, pero también
podíamos hablar de otros tipos de medición. En concreto, siguiendo con la misma población
supongamosqueestamosinteresadosenaveriguarquéporcentajedeestosuniversitariosestudiaal
menos1horadiariatodoslosdíasdelperiodolectivodelcurso,cuestiónqueimplicaladefiniciónde
unavariablecategórica,dicotómicaparasermásexactos(estudiaradiario:Si/No;paraabreviar),yla
aparicióndeunnuevoparámetro:laproporciónpoblacional(representadocomoS)desujetosque
poseen una determinada característica. En la línea de antes, la misma población va a tener tantos
parámetrosSdiferentescomovariablescategóricasseanalicen.Yaúnmás,paraserexactosnohay
unSporvariable,hayunSporcadacategoríadecadavariable:enesteejemplohabráunSdelos
que “sí” estudian al menos 1 hora diaria y un S de los que “no”, evidentemente complementarios
entresícuandolavariableseadicotómica;peronotodasellasvanaserlo.
Ytodoesto,ciñéndonosexclusivamenteaherramientasdelaestadísticaunivariada,quelo
mismo podríamos decir con parámetros propios del análisis bivariado de datos como los que
veremosenelCapítulo5,odelmultivariadoqueyaquedafueradelcampoqueseabarcaalolargo
deestaspáginas.
EvidentementeelproblemaconelquetopalaEstadística,comoyasehaexplicadoalinicio
del manual (ver página 35), es que las poblaciones de interés científico están, habitualmente,
integradas por un número elevado de sujetos de manera tal que resulta imposible medir en todos
elloslasvariablesqueatañenalfenómenoqueseestudia;porloquenuncaestaremosendisposición
decalcularningúnparámetro,usandoelsignificadoconcretodelverbocalcular.
De ahí, la conocida necesidad de la extracción de muestras insesgadas que representen
estadísticamenteatodalapoblación.Comosabemos,laEstadísticaDescriptivaqueocupólostemas
delCapítulo2,eslaencargadadedefiniralasmuestrasmedianteelcálculo(yahorasíhablamosde
calcular)desusestadísticos.Comoesobvio,“calcular”(aunquelohagaSPSS)implicatenertodoslos
datosyhallarconellosunresultadoexacto.Yestoloquesísepuedehacer,yyasehahecho,enla
descriptivadelamuestra,peroesimposibledehacerparalosparámetrosdelapoblación.Aéstosla
Estadísticalosestima,lospredice,losinfiere.
Duranteelejemploanterior,hemoscitadoalamedia,alavarianzayalaproporción.Lastres
son herramientas ya definidas en los temas de la parte Descriptiva. A estas alturas, imagino que
nadieignorayaquehayunparámetromediayunestadísticomedia,hayunparámetrovarianzayun
estadísticovarianza,etc…Suconceptonuncacambia,peroqueseanconsideradascomoestadísticos
ocomoparámetros,dependiendodelámbitoalquedefinen,implicauncambioenelsímboloquelas
representa. La costumbre es emplear letras latinas para los estadísticos y letras griegas para
simbolizar a los parámetros, tal y como aparecieron en la página anterior. Esta cuestión ya se
advertíaenlapágina48.
Loquenosedichoaún,ytienesuimportancia,esquecuandolosestadísticosdescriptivos
saltan a este contexto inferencial, se les denomina: estimadores. Formalmente un estimador se
definecomounavariablealeatoria.Dichoasí,parecealgoraro,peronoloes.Lodevariableviene
porque su valor no es constante, sino que puede variar, y lo va a hacer, cuando se calcule en
diferentesmuestras(porsupuestorepresentativasdeunamismayúnicapoblación).Ylodealeatoria
viene porque las citadas muestras son, habitualmente, elegidas al azar. Luego en conclusión, si en
cadamuestraseleccionadaaleatoriamentecalculamoselvalordeunmismoestadístico,porejemplo
unamedia,obtendremosdiferentesvalores(variables)vinculadosalazardelmuestreo(aleatorio).Y
parareforzarestaidea,sesueleretocarelsímbolodelestadísticoparaquequedeclaroqueyaesun
estimadorañadiéndoleasuletralatinaun“sombrero”(unacentocircunflejofrancés).
Endecir:
MUESTRA ProcesoInferencial POBLACIÓN
ഥ
Media܆
ഥ
Estimadormedia܆ MediaP
ESTADÍSTICOS
PARÁMETROS
Varianza ܁ Estimadorvarianza܁ Varianzaો
Proporciónp ෝ
Estimadorproporciónܘ ProporciónS
yotros… yotros…
No obstante, lo más sencillo para nosotros es que pensemos simplemente que a los
estadísticos descriptivos que se emplean en la parte Inferencial se les llama estimadores y que
sigamosusandoelmismosímbololatino.
Matizadotodoesto,creoqueyahallegadoelmomentoderecordarque:
La Inferencia Estadística es el proceso de razonamiento mediante el cual
inducimos (deducimos) las propiedades desconocidas (los parámetros) de una
población a partir de los estadísticos estimadores que hemos obtenido en las
muestras, lo que nos permite elaborar conclusiones acerca del fenómenoͲproblema
objetivodelestudio.
Lainferenciacomotalesunactocotidianoparaelserhumano.Porejemplo,apartirdeun
hecho particular (un gesto, una frase, una mirada...) nos formamos una opinión general de una
persona;oapartirdeunaacumulacióndenubes,aventuramosquevaahabertormenta.
Pero esas inducciones están cargadas de error… y frecuentemente nos equivocamos. La
existencia de error es un "mal inevitable" en todo proceso humano y por ende científico. Y la
Estadísticatampocoesajenaaello.
La inferencia estadística se apoya, como sabemos, en la observación de la realidad en
muestrasaleatoriaseinsesgadas,paraposteriormenteutilizandoelcálculodeprobabilidadesatribuir
a las inducciones realizadas una probabilidad acerca de su veracidad. “Probabilidad” porque no
tenemoscerteza;porqueexistelaposibilidaddecometererror.
En consecuencia, que no olvide el estudiante novel en esto que en Estadística Inferencial
nunca podremos afirmar, ni negar, nada, con total certeza; es decir que siempre elaboraremos
nuestrasconclusionesentérminosprobabilísticos.
En resumen, apoyándose en la teoría de probabilidad, el proceso inferencial desarrolla el
últimoeslabóndeestacadena:
Población Muestra Estimador Parámetro
Paracompletarelpanorama,tambiénpodemosrecordarque:
La Estadística Inferencial es el conjunto de técnicas o procedimientos
matemáticosquenospermiteneldesarrollodelrazonamientoinferencial.
Deunmodomuygeneralsehaestablecidounaprimeragranclasificacióndeestastécnicas
de análisis estadístico implicadas en el proceso inferencial. Y digo “gran” porque cada una de las
categoríasquesevanacitarcontieneunnúmerotanelevadodetécnicasquenoesunaclasificación
conutilidadoperativa.
Estárealizadaenfuncióndedoscriterios.Elprimerodeelloseselobjetivodeinvestigacióno
tipodeinferenciaqueelinvestigadordesearealizar;yelsegundo,elobjetodesuestudiooanálisis
acercadelcualserealizadichainferencia.
Segúnelobjetivo,existen2posibilidadesquenosonexcluyentessinoquealcontrariosuelen
complementarse:TécnicasdeestimaciónyTécnicasdecontrastedehipótesis.
1. Las Técnicas de estimación son aquellas que nos posibilitan realizar inducciones,
estimaciones o predicciones, acerca de cuál puede ser el valor (numérico) de los
parámetros. Porejemplo:laquedeberíamosdeemplearpara sabercuántotiempoaldía
estudianlosuniversitariosdelosquevenimoshablandoenpáginasanteriores.
2. Las Técnicas de contraste de hipótesis, como su nombre indica, son las que realizan
inferencias que nos permiten admitir o rechazar hipótesis de investigación formuladas
sobre las propiedades y/o características que definen a las poblaciones. Con la misma
población del ejemplo una vez más, este tipo de técnicas es el que empleamos cuando
queremossabersiesadmisibleonoafirmarquenuestrosuniversitariosestudianmásde3
horasdiarias.
Segúnelotrocriterio,porelobjetodelanálisis,sediferenciaentre2grandesbloquesquesí
quetienenciertocarácterexcluyente:TécnicasparamétricasyTécnicasnoparamétricas.
1. Las Técnicas paramétricas, evidentemente centran su atención sobre los parámetros, o
bienmásexactamente,sobrelosvaloresdelosparámetrosdelaspoblaciones.Así,losdos
ejemplos citados arriba para los casos de estimación y contraste corresponden a una
situacióndondesevaanecesitarunatécnicaparamétrica,yaqueenambosinteresasaber
algosobrecuántovaleelparámetro(unaPconcretamente).
2. Encambio,lasTécnicasnoparamétricastrabajanconotrascaracterísticasmáscomplejas
delapoblaciónyquenosonfácilmenterepresentablesmedianteparámetroscomunes;y
quesuelenreferirsecasisiemprealaformaenquesedistribuyelavariableobservada.
Enestalínea,siporejemplonuestraintenciónesprobarquelavariabletiempodeestudio
diariosigueunadistribuciónasimétricapositiva(almenosalcomienzodelcursocuandolos
exámenes están lejos) tendríamos que usar una prueba no paramétrica ya que esta
hipótesisafectaallugardóndesesitúantodoslospuntosdelpolígonodefrecuenciasynoa
unparámetroenconcreto.
Asimismo, es muy importante conocer que hay técnicas no paramétricas que tienen
entidadporsímismas,esdecirqueexistenparaobjetivosconcretos,peroquetambiénhay
muchasdeellasqueseutilizancomoalternativasfrentealastécnicasparamétricascuando
éstasnocumplenlascondicionesteóricasnecesariasparasuuso.
Igualmenteesimportantequesepamosya,quemientrasquelastécnicasparamétricasson
aplicables tanto para la estimación como para el contraste de hipótesis; las técnicas de tipo no
paramétrico son solamente medios válidos para el contraste de hipótesis, es decir que no existen
técnicasnoparamétricasparalaestimacióndeparámetros(seríauncontrasentido¿no?).Demanera
queestatareadeestimaciónsólosepuedellevaracaboconunatécnicaparamétrica.
Resumiendo:
Técnicas Técnicasde
PARAMÉTRICAS ESTIMACIÓN
Técnicas Técnicasde
NOPARAMÉTRICAS CONTRASTEdeHIPOTESIS
Enloquepodríamosllamarlavidarealdelinvestigador,sevaanecesitarenmuchísimasmás
ocasionesuncontrastequeunaestimación.Lainmensamayoríadelosobjetivosdeinvestigacióny
de las hipótesis científicas requieren un contraste para su afrontamiento. La estimación es en
muchoscasosunainformacióncomplementaria.Luego,laconfrontaciónentretécnicasparamétricas
y no paramétricas, en la línea de tomar la decisión de cuál elegir y utilizar, es clave a la hora de
aplicarlainferenciaestadística.
SeguramenteellectorintuyóalfinaldelapáginaanteriorquelasTécnicasparamétricasson
muy exigentes, en el sentido de que para su adecuada y correcta utilización se deben de cumplir
ciertascondicionesteóricas.
Algunasdeellassongeneralesocomunesatodaslastécnicasysecitanacontinuación:
1. Lavariabledependiente(VD)observada,debeserunavariablecuantitativaprocedentedela
utilización de una escala de medida de intervalos o de razón. La única excepción de esta
norma, la constituyen lasvariables nominales dicotómicas, paralas que existe un tipo muy
concretodetécnicasparamétricas(comoveremosenelTema13).
2. EstaVDdebedistribuirsenormalmenteenla(s)población(es)deinterés.
3. Las poblaciones implicadas (si hay más de 1) deben ser homocedásticas14 entre sí, es decir
tienenquetenerigualvariabilidadenlaVDanalizada.
4. La muestra utilizada debe ser representativa de la población y de tamaño suficientemente
grande(apartirde6sujetosporgrupoencasodequehayamásde1).
El cumplimiento de todas estas condiciones, más las que son específicas a cada una de las
técnicas, hace de ellas que sean más potentes y que tengan prioridad frente a las de tipo no
paramétricocuandosetratadecontrastarhipótesis.
Encambio,elincumplimientodeunosólodeestossupuestosteóricosimpediría,conrigor,el
empleo de este tipo de técnicas estadísticas y nos llevaría, en muchos casos hacia el uso de una
alternativanoparamétricayenotros,nadamenos,quearediseñarlainvestigación.
14
Homocedasticidad, literalmente significa: “igual variabilidad”. Propiedad según la cual 2 ó más grupos de datos obtenidos en la
medidadeunamismavariablepresentanelmismogradodevariabilidad,esdecirlamismavarianza.
En conclusión, por un lado podemos afirmar que las técnicas paramétricas son las únicas
capaces de estimar valores de los parámetros desconocidos, pero siempre que se cumplan las
condicionesnecesariasparaello;yporotroladoquesonlamejoropciónparaafrontaruncontraste
dehipótesiscientíficas.Ycomoresumenconvienerecordarquesecaracterizanporquepermiten:
1. analizarlosdatosobtenidosdurantelamedicióndeunavariablecuantitativa,
2. verificarhipótesisreferidas,almenos,a1parámetro,
3. estimarvaloresdeparámetros;
4. perorequierenelcumplimientodeunaseriedecondicionesteóricaspreviasasuaplicación.
De todo lo anterior se deduce que aunque los contrastes de tipo paramétrico sean los más
utilizados sin ninguna duda en el campo de la investigación, su aplicación se verá en ocasiones
reducida.YeseeselmomentomáshabitualparalautilizacióndelasTécnicasnoparamétricas.
Algunasdeellas,sehandesarrolladocomoalternativasaloscontrastesparamétricoscuando
no se verifican todas las condiciones necesarias para la correcta y conveniente utilización de los
mismos.Perootras,comoyaadvertíamosantes,sehancreadoconelobjetodesometeracontraste
ciertashipótesisdeinvestigaciónespecíficasquenuncapodríanserresueltasporvíaparamétrica.
En cualquier caso, se aconseja el uso de una técnica noͲparamétrica para el contraste de
hipótesis,cuandonosencontramosconalmenos1deestassituaciones:
a) quelosdatosrecogidosseandeunavariableordinal,onominalconmásdedoscategorías;
b) queexistaconstanciaexpresadelafaltadelanormalidaddelaVDenlapoblación;
c) queexistaconstanciaestadísticadelaausenciadehomocedasticidad;
d) quelamuestrautilizadaseasesgaday/omuypequeña(menosde6sujetos);
e) quelahipótesisdeinvestigaciónformulada,notengaimplicadoningúnparámetro.
ApesardesermenospotentesloscontrastesnoͲparamétricos,tienenciertasventajas:
1ª) mayorsencillezyportantorapidezoperativa;
2ª) norequierenlacomprobaciónpreviadeningúnsupuestoteórico;
3ª) no precisan de la definición de un modelo de distribución muestral concreto (concepto
absolutamenteclaveyqueveremosmuyprontoenelsiguienteapartado)sinoquebastacon
conocerelmodeloteóricodedistribucióndeprobabilidadhaciaelquetienden;y
4ª) puedenserempleadasaunquesedesconozcaelniveldemedidalogradoparalaVD.
Encambio,suprincipalinconvenienteesqueparaunosmismosdatosyenelcasodequese
cumplan las condiciones teóricas necesarias para el empleo de un contraste paramétrico, la
conclusión obtenida por medios noͲparamétricos siempre posee una mayor probabilidad de error
quelaqueseobtendríaporvíaparamétrica,perdiendoentoncessignificatividad.Concretamentelo
quetienenesmásprobabilidaddecometerelllamadoerrordetipoI(esteconceptodedefinemás
tarde,aquíyahorabastaconquenosquedemosconenlaideadequeesunadecisiónequivocada).
Asimismo,frutodelamismacausalastécnicasnoͲparamétricassonmenospotentesquelas
paramétricas,comoyasedijoantes;yporellonecesitanmuestrasdemayortamañosisepretende
alcanzarlamismapotenciaqueselograríaenuncontrasteparamétricoequivalente.Laexpresiónser
más(omenos)potentesderivadadeltérminopotenciacorrespondeaunconceptoestadísticomuy
interesantequetambiénsedefineposteriormente,sinembargoparaentenderestodeloqueaquí
estamoshablandovaleconpensarquelapotenciaeslacapacidaddetomardecisionesestadísticas
querechacenhipótesisfalsas.
Apartirdeestaidea,surgeelconceptodepotenciaͲeficienciaquesedefinecomolarelación
entrelapotenciadeunatécnicanoͲparamétrica,conrespectoasualternativaparamétrica.
Puestoqueestarelaciónesconocida(yconstante)enlamayoríadeloscasos,nospermite
averiguarconquétamañosdemuestradostécnicasalternativasllegaríanaserigualmentepotentes:
ͳͲͲ ȉ
ܲݐǤ ݂ܧǤ ሺ݀݁ܤሻ ൌ ȉ ͳͲͲ ՜ ൌ
ܲݐǤ ݂ܧǤ ሺ݀݁ܤሻ
Quizáconunsimpleejemplosecomprendamejorestaidea.Supongamosqueunatécnicade
contrasteparamétrica(A)alcanzaunapotenciadel98%conunamuestrade50sujetos,peroimplica
elcumplimientodeciertascondicionesteóricasdelasquenoestamoscompletamenteseguros;por
elloestaríamosmástranquilosutilizandosualternativanoͲparamétrica(B) cuyaaplicaciónpráctica
además es mucho más sencilla. Pero con B perdemos potencia (no alcanzaríamos ese 98%). Como
quieraquesabemosquelaPot.Ef.(deB/A)esdel90%(supongamos),entoncesmediantelaecuación
dearribaobtenemos:
ͳͲͲ ȉ ͳͲͲ ȉ ͷͲ
ܖ۰ ൌ ൌ ൌ ͷͷǡ̱
ܲݐǤ ݂ܧǤ ሺ݀݁ܤሻ ͻͲ
por lo que utilizar la técnica B con 56 sujetos nos permite llegar a la misma potencia (el 98%) que
tienelatécnicaparamétricaAconsus50sujetos;esdecir,quebastaríaañadir6sujetosalamuestra
inicialparautilizarlatécnicaBynorenunciaralapotenciaqueteníamosconlaA.
Todo lo que acabamos de decir acerca del inconveniente de las técnicas noͲparamétricas
debederesultarleallectorbastanteincomprensibleenestosmomentosdesuformación.Loséyte
ruegoquemedisculpes.Yesqueaunquenomegustahacerestetipodecosas,hasidoinevitable
emplearenlospárrafosanterioresvariostérminos(errordetipoI,significatividad,potencia,etc…)
queaúnnohansidoexplicados.Loseránenelapartado12.2delTema12.Peroenordenamantener
launidadargumentaldelacuestiónquesetrataaquí,ésteeraelmejorlugarparadejardichotodo
esto.LoqueesperoesquealterminardeestudiarelCapítuloactual,ellectorvuelvaaquíyalrepasar
lo anterior ya sea capaz de entenderlo adecuadamente. No obstante, debe quedar claro que esto
quenosestáocurriendononosimpidequeavancemoscorrectamenteennuestroconocimiento.
Finalmentehayquecomentarquehastalafechanosehandescritotécnicasalternativasde
tiponoparamétricoparatodosloscontrastesparamétricosposibles.Asimismo,mientrasqueporsu
parte existen técnicas paramétricas disponibles para una gran cantidad de diseños multivariados
(como por ejemplo: los modelos de Análisis de Varianza Múltifactorial, el Análisis Factorial, los
modelos de Regresión Múltiple y Regresión Logística, etc...) tampoco se han desarrollado test no
paramétricosparasuusoenestosanálisiscomplejosqueimplicanelmanejodemuchasvariables.
Portodoelloyamododeconclusión,meadhieroalaopinióndelamayoríadelosautores,
quienes recomiendan el empleo preferente de los contrastes paramétricos, cuestión que ya
adelantábamos antes, dejando a los noͲparamétricos sólo para cuando sean estrictamente
imprescindibles.
Como consecuencia el resto del presente Tema, más los Temas 11 y 12, se centran en el
estudio de los fundamentos teóricos de las técnicas paramétricas tanto de estimación como de
contraste.Deidénticamanera,lacasilatotalidaddelrestodelpresentemanual,especialmenteenel
Capítulo 5, está dedicado al estudio detallado de las mismas, aunque se hace referencia a sus
respectivasalternativasnoparamétricas.
Sin ninguna duda éste es el concepto fundamental para las técnicas inferenciales
paramétricaspuestoquetodasellassebasanenél.Ysinembargoesunmarcoteóricoirrealizable
experimentalmente.Aunqueesmuyfácilimaginárselo.Veámosloya.
Supongamosquedeseamosrealizarunainferenciaacercadeunparámetroconcretodeuna
determinadapoblación.Paralaexplicacióngeneral,envezdeespecificarsisetratadeunamedia(P)
ounavarianza(V2)ounaproporción(S),uotro…,vamosadecirqueesunocualquiera,ficticio,ylo
simbolizamosconT(laletragriega“theta”).
Lógicamente, el proceso comienza seleccionando una muestra representativa de dicha
población en la que con la Estadística Descriptiva calculamos su correspondiente estadístico
estimador,alquepodemossimbolizarcon܂ .
Hastaaquí,ésteeselprocedimientohabitual,peroahoravieneloquehacequeelconcepto
quebuscamosdefinirseateóricoeimposiblederealizarempíricamente:supongamosquerepetimos
loanteriorinfinitasveces.Infinitonoquieredecirmuchas,quieredecirinfinito,asíquenohaymás
remedioqueusarlaimaginación.Laintenciónquesepersiguehaciendoestoesgarantizarquecon
las infinitas muestras se ha incluido a la totalidad de la población, de manera que el conjunto de
estasinfinitasmuestrasequivaleateneratodalapoblación(“troceada”sí,peroalcompleto).
En cada una de esas muestras, idénticas en tamaño y condiciones pero con distintos
elementos, se ha vuelto a calcular el valor del estadístico estimador ܂ y como quiera que es una
variablealeatoria(verpágina181)contodaseguridadsevanaobtenervaloresdiferentes.
Esdecirque:
Muestra nº 1
1ervalordelestadístico>܂
POBLACIÓN
Muestra nº 2
2ºvalordelestadístico>܂
Parámetro Muestra nº 3
3ervalordelestadístico>܂
T
… ………
Muestranºf f
fºvalordelestadístico>܂
.
El resultado obtenido es una distribución con infinitos valores de un mismo estadístico ܂
Puesbien,éstaesalaquesedenominaDistribuciónMuestral.
Ladistribuciónmuestralesladistribuciónquecontienelosinfinitosvalores
quepuedetenerunmismoestadísticoestimadordeunúnicoparámetro,quesehan
obtenido en infinitas muestras idénticas en tamaño y condiciones, extraídas de una
mismapoblación.
Por ello se dice que la distribución muestral es una distribución de muestras; porque
contienelainformacióndeinfinitasmuestrastomadasdeunamismapoblación.
Yahorayasíquepodemosespecificar,que:
Ͳ sielparámetroaestimaresP,ladistribuciónmuestralcontieneinfinitosvaloresde܆ഥ
Ͳ sielparámetroaestimaresV2,ladistribuciónmuestralcontieneinfinitosvaloresde܁
Ͳ sielparámetroaestimaresS,ladistribuciónmuestralcontieneinfinitosvaloresdeܘෝ
Ͳ etc…,concualquierotroparámetro.
Comoatodadistribución,laspropiedadesqueladescribenson:suforma,sucentralidadysu
variabilidad.
1ª) Forma:sieltamañodelamuestraessuficientementegrande,ladistribuciónmuestralsigueel
conocidomodelodelanormal.EstaafirmaciónesloqueseconocebajoelnombredeTeorema
delLímiteCentral.
Enlaprácticarealesteajustealanormalidadesbastantebuenoapartirdelos30sujetospor
muestra. Como consecuencia, es muy frecuente que para la distribución muestral de un
estimador se pueda utilizar el modelo teórico de la N(0;1). Ahora bien, en el caso de que no
fuese así, la distribución muestral con toda seguridad se ajustará a algún otro de los modelos
teóricosconocidos(JiͲcuadrado,,o ).
Comoconclusióntrascendentaldeestacuestiónsesiguequecualquierdistribuciónmuestralde
unestimadoresunafuncióndedensidaddeprobabilidaddeunestadístico,esdecirunmodelo
dedistribucióndeprobabilidades.Porello,indicalarelaciónexistenteentrelosposiblesvalores
quepuedetomarelestadísticodeunamuestraaleatoriadetamañoylaprobabilidadasociada
acadaunodeesosvalores.
2ª) Centralidad:lamediaaritméticadelosinfinitosvaloresdelestadísticoestimadorcontenidosen
la distribución muestral (que sería una esperanza matemática) es siempre igual al valor del
parámetro.Estaideaesdevitaltrascendenciaparaelfuturo,yaquedesdeellapodemosafirmar
cuestionescomoporejemplo:
>queelparámetromediaP,esigualalamediaaritméticadeinfinitas܆ ഥmuestrales,
>elparámetrovarianzaV2,esigualalamediaaritméticadeinfinitas܁ muestrales,
>elparámetroproporciónS,esigualalamediaaritméticadeinfinitasmuestrales.
>Yengeneral,quetodoslosparámetrossonlamediadeunadistribuciónmuestral.
Estaafirmaciónesfácildecomprendersirecordamosqueelconjuntodelasinfinitasmuestras
equivalealapoblación,luegoelconjuntocompletodevaloresconlosquesehancalculadolos
infinitosestimadorestienequeserequivalentealapoblacióndevalores.
3ª) Variabilidad: para expresar la variabilidad de los valores del estadístico se recurre a una
desviación típica (aunque también se pueda utilizar la varianza) denominada error típico del
estimador y representado genéricamente como ો ܚܗ܌܉ܕܑܜܛ܍Su cuadrado no tiene un nombre
específico,simplementeselellamavarianzadeladistribuciónmuestralyselerepresentaconel
mismosímboloelevadoalcuadrado:ો ܚܗ܌܉ܕܑܜܛ܍
Esteerrortípicoessiempreinversamenteproporcionalaltamañodemuestraempleado,porlo
que a mayor menor variabilidad. Y ello es un indicador de la eficacia o precisión de las
inferenciasquesepretendenrealizarapartiresteestadísticoestimador;demaneraquecuanto
menorsealavariabilidaddeladistribuciónmuestralmayorserálaprecisióndelestimador.Es
decir:՛ ฺ՝ ɐଶୣୱ୲୧୫ୟୢ୭୰ ฺ՛
×
Portantocuandosequieredecircómoesunadistribuciónmuestralseindica:suforma(casi
siemprenormal),cuáleselparámetroquetienepormediaycuálessuerrortípico(osuvarianza);
asíporejemplo,pararepresentaraunadistribuciónmuestraldelamediapodríaescribirse:ۼሺૄǢ ો܆ഥ ),
óbien,dependiendodelgustodelprofesional: ۼሺૄǢ ો܆ഥ ).Esimprescindiblefijarseenelsubíndiceque
acompañaalsímbolodelaV2porqueélesloquediferenciaalparámetrovarianza(V2)deunerror
típicoɐଡ଼ഥ odeunavarianzadedistribuciónmuestralɐଶଡ଼ഥ .
Tras todo lo que se acaba de exponer no es difícil deducir que usando como soporte este
únicoconcepto,existeninfinitasdistribucionesmuestralesquesepuedendiferenciarunasdeotras:
a) bienporelparámetrodefinidocomomediadelamisma,
b) bienporlapoblacióndeinterésqueseinvestiga,
c) bienporlavariablemedida,y/o
d) bienporeltamañodelamuestrautilizada;
bastaquecambieunadeestoscuatroelementosparaqueladistribuciónmuestralseadistinta.
Parairfinalizandoesteapartadoenimprescindiblequeellectortengamuyclaraladiferencia
entretresconjuntosdedatosquesepuedenantojarmuysemejantes:
> ladistribucióndelapoblacióndondeseencuentranlosvaloresenlaVDdelossujetos
que forman parte de la población marco y con ellos, si pudiéramos, calcularíamos los
parámetros. Pero sabemos que no podemos y que por eso la Estadística emplea todo este
montajeteórico.
> ladistribucióndelamuestradondetenemoslosvaloresenlaVDdelossujetosquehan
sidoaleatoriamenteelegidosparalamuestra(conelmétodoadecuado).Demaneraquecon
ellos sí que se han calculado los estadísticos descriptivos que posteriormente se van a
emplearcomoestimadores.
> yladistribuciónmuestralqueacabamosdeexplicar,queesunmodeloteórico(unartificio
matemático) donde se encuentran todos los valores (de la VD) que puede llegar a tener el
estimador (el único que tendremos en la realidad) y desde el cual seremos capaces de
realizarinferenciasacercadelosparámetroscorrespondientes.
Noolvidemosqueenlaprácticarealsóloseselecciona1muestra,porloquetendremosun
únicovalordeestadísticoparacadaestimador.Loquesíescierto,esqueencadamuestrasepueden
calcular varios estadísticos (una media, una varianza, una proporción,…) y cada uno de ellos
pertenecerá a una distribución muestral distinta; es decir, que una misma muestra puede estar
incluidaenvariasdistribucionesmuestralesdistintassegúnelparámetroainferir.
ParacompletaresteTemayasentardefinitivamenteelconceptodedistribuciónmuestral,a
continuaciónvamosapresentarlostresmodelosdedistribuciónmuestralmássencillosqueexisten.
Setratadelasdistribucionesdelosparámetrosquesehancitadoenlaslíneasanteriores,esdecir:la
mediaP,lavarianzaV2ylaproporciónS.
Comoseindicaalfinaldelapáginaanterior,vamosacomentarbrevemente
cómosonlastresdistribucionesmuestralesmássencillasqueexisten:
1.Ͳladistribuciónmuestraldelamedia,
2.Ͳladistribuciónmuestraldelaproporción,
y3.Ͳladistribuciónmuestraldelavarianza.
1. DistribuciónmuestraldelamediaP
Este modelo teórico, como es obvio después de lo que se ha estado explicando,
contienealosinfinitosvaloresdemediasmuestrales( ഥ)estimadorasdelparámetroPdecierta
variablecuantitativadescriptivodeunadeterminadapoblacióndelaquesehabríanextraído
infinitasmuestrasidénticasencondicionesytamaño.
ഥseráigualalparámetroP.
Segúnlateoríaanterior,lamediadeestasinfinitas
Para este caso disponemos de dos variantes, dependiendo exclusivamente de una
condición:elhechodeconocerono,previamente,elvalordelparámetrovarianza(V2)dela
variable medida en la población implicada. Es decir, recuperando un ejemplo anterior,
supongamosquevamosarealizarunainferenciasobreelnúmerodehorasdeestudiodiario
delosuniversitariosdelapoblacióndeCastillaͲLeón(unP);lacuestióndelaquehablamoses
quesepamosdeantemano,ono,cuántovalelaV2deesamismapoblaciónendichavariable.
No entramos ahora a discutir cómo se puede conocer o no, el caso es que sea conocida o
desconocida.
Estehechoesmuyimportanteyaqueafectaráalmodeloteóricodeprobabilidadesal
queseajustaráladistribuciónmuestralquevamosautilizaryalaecuacióndesuerrortípico.
Concretamente:
> EnelcasodequelavarianzapoblacionaldelaVDseaconocida,ladistribuciónmuestral
delamediasigueelmodelodelanormalestándar,laN ( 0 ; 1 ).
ો
Entoncesestadistribuciónmuestralsedefinecomo:൫ρǢ ɐଶଡ଼ഥ ൯ ՜ ۼቀૄǢ ቁ
ܖ
> EncambiosidichavarianzapoblacionaldelaVDesdesconocida,ladistribuciónmuestral
delamediasigueelmodelodeunatdeStudentconͳgradosdelibertad(siendoel
tamañodelamuestra).
܁
Entoncesestadistribuciónmuestralsedefinecomo: ୬ିଵ ൫ρǢ ɐଶଡ଼ഥ ൯ ՜ ିܖ ܜ ቀૄǢ ቁ
ܖ
Convienellamarlaatenciónsobreelcambioquesufrelaecuacióndelavarianzadela
distribuciónmuestral(ɐଶଡ଼ഥ ).Enelprimercaso,dadoquelavarianzapoblacionalV2esconocida,
se utiliza para calcular la variabilidad del modelo. En el segundo caso, obviamente al ser
desconocidanotenemossuvalor,porloquesesustituyeporsuestimadorଶ muestral.
Enlacotidianarealidaddelainvestigaciónnoesfrecuentequeseconozcalavarianza
poblacional en cuestión (está claro que una “cosa” es la docencia y los exámenes de
Universidadyotramuydiferente,investigar).Dehecho,porlogeneral,sedesconocentodos
losparámetros(enlaVDmedida)delapoblacióndeinterés,loqueparanuestrocasoconcreto
implicausarlacitadaିܖ ܜ
Noobstante,recuérdesequeladeStudentsehacemuysemejantealaN ( 0 ; 1 )desde
los 30 g.l., y prácticamente son iguales a partir de los 120 g.l. (repasar si es necesario las
páginas171Ͳ172)demaneraqueladiferenciarealentreusarunauotravariedadseaprecia
solamenteenloquepodríamosllamarmuestraspequeñas(൏30).
Unejemploresueltoempleandounodeestosmodelosdedistribuciónmuestraldelamedia
sepuedeencontrarenlapágina237cuandoenelapartado13.2sepresentanlasinferenciassobreel
parámetroP.Sinembargo,norecomiendoallectorquesaltehastaallíporqueaúnnecesitaunbuen
númerodeconceptosteóricosparapodercomprenderdichoejemplo.
2. DistribuciónmuestraldelaproporciónS
Este modelo teórico contiene a los infinitos valores de proporciones muestrales ()
estimadoras del parámetro S, que se habrían observado en infinitas muestras idénticas en
condicionesytamañoextraídasdeunamismapoblación.
Comoenelcasoanterior,lamediadeestasinfinitasseráigualalparámetroSquese
pretendeinferir.
Antes de seguir es necesario advertir que para la utilización de esta distribución
muestral, se precisa una variable de tipo categórico y preferentemente dicotómica o
dicotomizable. Al respecto es importante dejar constancia de que el parámetro S es
totalmente equivalente a una media P. Las Matemáticas son las que demuestran que las
variablesdicotómicassiguenunmodelodetipoBinomial(concódigos0y1;0parael“no”y1
para el “sí”) en el que su media es la proporción. Por tanto, pensar en el S de una variable
dicotómicaeslomismoquepensarenlamediaPdeunavariablecuantitativa.
Porelloelmodelodedistribuciónmuestraldelaproporciónesmuysimilaralmodelo
de la distribución muestral de la media. La única diferencia es que solamente se necesita 1
variante:laquesigueelmodeloN ( 0 ; 1 ).
ܘሺିܘሻ
Portanto,estadistribuciónmuestralsedefinecomo:൫ɎǢ ɐଶ୮ ൯ ՜ ۼቀૈǢ ቁ
ܖ
dondepySsecorrespondenconlaproporcióndelacategoríadeinterésenlavariable.
Un ejemplo resuelto empleando este modelo de distribución muestral de la proporción se
puedeencontrarenlapágina241cuandoenelapartado13.3sepresentanlasinferenciassobreel
parámetroS.Porlamismarazónanteriortampocorecomiendoallectorquesalteahorahastaallí,
sinoquesigaleyendoycuandollegueaesosejemplos,regreseaquíarecordarestemodelo.
Finalmente, se incluye un tercer ejemplo de distribución muestral, el de la varianza, con la
intencióndequeelestudiantesedecuentadequeaunquelovistoenlasdosanterioresescasiuna
reglageneral,tambiénhayexcepciones.Ymuyllamativas.
3. DistribuciónmuestraldelavarianzaV2
Comoseacabadeexponer,laúnicarazónparaincluiraquíyahoraaestadistribución
muestralesquesetratadeunaexcepciónalanorma.
Para comenzar el estimador adecuado para este parámetro no es la varianza
descriptiva de la muestra; sino algo muy parecido que se denomina cuasiͲvarianza. Si
repasamoselconceptodevarianza(página126)recordaremosquesetratadeunamedia,de
unpromedio;razónporlacual,sucálculoserealizadividiendounasumaporeldecasosde
la muestra. Pues bien, la cuasiͲvarianza es casi lo mismo, la diferencia es que al hacer ese
promediosedivideporͳ.Porelloesfrecuentequesialavarianzaselarepresentaconel
conocidosímbolo܁ ,alacuasiͲvarianzaselarepresenteconିܖ܁
La causa de este cambio, se explica posteriormente en el apartado 11.1 del próximo
Temaqueestamosapuntodecomenzar.
La consecuencia es que la distribución muestral de la varianza, no contiene a los
infinitosvaloresdelasvarianzasmuestrales ଶ ,sinoquecontienealosinfinitosvaloresdelas
ଶ
cuasiͲvarianzas ୬ିଵ halladas en las infinitas muestras, idénticas en condiciones, extraídas de
unamismapoblación.
Por lo que el parámetro V2 sobre el que se pretenden realizar las inferencias será la
ଶ
mediaaritméticadeestasinfinitascuasiͲvarianzas୬ିଵ muestrales.
Ysiguiendoconlaexcepción,ladefinicióndeestadistribuciónmuestralnorequierede
tanta información como las dos anteriores. En la mayoría de los manuales especializados se
limitanacitarquesigueelmodelo:inversodeJiͲcuadradoconn1g.l.,sinespecificarnada
más,nisiquieracómoeslaecuacióndesuerrortípico.
Desde luego, aunque la varianza como tal es un parámetro clave en muchas técnicas
estadísticas, el uso de este modelo de distribución muestral es muy poco frecuente en la práctica
real,dehechoSPSSnocontieneningunarutinaquelaaplique.
Pero en cambio, el propio SPSS al realizar sus cálculos en los menús descriptivos de la
muestra, genera como valor de varianza a la cuasiͲvarianza sin advertir de ello. Queda aquí
constanciaportanto:enSPSSdondedicevarianza,enrealidaddebíadedecircuasiͲvarianza,pueses
éste el valor que ofrece. Este hecho apenas tiene trascendencia, pues promediar por o por ͳ
apenas se aprecia si el tamaño de muestra es relativamente grande (más de 30 como siempre); al
lectornolecuestanadainventarunvalordeunsumatoriodepuntuaciones(porejemplo:2053)y
dividirloporambasopciones(porejemplo:por=95ypor1=94)paraverlasemejanzadeambos
resultados.PoresoSPSScalculalacuasiͲvarianzaqueesunmejorestimadordelparámetro.
Tema 11
LA ESTIMACIÓN
DE PARÁMETROS
11.1.ͲPropiedadesdeunbuenestimador
11.2.ͲEstimaciónpuntual
11.3.ͲEstimaciónintervalar
Elobjetivomássimpleyobviodelainferenciaestadísticaeslaestimacióndel
valor de un parámetro (ver páginas 183Ͳ184). Dicha estimación, como se recordará, sólo se puede
plantear desde la perspectiva de una técnica paramétrica. Y el desarrollo metodológico de este
objetivovaaserlaprimeraaplicaciónprácticadelconceptodedistribuciónmuestralenelquenos
hemoscentradoenelTemaanterior.
Peroantesdecomenzar,hemosdeadvertirquenotodoslosestadísticosdescriptivosson
buenosestimadoresdesuparámetro.Dehecho,solosonbuenosestimadoresaquellosqueverifican
lassiguientespropiedades:
a) serinsesgado;
b) serconsistente;y
c) serlomáseficienteposible.
El presente apartado está dedicado a comentarlas someramente ya que los estimadores
máshabitualescomolamedia,laproporción,etc…,lascumplensobradamente.Yellossonlosque
vamos a utilizar en la mayoría de las técnicas inferenciales paramétricas que se encuentran en el
restodelmanual.Poresoesteapartadoesunbreveapunteteóricomásquenada.
a) Decimosqueunestimadoresinsesgado,otambiénqueesnotendencioso,cuandoseverifica
querealmentesuesperanzamatemáticaesigualalvalordelparámetro,talycomoseafirmaba
en la definición de las propiedades de una distribución muestral (ver página 188). Así, por
ejemplo:
> La ഥesunestimadorinsesgadodeP,puestoquesecumpleque: ሺ ഥሻ ൌ ρ ,esdecirquela
media de las infinitas medias estimadoras incluidas en todas y cada una de las
distribucionesmuestralesquepuedanexistir,esigualalvalordelparámetroP.
> Y lo mismo ocurre con la proporción, que por tanto también es insesgado, puesto que
cumplequeሺሻ ൌ Ɏ
> Pero no ocurre con la varianza; la varianza (la que se promedia por ) es un estimador
sesgado del parámetro V2, ya que la media aritmética de los infinitos valores de ܁ es
ligeramente distinta del valor del parámetro: ሺଶ ሻ ɐଶ . Esta es la razón teórica de la
existencia de la cuasiͲvarianza y de todo lo que se comentó en las páginas 191Ͳ192 al
presentarladistribuciónmuestralparalaV2.Yenconsecuencia,eslacuasiͲvarianzalaque
eselestimadorinsesgadodelavarianzaporque:൫ଶ ൯ ൌ ɐଶ .
b) Decimosqueunestimadoresconsistente,siamedidaqueeltamañodemuestraaumenta(es
decircuando:of ),suvalorseaproximaaldelparámetro;cuestiónquetambiénprovocaque
lavarianzadesudistribuciónmuestraltiendaacero.
Portantoenellímitedeestapropiedad(con ൌ f ),elestimadoryelparámetroseríaniguales
envalor(yelerrortípicoseríaigualacero).Algoqueesobvio,puestoqueenestesupuestocaso
deunamuestraconൌfestaríamostomandocomomuestraalapoblacióncompleta,luegoel
estadístico que se calcularía, en realidad, sería el parámetro mismo. La propiedad entonces,
hace referencia a la reducción de la distancia entre el valor de un estadístico cualquiera
pertenecienteaunadistribuciónmuestralysumedia(suparámetro)queseasociaalaumento
deltamañodelamuestra.
Aestadiferenciaentreelvalordelestadísticoydelparámetro,seladenominaerrormuestral
(aleatorio)yselesimbolizaconઽ.Luego,elestimadoresconsistentesi:cuandoof,elɂoͲ;
aunque el concepto de error muestral es algo teórico que nunca podremos conocer
empíricamente,pueselloimplicaríateneryaelvalordelparámetro.
Porotraparte,aunqueestasdospropiedadesyacomentadastienenciertarelación,notodoslos
estadísticosquesonconsistentessonnecesariamenteinsesgados.Antesvimoscomolamedia,
laproporciónylacuasiͲvarianzasoninsesgados;yademáshayqueañadirquesonconsistentes.
Yencambio,lavarianzaqueesunestimadorsesgadoes,sinembargo,consistente.
Laconsistenciadelestimadortambién serelacionaconlaeficiencia;tercerapropiedadquese
defineacontinuación
c) Decimosqueunestimadoresmáseficientecuantomenorsealavariabilidaddesudistribución
muestral.Elloobviamenteserelacionaconeltamañodemuestra.Comohemosvistoantesa
mayor (además de la consistencia) menor error típico en la distribución muestral, por tanto
menosvariabilidadymáseficiencia.
y ܂
En esta línea, si tenemos dos estadísticos ܂ (usando el símbolo general citado en el
apartado10.2)estimadoresdeunmismoparámetroT,serámáseficienteaquelcuyavarianza
deladistribuciónmuestralseamenor envalor.Es decir que,diremosque ܂ esmáseficiente
que܂ siempreque:ો܂ ൏ ો܂ .
Deestapropiedadsederivaelconceptodeeficienciarelativa()queeselcocienteentrelas
varianzasdeambasdistribucionesmuestrales:ો܂ Ȁો܂ estando,porlogeneral,enelnumerador
delcocienteanterior,elestimadormáseficiente.EnlamayoríadeloscasosestaEResunvalor
conocidoyconstante.
Quizá lo más interesante de esta ER es que de ella se deriva, claramente, el concepto de
potenciaͲeficiencia entre dos técnicas inferenciales del que hablábamos en la página 186. La
ideaesbásicamentelamisma,perocomparandotécnicasalternativasenvezdeestimadores.
En definitiva y resumiendo, que un buen estimador debe ser: insesgado, consistente y
eficiente.Únicamentecuandoelloocurra,estaremosenlasituaciónóptimaparaestimarelvalorde
un parámetro. Proceso de estimación para el cual, a priori, hay 2 opciones posibles aunque en la
realidadsolamenteseutilizaunadeellas.Enseguidalovemos.
11.2.- Estimac
ción puntu
ual
Este es un procedimiento absolutaamente sencillo a la paar que obvio. Sin
embargo,escasiimposiblequeseaalcanceconéélunaelevad
daprobabilid
daddeaciertto.
Commolasegund dapalabraddesunombrreindica,consisteen:assignarlealp parámetro1 único
valor,esdecirunsoloppuntodelconntinuodevalloresposible esenlavariable.Deahíloodepuntal.
Tammbiénseled denominaPrrocedimiento odeMáxim maVerosimiliitudpuesto quesebasaaenel
hechoquettienelamayorprobabilid daddeocurrrencia,estoe es,enlomássprobableoverosímil.
Y este
e suceso más probab ble al que se
s hace refe erencia, es que estadístico y parám metro
e valor; eso sí siemprre que el citado estadísstico cumplaa con todass las propiedades
coincidan en
necesariasp paraserunbbuenestimad doryqueyasehancomentadoenelapartadoanterior.
Encconsecuenciayresumien ndo,laestim
maciónpuntualconsiste enasignarllealparámeetroel
valor de su o estimadorr. Así, tomando datos de
u estadístico d cualquierra de los ejjemplos resu ueltos
anteriores, pongamos ele número 8
8 (páginas 18 o tenemos que la media de la
83 y siguienttes), cuando
muestradee160universsitariosenlaavariablegaastoenespaarcimientoees42,48€decimosquelo omás
probableessqueP=42,4 dehacerunaestimaciónpuntual.
48€.Yyaestáá.Seacabad
Para que esto sea posiblee, es evidennte que la muestra deebe ser representativa de la
poblaciónyysuficientem mentegrandee,quelavarriablesehayyamedidoconfiabilidad d,queloscáálculos
sehayanrealizadosineerror(SPSSenunagaranttía)yqueele estimadorussadoseaelaadecuado.
Cummplido todo esto, obviaamente y coomo ya decííamos arribaa, se trata dde un métod do de
estimación muyrápido,,concretoy muypreciso o.Peroquellevaasociad daunaprobaabilidaddeacierto
quees,necesariamentee,reducida;eestosepued deintuireneelsiguienteggráficosinneecesidaddehacer
ningúncálculo:
ሺTǢ࣌ࢀ ሻ
=T
Yesloquehacequeestosearealmenteunproblemaesqueestaprobabilidaddeocurrencia
de la que estamos hablando equivale a una probabilidad de acierto. Esta es una idea general, la
probabilidad de certeza de una afirmación es la misma que su probabilidad de ocurrencia: la
probabilidad de acierto cuando se pronostica que mañana llueve, es la probabilidad real de que
mañanallueva.Portanto,esteáreadeladistribuciónmuestralqueindicalaigualdaddevalorentre
estadísticoyparámetro,eslaprobabilidaddeaciertoqueconseguimosconunaestimaciónpuntual.
Por esta razón no estamos ante un procedimiento muy utilizado, salvo cuando se esté
trabajando con muestras cuyo tamaño sea enorme (varios miles); por ejemplo, se suelen realizar
estimaciones puntuales en las encuestas de opinión, de intención de voto, etc..., que realizan
empresasespecializadasydondehabitualmentesehatenidoaccesoalamedicióndelavariableen
milesdesujetos.Estimacionespuntalesson,entonces,esasquevemosenprensaytelevisión,enlas
quedicencosascomo:elpartidoXaventajaalpartidoHen“p”puntosenintencióndevoto,elj%de
losespañolesafirmanconoceruncasodeviolenciadoméstica,laincidenciadelaesquizofreniaenla
poblaciónespañolaesdetanto,etc…
En el resto de casos que son la inmensa mayoría de las investigaciones que hacen
profesionales de la Psicología, de la Medicina, de la Biología,…, o equipos de profesores
universitarios, estamos obligados a utilizar el método que veremos a continuación en el que se
renunciaalaprecisióndelaestimaciónmedianteunvalorúnicoyconcretoparaganarprobabilidad
deacierto.
Noseríacorrectopensarqueestatécnicacontradicealaanterior.Paranadaesasí,puesto
queprecisamentepartedelaafirmacióndelaestimaciónpuntualanterior.Elvalormásprobabledel
parámetrosiguesiendoeldesuestimadoradecuado,yapartirdeélsedeterminanquéotrosvalores
tienen mayor probabilidad de aparecer y se va formando con todos ellos un intervalo añadiendo
valores hasta que la suma de todas esas probabilidades equivalga a la probabilidad de acierto
deseadaporelinvestigador.
Esdecirquepartiendodelvalormásprobable,eldelestimadorpuntual(pongámonosenel
ejemplo anterior con la media redondeada a 42€ para que sea más fácil entender la idea), se van
añadiendovaloresinmediatamenteadyacentesalmismo,deformasimétrica,porarribayporabajo,
(ennuestrocaso:41y43;luego40y44,luego39y45,etc…)cuyasprobabilidadessevanuniendoa
la de la estimación puntual hasta que entre todos los valores con los que se ha ido formando el
intervalotenganunaprobabilidadtotaligualalaprobabilidaddeaciertofijadaapriori:
41,5 42 42,5 41 42 43 40 42 44
En el gráfico superior se aprecia cómo, partiendo de la estimación puntual, se va
aumentandolasuperficiecorrespondientealaprobabilidaddeocurrencia(quevaaserequivalente
aladeacierto)amedidaquesevaampliandoelintervaloparaelparámetro(elúltimoindicadoes:
40чPч44peropodríasercualquierotro,estosvaloressonmerosejemplosparaqueseentiendael
mecanismo). El procedimiento se detiene cuando el conjunto de valores del intervalo alcanza la
probabilidaddeseada.
Normalmenteestaprobabilidaddeaciertoesdel95%omás,porloqueenesesentidoeste
métodoesmucho mejor que elanterior;sinembargo,elloirremediablemente nosha conducidoa
unapérdidadeprecisiónoexactitudenelpronóstico(noeslomismodecirqueelparámetrovale42
quedecirqueescualquiervalordentrodelintervalode40a44,odelintervalo3846).
Estemétodotienesupropiolenguajequeesimprescindiblemanejarfluidamente:
> elintervaloasíconstruidosedenominaintervalodeconfianza()
> ysuspuntoslímites,sonloslímitesconfidencialessuperior(
)einferior(
);
> a la probabilidad de acierto, la llamamos coeficiente de confianza (
) y su valor está
predeterminadoporlavoluntaddelinvestigador;
> yasucomplementariaprobabilidaddeerror,selaconocecomoniveldeconfianza(
)que
suele venir representada con el símbolo D (también, aunque menos frecuentemente, se le
llamanivelderiesgo).
Enelgráficoquesigueaparecenrepresentadostodosellos:
1D
DȀʹ D Ȁʹ
La distribución que aparece en el gráfico, es la distribución muestral correspondiente al
parámetro que se desea estimar, luego, los valores incluidos dentro de un pertenecen a
unadistribuciónmuestraldefinidasegúnloestudiadoenelTemaanterior.
െઽ
ઽܠۻ ઽܠۻ
dondetambiénseapreciaqu ueladistanciaentreamb boslímitesconfidencialees(laamplitu uddel)ess
equivvalentea2erroresmáxim mos.
Laimporttanciadelvaalordelerrorrmáximoessqueeselinndicadorde laprecisión logradaporr
uninntervalodecconfianza.Peero,¡cuidadoo!queseintterpretaalaainversa,pu
uescuantom menorseaell
valordelɂ୶ (en
nfuncióndee1Dydeleerrortípico) mayorserá laexactitud delaestimaaciónyaquee
elintervaloestaráámáscerrad
doentornoaalestimadorrpuntual.
Ydadoqu delerrortípicco(ɐ )esfuncióndeltamañodem
ueelvalord muestra,esffácildeducirr
quep
paraunmism
mocoeficienttedeconfian nza(
ሻprevviamentefijaado:
՛ ֜՝ ɐୣୱ୲୧୧୫ୟୢ୭୰ ֜ ՝ ɂ୶ ൌ ՛
×
Elcálculodetodoestoaunqueesunatareamuysimplepararealizarlademodomanualcon
calculadoracomosededucedelaecuaciónincluidaantes,sepuedeencomendaraSPSSenmuchos
casos.Sinembargo,comoqueyaseavisó,laestimaciónnoesnimuchomenoslomásinteresantede
lainferenciaestadística,porloqueelcitadosoftwarenotieneunarutinaespecíficaparaello.
Laestimacióndeparámetrosueleserunainformaciónañadidaqueacompañaaotrotipode
inferencias, normalmente vinculadas al contraste de hipótesis. Por esta razón, los aparecen de
forma automática en SPSS cuando se ejecutan los menús que realizan determinadas técnicas
inferencialesdetipoparamétricoyqueconcretamentesonlasqueestudiamosalolargodelpróximo
Capítulo5,dondeloscomentaremosamedidaquevayanapareciendo.
NoobstanteparaelcasodelparámetromediaPdeunavariablecuantitativa,seguramente
porserelparámetrodemayoruso,SPSStieneunafunciónquepodríamosdecirqueocupaunlugar
intermedio entre la pura descriptiva y la inferencia, ya que incluye estadísticos descriptivos
habituales(media,desviacióntípica,asimetría,curtosis,gráficodecaja,…)juntoaldelamediay
algunaotraherramientasdetipoinferencialqueenestosmomentosaúnnopodemoscomentar.
SetratadelafunciónEXPLORAR.AellaseaccedeconlarutadeSPSSͲ15:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖEXPLORAR
obien,sisehacreadounabarrarápidadeTécnicasEstadísticaspulsandoenelbotón:
Veamos su uso con el ejemplo de la variable gastos semanales en esparcimiento de la
poblaciónuniversitaria,quehemosutilizadoanteriormenteenvariasocasiones.
Ejemplo14
Entre los objetivos que se plantea el investigador, se pretende saber cuál será
la media del gasto semanal en esparcimiento de la población universitaria con una confianza del 95%.
Siguiendoestarutaparaentrarenlafunciónarribacitadaseabreelcuadrodediálogoquese
incluyeacontinuación.Enél,dellistadodevariablesexistentesenlabasededatos,seseleccionala
variablequesedeseaanalizar(enestecaso:gasto)ysetrasladaalacasilladondediceDependientes.
Hay otra serie de botones y de acciones interesantes que iremos comentando
posteriormente;perodemomentoconestesimplehechodeindicarlavariableaestudiar,bastapara
queaparezcalaestimaciónqueestamosbuscando.Asíquehaciendoclicen Aceptar yaseobtendría
unatabladeresultadosdondeademásdelosdescriptivos,diagramadecajaincluido,apareceel
para la media al 95%. A continuación se incluye dicha tabla y el diagrama de caja que, se puede
comparar,coincideconelqueaparecióenlapágina138.
Des
scriptivos
Como se puede ver en la tablaa de resultados, a partiir del estimador ܆ ഥ=42,448€, en unaa
distribución mueestral de la media
m con error
e típico: ɐଡ଼ഥ ൌ ͲǡͺͶ͵ se ha calculado un inteervalo cuyoss
límitees confidencciales son: 40,81€
4 y 44,14€. Es decir que la esttimación reaalizada predice con altaa
probaabilidad de acierto que “la media del gasto seemanal en esparcimient
e to de esta población
p dee
univeersitariosseráunvalorco omprendidoentre40,81€ €y44,14€co onunaconfia anzadel95% %”:
ͶͲǡͺͳ̀ ρୟୱ୲୭ ͶͶǡͳͶ̀൧
ͻͷΨǣൣͶ
Paraacab
barderemattarlacomprrensióndecó ómofuncion naunaestimmaciónintervvalar,resultaa
muysencillocom mprobar:
1) quueelerrortíípicodeladistribuciónmmuestralde lamediaquesehautilizzadoparaco onstruirestee
intervaloyqueapareceen nlatabladeresultados((0,843)sehaaobtenidocoon:lavarianza(113,584))
y eltamañod delamuestraa(ൌ160,sincontarcon nlosvaloressoutlierscom
mentadosen nelejemploo
deelapágina139)introduccidosenlaeccuaciónquesecitaenlapágina190:
ଶ ଶ ͳͳ͵ǡͷͺͶ
Ͷ
ɐଶଡ଼ഥ ൌ ֜ ɐଡ଼ഥ ൌ ඨ ൌ ඨ ൌ ͲǡͺͶ͵
ͳͲ
2) quueparalaco onfianzadel 95%,aunquueenrigorh habríaqueemplearuna “”deStude ent,suvalorr
seeríatotalmen nteequivalentealaanteescitada: ൌ േͳǡͻ(laaproximació ónde“”deStudentalaa
delanormalsebasaeneltamañoൌ160;repassarpáginas1 171Ͳ172).
3) poorloqueeleerrormáximooparaeste995%,es:ɂ୶୶ ൌ ȉ ɐଡ଼ഥ ൌ േͳǡͻ ȉ ͲǡͺͶͶ͵ ൌ ͳǡͷ
4) quuesumadoyyrestadoaleestimador(ͶʹǡͶͺ)nosllevvaaloslímittesindicadossenel.
Gráficamente:
Ƚൗ ൌ ǡͲʹͷ Ƚൗ ൌ ǡͲʹͷ
ʹ ʹ
ͳDൌǡͻ
ͻͷ
3)
N(P;0,843
N(P;,8433)
42,48
40,81 44,14
N(0;1
1)
1,96 1,96
6
Aunquessetratedeleejemplodeuunamedia,e
elprocedimieentoeselm
mismoconcuualquierotro
o
parám
metro;empleando,porssupuesto,lassecuaciones adecuadasaacadaunod
deloscasos.
La función EXPLORAR de SPSS ofrece varias posibilidades más. Vamos a aprovechar este
momentoparacomentaralgunasdeellas.
Pero,seguramentelamásinteresantedetodaslasopcionesdeestaruta,esquenospermite
comparar los resultados de este análisis entre las categorías de una segunda variable que hace las
funcionesdeunavariableindependiente.Comoseacabadedecir,éstadebesernecesariamenteuna
variablecategórica,bienseadeorigencualitativoobienseaunacategorizaciónsubjetivarealizada
porelinvestigadorapartirdeunamedidanumérica.
Vamosaverlaconelsiguienteejemplo.
Ejemplo15
Se pretende comparar entre varones y mujeres las medias del gasto efectuado
en esparcimiento por esta población universitaria.
Paraelloprocedemosexactamentecomoantes,esdecirseguimoslaruta:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖEXPLORARosubotón:
yenelcuadrodediálogoqueseabre,mantenemosalavariablegastoenlacasillaDependientese
introducimoslavariablecuyascategoríasqueremoscomparar(esdecirsexo)enlacasillaFactores,
talycomoseapreciaenlaimageninferior:
Con esto es suficiente para obtener resultados como los anteriores, pero para varones y
mujeres por separado. Así que terminando con Aceptar aparece la tabla que viene a continuación.
Dicha tabla ha sido editada por razones de espacio en papel impreso, las tablas originales de SPSS
tienenunformatoverticalenvezdehorizontal,seloadviertoalusuarioparaquenosesorprenda,
cuando ejecute este menú y le aparezca en vertical, pero lógicamente lo importante es la
informaciónnoelformato.
Descriptivos
Sexo
Varón Mujer
Estadístico Error típ. Estadístico Error típ.
Gasto (€) Universit. Media 43,68 1,324 41,59 1,087
en esparcimiento Intervalo de confianza Límite inferior 41,03 39,43
para la media al 95% Límite superior
46,32 43,75
Aunque no merece mucho comentario más, obsérvese como la media del gasto de los
varonesesmayorqueladelasmujeres.Enconcreto:paravaroneslamediaes43,68€conunal
95%entre41,03€y46,32€;mientrasqueparamujereslamediaes41,59€conunentre39,43€y
43,75€.EnposterioresTemasdelCapítulo5,veremoscómosabersiestadiferenciaobservadapuede
llevarnosono,alaconclusióndequelosvaronesdeestapoblaciónuniversitariarealmentegastan
másquelasmujeres.
Juntoalosresultadosqueacabamosdecomentar,ellectorpuedecomprobarqueaparecen
todos los demás estadísticos descriptivos habituales: mediana, desviación típica, varianza, etc…, y
que además se incorporan los errores típicos de las distribuciones muestrales de la media, de la
asimetría y de la curtosis. Estos dos últimos son especialmente interesantes, puesto que con ellos
podemos estimar el para estas propiedades que describen la forma de la distribución de la
variablecomounaayudamásparadeterminarsuposibleajustealmodelonormal.
InclusoestafuncióndeSPSSgeneraun
gráficodecajamuyinteresante(queseincluye
aquí al lado) en el que aparecen también por
separado hombres y mujeres. Este gráfico,
aparte de permitirnos ver si hay o no valores
outlierenlasdistintascategoríasdelavariable
de comparación, nos posibilita confrontar la
forma de distribución de los resultados entre
las categorías de dicha variable. En este caso,
seobservaqueenlasmujereshayunamayor
asimetríahacialosvaloresaltos,mientrasque
en los hombres aparece hacia los valores
bajos.
Con todo lo comentado creo que es suficiente para que el estudiante se haya forjado una
idea clara de en qué consiste el objetivo de la estimación de los parámetros de una población, así
como de la forma de realizarla con SPSS y manualmente cuando el programa no faciliteel cálculo.
Porello,podemosdarporterminadoesteTema.
Acontinuaciónvamosaafrontar,sinningunaduda,lapartemásimportantedelaInferencia
estadísticaqueescomodecirdelaEstadísticaensí.Variasvecessehahabladodequealplantearse
unestudiocientíficoelinvestigadorvaaenunciarunaseriedehipótesis(científicas)acordeconsus
objetivos.Ennuestrametodología,laverificacióndelaviabilidaddedichashipótesissellevaacabo
mediante los mecanismos del denominado contraste de hipótesis estadísticas. Las técnicas que
realizanestoscontrastesocupantodoelCapítulo5deestemanual.Perosufundamentaciónteórica,
comúnatodasellas,sevaaabordarenelpróximoTemaquecomienzadeinmediato.
Tema 12
EL CONTRASTE
DE HIPÓTESIS
12.1.ͲContrastedehipótesis
12.2.ͲLoserroresenlatomadedecisionesdelcontrastedehipótesis
12.3.ͲCálculodeltamañomuestralnecesarioparaunainvestigación
Sin negar el interés de la estimación de parámetros, a juicio de muchos
autoresconquienescoincido,latomadedecisionesacercadelashipótesisqueseplanteanenuna
investigación es el argumento central de la inferencia estadística como ya quedó dicho al final del
temaanterior.
Eltérminocontrastedehipótesis(tambiéndenominadopruebadesignificaciónestadística)
hace referencia al proceso metodológico mediante el cual se lleva a cabo la citada toma de
decisiones.
Parece lógico que comencemos por responder a una cuestión de base: ¿qué es una
hipótesis? Etimológicamente hipótesis proviene del griego, concretamente: de thesis (“lo que se
pone”) y de hipo (partícula que significa “debajo”); por tanto, hipótesis es, literalmente, “lo que se
ponedebajo”esdecir“loquesesupone”.Poresoentérminosgenerales,unahipótesisescualquier
supuesto, que aventura una solución provisional (porque aún no se ha verificado) para un
determinadoproblemaquehasidodetectadoporelinvestigador.
Ymásconcretamente:
Una hipótesis científica es una propuesta coherente y empíricamente
comprobablequeseenunciacomotentativadesoluciónparaunfenómenoohecho
problemático.
Apartedelacoherencia,elmatiz“empíricamentecomprobable”esclaveparaelconcepto:
> Diosexiste,esunahipótesis(salvoparaloscreyentesdealgunareligión,contodomirespeto);
> ExistevidainteligentefueradelaTierra,tambiénesunahipótesis(salvoparaloscreyentesen
cuestionescomoelfenómenoOVNIylasvisitasdeextraterrestresytodoeso);
pero,ningunadeellassonhipótesisdecaráctercientífico,porqueesobvioqueactualmentenoson
comprobablesporvíaempírica.
Encambio:
> EltiempodereacciónanteelestímuloHesmayorenpersonasquepadecenlapatologíaKque
enaquellasquenolapadecen;
> EnlasmujeresdelapoblaciónX:amayorinsatisfacciónsobreciertaspartesdesucuerpo,menos
interésenestablecerrelacionespersonaleseíntimasconlosdemás;
son hipótesis científicas aunque estén muy simplificadas en su enunciado para que sean ejemplos
fácilesdeentender,puestoquedejanclaralaposibilidaddeidearprocedimientosempíricosparasu
verificaciónyaquenoesnadacomplicadoextraermuestrasdesujetosimplicadosencadacuestióny
medirlasvariablesqueaparecenpara,posteriormente,utilizarunametodologíaestadística.
Porotroladoladefiniciónanterior,sepuedecomprobarenestosmismosejemplos,implica
que la hipótesis científica es un enunciado que expresa una afirmación o una negación sobre la
realidad que rodea al fenómenoͲproblema observado y que ha motivado la investigación.
Circunstancialmentesepuedeenunciarenformacondicional(“si…entonces…”)aunqueenelámbito
de las Ciencias Humanas no es muy frecuente, pues ello implicaría una causalidad entre variables
difícildedemostrarenestasáreasdelconocimiento.
Pero no podemos afirmar que absolutamente todas las hipótesis científicas pueden ser
objetodeunainferenciaestadística.Paraellosenecesitaquesuenunciadopermitalautilizaciónde
unametodologíaestadística.EnestalíneayconcretandoparaelcampodelaPsicologíaqueeselque
noscompeteenestamanual:
Consideramos como hipótesis a todo supuesto acerca del comportamiento
de los sujetos de una población (o más) en una o más variables que puedan ser
directamentemediblesenmuestrasdedichosindividuos.
Esdecir,queestamoshablandodeplantear:
a) unsupuestoacercadeunoomásparámetrosdeunaomáspoblaciones;o
b) unsupuestosobreladistribucióndelasvariablesenlaspoblaciones.
Losdosejemplosdelapáginaanteriorcumplenperfectamenteconestadefiniciónqueacaba
deaparecer.Enelprimero,estáninvolucradoslosparámetrosmedia(P)delaspoblacionesconysin
una determinada patología en la variable tiempo de reacción ante un estímulo concreto. En el
segundo, la solución vendría dada a través de un parámetro, la correlación (U ) que aún no ha
aparecido en las páginas anteriores (se describe por primera vez en el apartado 14.1) pero que
estudialaasociaciónentredosvariables,insatisfaccióncorporalyrelacionespersonalesenestecaso,
que se habrían medido en personas de cierta población. Y podemos incluir un tercero, más simple
aún: más del 80% de las mujeres que sufren algún tipo de maltrato, físico o psicológico, presentan
baja autoestima personal, que se refiere al valor del parámetro proporción (S) de las mujeres de
ciertapoblación(lasmaltratadas)enlavariableautoestima.
La demostrada presencia de al menos 1 parámetro en todas estas hipótesis, nos lleva a
concluir que la toma de decisión al respecto, vendría facilitada por la aplicación de una técnica de
análisisestadísticoinferencialdelgrupodelasparamétricas(repasarpáginas183Ͳ184).
Al respecto de la otra posibilidad citada arriba podríamos plantear como ejemplos de
hipótesissobrelaformadelasvariables:
> El rendimiento académico de los estudiantes de secundaria españoles, se distribuye siguiendo
unacurvanormalgaussiana;
> El grado de estrés de la población de profesores de ciclo medio y superior presenta una
distribuciónconunaclaraasimetríanegativa(hacialaderecha).
En estos casos, la no aparición de un parámetro concreto en el enunciado de la hipótesis
implica la necesidad de emplear una técnica inferencial del grupo de las no paramétricas (ver de
nuevolaspáginas183Ͳ184).
Comoelprimerodeestoscasos,yconél,elempleodelastécnicasparamétricas,eselmás
común,elrestodeesteTemaydetodoelCapítulo5sevaaenfocarprioritariamentedesdelaóptica
dedichastécnicas.Cuandoseaprecisoseharáreferenciaalaspruebasdetiponoparamétrico.
Fijadoelconceptodehipótesisesnecesariocomentarya,amododebreveintroducciónque:
El denominado contraste de hipótesis es un procedimiento estadístico
basado en el método científico, en el que una hipótesis (científica) planteada sobre
una o más poblaciones y formulada en términos estadísticos, es comparada con los
datos muestrales o empíricos para determinar si es compatible o no con ellos y, de
estamanera,utilizandoelcálculode probabilidadesdecidirsipuedeseraceptadao
porelcontrariodebeserrechazada.
En esta definición, creo que es muy importante destacar tres aspectos que relacionan con
claridad al contraste de hipótesis con el camino establecido por el procedimiento del método
científico(verpágina20):
1º.Ͳseplanteanlashipótesis,
2º.Ͳsebuscanevidenciasempíricasquelasadmitanoquelasrefuten,y
3º.Ͳsetomaladecisiónqueseconsideraqueeslamásadecuada.
Por ello, el procedimiento metodológico de un contraste estadístico de hipótesis se
desarrollaen4pasosconfiguradosen2partes:
1.ͲEnunciadooperativodelahipótesiscientífica
>Parteteóricao
2.ͲConversiónenhipótesisestadística:formulacióndelcontraste
3.ͲComparacióndelosdatosempíricosconlahipótesisestadística
>Parteempíricao
4.ͲTomadedecisión
quesedesarrollansecuencialmente:
Hipótesis Hipótesis Comparación Tomade
científica estadística datosl hipótesis decisión
Los dos primeros pasos se constituyen en una parte teórica en el sentido de que para
llevarlosacabo,elinvestigadorsimplementesetieneque“sentarapensar”.Esdecirquebastacon
que tenga un conocimiento profundo acerca del fenómenoͲproblema que estudia y una clara idea
sobrecómosolucionarlo.Yqueconozcalosmecanismosdeformulacióndelashipótesiscientíficasy
estadísticas. Estaúltima cuestiónnosllevaalhechode que hay unadiferenciaentreellas,esdecir
quenoeslomismounahipótesisestadísticaqueunacientífica;alrespectovolveremosdeinmediato
enlaspróximaspáginas.
Losotrosdospasosformanlaparteempíricaenelsentidodequesenecesitandatosreales
tomados en muestras de individuos. Esto conlleva que el investigador tiene que “salir a trabajar”
puesto que necesita seleccionar una muestra de la población y utilizar en ella los instrumentos de
medida necesarios para la obtención de los datos de las variables implicadas en la hipótesis. Sin
dichosdatos,nosepodríanemplearnilasherramientasdescriptivasnilastécnicasinferencialesque
son imprescindibles para llegar hasta la toma de decisiones final, a través de la cual se pretende
admitir o rechazar a la hipótesis científica como solución válida para el problema inicialmente
planteado.
Acontinuaciónestudiaremoscontododetallecadaunadeestaspartesypasos.
Enesteprimerpaso,elinvestigadorseenfrentaalenunciadooperativodela
hipótesiscientífica.Ellasederivadirectamentedelobjetivoquejustificalainvestigaciónyseplantea
demaneratalqueindiqueclaramentelasoluciónalproblemaplanteado.
Así, partiendo del correspondiente “corpus” o Teoría Psicológica, o del resultado de
investigaciones anteriores, o de la propia experiencia, o incluso de un “golpe de inspiración” o de
“suerte” o de “casualidad” (serendipity), se redacta la hipótesis científica como una afirmación (o
unanegación)queseadirectamenteverificabledentrodeunmarcoperfectamentedefinido.
Portanto,esnecesarioqueseincluyaenesteenunciado:
> alconstructoteóricoqueseestudia,
> alinstrumentodemedidautilizadoparageneraralavariable(losdatos),
> alapoblaciónafectada,
> yporsupuestoalasoluciónpropuestaparaelproblema;
todo redactado de forma tan específica que permita y facilite a cualquier otro investigador la
posibilidaddereplicarelexperimento.
De la hipótesis científica podemos decir que muestra algún aspecto de la realidad y que
constituye la base para la formulación de la futura hipótesis estadística. También podríamos decir
entoncesquelahipótesiscientíficaesunamaneradeconcretarelobjetivoparaelquesellevaacabo
elestudiocientífico.
Tomemosunejemploconelqueseguiremoslaexplicacióndetodaestapartedelateoría:
Ejemplo16
Un investigador desea comprobar si es cierto que los universitarios no son una
población que esté intelectualmente más dotada que la población general no universitaria.
Esteseríaelobjetivoydesdeélsepuedeformularunahipótesiscientíficasemejanteaesta:
“La capacidad intelectual general (expresada en CIs) de la población de universitarios
españolesmatriculadosenelpresentecursoacadémicoevaluadamedianteeltestWAISdeFactor
GeneraldeInteligencia,essignificativamentesuperioraladelapoblacióngeneralnouniversitaria
cuyamediaesiguala100”.
Aquíhanaparecido:
> elconstructo(inteligenciageneral),
> elinstrumentodemedidaempleado(testWAIS),
> lavariable(cocienteintelectualestándar:CIs),
> laspoblaciones(universitariosynouniversitarios),
> ylasoluciónalproblema(tenerunnivelderendimientosemejantea…);
portanto,éstaesunahipótesiscientíficaoperativamenteformuladadeformacorrecta.
Enrealidadesta1ªfaseespreviaalaintervencióndelaEstadísticayseencuadramásdentro
delaMetodologíadelaInvestigaciónCientífica.PorelloesunaspectoquelaPsicologíaylasCC.HH.
tienenencomúnconotrasmuchasCiencias,porejemplolasdelaSalud.Unestudiomásprofundo
acercadeestashipótesiscompetealasmateriasdelosMétodosdeInvestigación(verpágina26).
El contraste de hipótesis en sí comienza con la conversión de la anterior
hipótesiscientíficaenunahipótesisdeinvestigaciónestadística.Yaseadvirtióantes(página208)que
aunquesecorrespondenmutuamente,nosonlamismacosa.
La hipótesis estadística es una expresión breve y formal, enunciada
exclusivamentedeformamatemática(esdecirquesóloincluyesímbolosynúmeros)
delcontenidodelahipótesisquesedeseacontrastar.
Másconcretamente,enunahipótesisestadísticasiempreaparecen3elementos:
> unparámetro(enelejemploanteriorseríalamediaPdelapoblaciónuniversitaria),
> unvalornumérico(endichoejemploseríael100quecorrespondealapoblacióngeneral);
> y un signo matemático que expresa una relación de igualdad/desigualdad entre ambos (en
estecasoseráelsignode“mayor”).
Segúnesto,lahipótesiscientíficaanterior,quedecía:
“Lacapacidadintelectualgeneral(expresadaenCIs)delapoblacióndeuniversitariosespañolesmatriculadosenel
presente curso académico y evaluada mediante el test WAIS de Factor General de Inteligencia, es
significativamentesuperioraladelapoblacióngeneralnouniversitariacuyamediaesiguala100”.
seconvierteenlasiguientehipótesisestadística:ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ ͳͲͲ
Antes de seguir es importante saber que entre ambas no existe una correspondencia
biunívoca, es decir que una hipótesis científica puede ser contrastada mediante varias hipótesis
estadísticas (y no 1 sola) enunciadas de diferente forma, e incluso con diferente parámetro. En
nuestrocasotambiéncabeestaposibilidadyporellosehaelegidolaversiónmássencillayadecuada
paraelrestodelapresenteexplicaciónteórica;porloquenovamosacomentar,porahora,otras
formasestadísticasdeabordarestamismahipótesiscientífica.
Por otra parte, conviene advertir que se suele denominar hipótesis de investigación
estadísticaosimplementehipótesisdeinvestigaciónalaverbalizacióndeunahipótesisestadística,
esdeciralalecturadeloquese“dice”,deloquese“haescrito”,endichahipótesis.
Enelejemploquevenimoscomentandolalecturadelahipótesis ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ ͳͲͲsería
esta:“lamediadelcocienteintelectual(eneltestWAIS)delosuniversitarios,esmayora100”;asíde
simple, aunque ésta no sería exactamente lo que hemos llamado hipótesis de investigación (pero
está muy cerca de serlo) debido a un par de cuestiones peculiares del lenguaje estadístico cuyo
misteriodesentrañaremosenbreve.
Paraello,enprimerlugar,debemosdeconocerqueelformatodeloquellamamoscontraste
estadístico se compone de 2 hipótesis estadísticas. Ellas, por definición, son siempre mutuamente
excluyentes:
1) Hipótesisnula(representadacomoͲ);
2) Hipótesisalternativa(simbolizada,generalmente,conͳ).
Ellas son la clave del montaje metodológico del contraste. La correcta comprensión del
significado de cada una es vital para la toma de decisiones y para las posteriores conclusiones. Así
queosruegomáximaconcentraciónenloquevieneacontinuación.
Lahipótesisnula,metodológicamente,eselpuntodepartidadelcontraste;
esdecirͲeslahipótesisacontrastar;siempreaquellasobrelaquesevaatomarla
decisióndelcontrasteestadístico.
Unaequivocaciónmuycomúneshacercoincidiralahipótesiscientíficaconlahipótesisnula,
justoporloqueacabamosdedecir(queeslahipótesisacontrastar).Yestonoesnecesariamente
así; de hecho ni siquiera es lo más frecuente. Más bien al contrario, lo que suele ocurrir
habitualmente es que la hipótesis científica, directamente emanada del objetivo, coincide con la
hipótesisalternativadelcontrasteestadístico.
EnrealidadlaͲ esunaestrategiadelinvestigadorparaprobarodemostrarlaquesueleser
su hipótesis experimental que aparece en la ͳ; y por ello es muy común que en los textos sobre
Estadística,sedigaque:“laͲseplanteaconintencióndeserrechazada”.Pero,paraverificarsiesto
esposiblesecomienzaporsuponerqueescierta.Resumiendo:partiendodelsupuestodequeͲes
cierta,seintentarechazarla(enseguidaloaclaramosconelejemplo).
Desde esta perspectiva, algunos autores, felizmente en mi opinión, han reflejado la semejanza
existenteentrelahipótesisnulaestadística(Ͳ)ylahipótesisdepresuncióndeinocenciaqueamparaa
cualquier ciudadano en un país democrático (“todo detenido es inocente hasta que se demuestre lo
contrario”). En ambos casos se comienza creyendo en su certeza (lo que expresa Ͳ es cierto, o el
detenido es inocente) y es misión del investigador (el científico en un caso, o la policía o el fiscal en el
otro)demostrarlocontrario.Estademostración,necesitadelaexistenciadesólidasevidenciasempíricas
(las pruebas irrefutables que se presentan en el juicio que equivalen en nuestro caso a la información
descriptivaobtenidaenlasmuestras)quepermitanrechazarlarazonadamente.
Desdeunpuntodevistamáscercanoaladocencia/aprendizaje,osiseprefierealaejecución
prácticayconlaintencióndequesealcanceacomprendermejorelsentidodeunahipótesisnula,
es imprescindible decir que la Ͳ expresa siempre una igualdad. De hecho ésta es la razón del
apelativonuladesunombre,queprovieneprecisamentedequeunadiferenciaentredostérminos
cualquiera,queesnula(ൌͲ;diferencialigualaͲ)esunaigualdad(ൌ).
Por tanto, uniendo esto con la definición dada en la página anterior para una hipótesis
estadística, se deduce que Ͳ expresa siempre una igualdad entre un parámetro y un valor. De
maneraqueennuestroejemplolaformulación:ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ ͳͲͲnoesunahipótesisnula(Ͳ).
Enconsecuencialahipótesisalternativaͳ(sonmutuamenteexcluyentes,noloolvidemos)
indicasiempreunadesigualdad.Enconcreto,ladesigualdadentreelmismoparámetroyelmismo
valorqueaparecieronensuͲcontraria.
Así,porejemplo,unaexpresióndeltipo: ૄ۱۷ܛȀ ് ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃esunaͳ.Comotambiénlo
es nuestra formulación ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ ͳͲͲ puesto que “ser mayor a...” evidentemente implica
“ser distinto a...”. Es decir que los enunciados del tipo “mayor que” (>) o “menor que” (<) son
desigualdades que corresponden a distintas hipótesis alternativas. Al respecto de todas estas
posibilidades,volveremosdentrodepoco.Antes,elsiguientecomentarioesmuyinteresante.
Despuésdeesto,seguramenteyapodemosentendermejorporquédecíamosantesquela
Ͳ habitualmenteesunaestrategiadelinvestigadorparaprobarsuhipótesisexperimental:setrata
departirdeunaigualdad(laͲquesuponemoscierta)queimplicaquenohaycambios,quenohay
efecto ya que no hay diferencia, para que al rechazarla a través de las evidencias empíricas que
aportanlosdatos,demostremosquesíexistetalefecto,talcambiootaldiferencia.
ElorigendeestetipodeestrategiaseencuentraenqueenlosalboresdelaEstadísticacomo
herramienta para la Investigación Científica (finales del siglo XIX, principios del XX). Ronald Fisher
convenció a la comunidad científica de que el proceso de inferencia se realiza rechazando
objetivamente a la hipótesis nula, en vez de intentar probar diferentes hipótesis probabilísticas. Es
decir: que alcanzamos una afirmación, negando una negación. Fisher nunca habló de otro tipo de
hipótesisquenofueralanula.Huboqueesperaralgunosañosdespués,paraqueJerzyNeymany
Egon Pearson (el hijo del famoso Karl Pearson; ver Temas 15 y 19) partiendo del mismo lugar que
Fisher,presentaranelmétododecontrastecondoshipótesiscontradictoriasenvezdeconunasola
hipótesisnulay,portanto,introdujeronelconceptodehipótesisalternativa.Lasituaciónactualdela
Estadísticaesunhíbridoevolucionadodeaquellospostulados.
Enconsecuencia,segúntodoloanterioryvolviendoconelejemploquevenimosempleando,
lahipótesiscientíficaquehemosformuladocomo“…significativamentesuperiora…”demaneraque
se corresponde (como suele ser lo más habitual) con la hipótesis alternativa ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ ͳͲͲ
debedesernegadaparasucontraste.
Así, dicha negación dirá que “…no es significativamente superior a…” y se expresará
matemáticamente como ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ que sigue siendo una hipótesis nula porque sigue
indicandounaausenciadediferenciayportantounaigualdad.Laestrategiadelinvestigadorserápor
tanto,negarelcontenidodeͲparaprobarsuhipótesiscientífica.ComodichaͲesunanegación,
negandolanegaciónseafirma:sinegamosque“noessuperior”afirmamosque“essuperior”.
Sólo en el caso (poco común, pero posible) de que la hipótesis científica que se deriva del
objetivo del estudio proponga que no existe una determinada diferencia (es decir que no hay
cambios,quenohayefectos)alserunaigualdaddirectamenteseconvertiría,sinnecesidadnegarla,
enhipótesisdeinvestigaciónestadísticayporelloenH0.
Yentodosloscasos,loqueanteshemosdenominadohipótesisestadísticadeinvestigación
(verpágina210)essiemprelalecturadelaͲ,esdecirlalecturadelahipótesissobrelaquesevaa
tomar la decisión en el contraste estadístico. En nuestro ejemplo sería: “la media del cociente
intelectualestándar(eneltestWAIS)delosuniversitariosnoessignificativamentemayora100”.
Elsiguienteesquemapretenderesumirlasdossituacionesposibles:
Hipótesis
CIENTÍFICA
LoquerestaparafinalizaruncontrasteestadísticodehipótesisessometeraͲ(siempre)a
dichocontrasteytomarsobreellaladecisiónadecuadaquenosllevaráaunaconclusiónacercadelo
propuestoenlahipótesiscientífica.Esdecir:
Conclusión Conclusión
DesdeͲ Contraste Decisión
estadística científica
Y esto es lo que se realiza en los dos pasos de la segunda parte del contraste, la que
llamamosempírica(verpágina208).
Escrituradelashipótesis
Tipodecontraste Lecturadelashipótesis
estadísticasdelcontraste
Nota:porsupuestoestatablaessimplementeunejemplo;peroparacualquierotroparámetroy
cualquierotrovalorseplanteaexactamenteigualenestructura.
Ahora ya tenemos toda la información que necesitamos para emprender el estudio de la
segundaparte,laempírica,deldesarrollometodológicodeuncontrasteestadísticodehipótesis.
La toma de decisión acerca de la hipótesis nula de un contraste estadístico
nospermitesolodosopciones:orechazamoslaͲolaaceptamos.Nohaytérminosmedios.Apesar
delorotundodeestaexpresión,estamosanteunadecisiónrelativayaquetiene,comoesperoque
serecuerde,unfundamentoprobabilístico.
Basándonosenlosrazonamientosexplicadosantes(enpáginas211Ͳ212)sededuceporqué
lahipótesisnuladeuncontrastedebedesermantenida,yaquecreemosensucerteza,hastaquese
compruebeempíricamentelocontrario.Ytambién,quehabitualmentelaintencióndelinvestigador
esrechazarlaͲparademostrarsufalsedad(aquellodenegarlanegaciónparaafirmar).
Pues bien, ésta no es una cuestión nada fácil puesto que solamente podremos rechazar la
hipótesisnulacuandoestemosrazonadamenteconvencidosdeello.Encasocontrariodebemosde
mantenerla, es decir tendremos que aceptarla aunque no queramos. Por esta razón se suele decir
quelaͲesconservadora:porquetiendeaseraceptadaenmuchasmásocasionesdelasquevaa
conseguirserrechazada.
Comoesobvio,pararealizarestetrabajonecesitamosunosdatosempíricamenteobtenidos
atravésdelamedicióndelasvariablesdeinterésenunamuestrarepresentativadecadaunadelas
poblaciones implicadas. Ello nos permite comparar los datos de esta observación con la hipótesis
planteada.Esdecirqueseestáhaciendounacomparacióndelarealidad(loobservado)conlateoría
(lahipótesis).
Antes de entrar en más detalles, puede serle muy útil al lector que piense que el
razonamientológicoenelquesebasatodocontrastedehipótesisesque:
> silosdatosobtenidosenlaobservacióndelarealidadseacercanaloqueesperamosyque
se enunciaba en la hipótesis, entonces se está confirmando dicha hipótesis por lo que la
podemosaceptar;
> pero,sinuestrosdatossealejanmuchodeloqueseesperasegúnlahipótesis,entoncesla
disparidad entre ambos nos lleva a rechazar lo que se propone en la hipótesis ya que
probablementeseafalso(nopodemosirencontradelarealidad).
Portanto,esevidentequelacuestiónsereduceaunanálisisdelasdiferenciasquesevana
encontrar entre los datos procedentes de la estadística descriptiva y lo que se ha propuesto en la
hipótesisͲdelcontraste.
Enlalíneadelocomentadoarriba,esrazonablesuponerquesidichaͲesciertadebemos
encontrar un estadístico descriptivo muestral similar en valor a lo propuesto en esta hipótesis. Así
comonuestroejemploplanteaenhipótesisnula(abreviando)quela“medianoessignificativamente
mayora100”,siestoesciertoenlamuestraextraídadelapoblacióndeinterés(losuniversitarios)el
estadístico descriptivo debe ser cercano a ese 100 (imaginemos por ejemplo que: ഥ=102). En este
casoestaspequeñasdiferenciasobservadas,entreelvalor102delestimadoryel100propuestopara
el parámetro, serían justificadas por la mera aleatoriedad del muestreo. En consecuencia sería
perfectamenteposiblequesirepetimoselestudioconotramuestra,hallásemosunamediaaúnmás
próxima(pongamos ഥ=100,5;…oinclusomenor: ഥ=99).Porestarazónenlaterminologíaestadística,
sedicedetodaséstasquesondiferenciasaleatorias.
SinembargosilaͲqueseestásometiendoacontrasteesfalsa,necesariamentedebemos
encontrar unos resultados muestrales que discrepen claramente de los esperados a partir del
enunciadodedichahipótesis.Deestamanerasiguiendoconnuestroejemplo(recuérdese:la“media
noessignificativamentemayora100”)siloformuladoenestaͲesfalso,enlamuestraextraídael
estadístico descriptivo debe estar suficientemente alejado a ese 100 (supongamos una: ഥ=115).
Ahoraenestanuevasituaciónestasgrandesdiferenciasobservadas,entreunvalorcomoel115del
estimador y el 100 propuesto para el parámetro, no pueden en ningún caso ser justificadas por la
aleatoriedad del muestreo. En consecuencia si repetimos el estudio con otras muestras,
encontraremosmediaspróximasalaanterior(pongamos: ഥ =113,6;oinclusomayor: ഥ=121),ytodas
ellas igualmente alejadas de la hipótesis (el 100). Esta cuestión está poniendo de manifiesto una
evidenteincompatibilidadentreteoría(lahipótesis)yrealidad(loobservadoenlamuestra).Portodo
ello,aestaselevadasdiferenciasquehemosencontradoselasdenominaenterminologíaestadística:
diferenciassignificativas.
Resumiendoloexpuesto:
> siladiferenciaqueseobservaentreelvalordelestadísticoestimadoryelvalorpropuesto
porlahipótesisnulaessignificativa,probablementedichaͲseráfalsaypodemostomarla
decisiónderechazarla(querecordemoses,habitualmente,laintencióndelinvestigador);
> perosiladiferenciaentreelestadísticoestimadorencontradoylahipótesisnulaacontrastar
esaleatoria(nosignificativa),dichaͲesprobablementeciertaytendremosqueaceptarlao
comosedicedeformamáscorrecta:norechazarla.
Por esto que acabamos de exponer es por lo que en las expresiones anteriores de nuestra
hipótesis aparecía incluida de forma reiterada la palabra: significativamente. Quizá el lector no se
había fijado en ello, aunque sinceramente espero que sí que lo hubiese hecho, pero al escribir la
hipótesis científica (ver página 209) se dijo: “La capacidad intelectual general… …es
significativamentesuperior…”yalescribirladenominadahipótesisestadísticadeinvestigación(ver
página212)tambiénquedódichoque:“lamedia……noessignificativamente…”.
Queda claro ahora que para rechazar una hipótesis nula H0 como la que dice que este
ૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃no es superior a 100, no basta con tener valores de media estimadora mayores a
dicho 100 (por ejemplo 102) sino que necesitamos que sean significativamente superiores al valor
(100)propuestoporlahipótesisnula.Yasíseindicasiempreenlostextosdelashipótesis.
La cuestión trascendental para un contraste de hipótesis, evidentemente, es: ¿dónde
empiezaunadiferenciaaserconsideradacomosignificativa?...
Conlosvaloresdelejemploqueestamossiguiendo,ysiendo100elpuntodepartidasegúnla
Ͳ, ¿qué medias tienen una diferencia significativa: 103, 104,… 107, 108, 109,… 115,… 123,…? El
sentidocomúnnosdicequeseguramente103ó104,nolatengan;yque115ó123,síloserán.Pero,
¿quéocurreconlasdemás?...¿esasquesonintermediasaloquepareceevidente?...107…108,¿son
diferenciasyasignificativas?o¿aúnsonaleatorias?.
Lafrontera,ellímite,queseparaloquehemosllamadodiferenciaaleatoriadeladiferencia
significativa viene determinada por el concepto de regla de decisión que vamos a explicar en el
siguientepunto.
12.1.4.- Toma de
e decisión
Lareglade decisiónes elmediode
elquenosvaalemosparaallegaratommarla
decisión,deeaceptaciónoderechazzo,acercadelaͲqueesstamoscontrrastando.
Paraestablecerrlaesimpresscindibleconnocerladistrribuciónmueestraldelesttimadoradeccuado
acadacasoo.Enella,dicharegladed
decisióndividealmodelo oencuestiónendosconnjuntosdevaalores
odoszonassexcluyentesyexhaustivvas:unaesllazonadeaceptacióndeeͲylaotrra,lógicamen nte,la
zonaderecchazodeͲ.
Vammosaconcreetar.Supongamoselcaso odenuestro oejemplo,do es
ondeૄ۱۷ܛȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܑܖ܃
lahipótesisnulaacontrrastarfrentealaalternattivaͳ:ૄ۱۷ܛȀȀ ܛܗܑܚ܉ܜܑܛܚ܍ܞܑܖ܃ ͳͲͲ
Pueestoqueelparámetroafectadoesun naP,parare esolveresteccontrastedeebemosestab blecer
la regla de decisión en una distribu
ución muesttral de la meedia (ver página 190). EEn su versión
n más
simple,esteemodelosedefinecomo o:ۼሺૄǢ ો܆ഥ ሻ ocomo:൫ ρǢ ɐଶଡ଼ഥ ൯siseprefiere.
Porloque,siendo:
a) la media
m de estte modelo de d distribución muestral el parámettro P: en nu uestro ejemp plo se
asiggnaalρେ୍ୱȀ୬୬୧୴ୣ୰ୱ୧୲ୟ୰୧୭ୱ qu
ueeselparámetroconcrretoimplicad doenlahipóótesisestadísstica;
b) ydaadoquesep parte(record démoslounavezmás)de equeͲescciertahastaq quesedemu uestre
locontrario,enttoncesadmitimosqueessteρȀ noseráásuperiora100,yporelllo:
c) tom ordePൌͳͲ
mamoselvalo ͲͲcomomed ͲͲǢ ɐଡ଼ഥ ሻhasttaque
diadeladistribuciónmuestral:ሺͳͲ
sed ocontrario.
demuestrelo
En función
f de este
e planteaamiento iniciial, la denomminada zonaa de aceptacción de la Ͳ está
formada po quellos valores de estaadístico
or todos aq ഥ que tienen una
u elevadaa probabilida ad de
aparición siiempre que H0 sea ciertta. Y por tan
nto, también
n podemos decir
d que so
on los valore
es que
mantienenunadiferencciaaleatoriaconrespecttoadichaͲ.Enelejemploseránen ntonceslasm medias
muestralespróximasa1 100.
Porelcontrario o,lazonaderechazode Ͳ,estáforrmadaporaq quellosvalorresdelestad
dístico
ഥquetiene
enmuypoca aprobabilida
addeaparicciónbajoestesupuesto inicialdequ ueͲescierrta.Es
decir que son
s los valo
ores que diffieren signifi
ficativamentee de lo esperado segúnn Ͳ. En nu
uestro
ഥ
ejemplo,lossvaloresdesuperioressa100yalejjadosdeesteevalor.
Gráficamente esto implicca que la
únicazona derechazo deͲquetenemosen
unejemplocomoelnueestroestásituadaenla
Zonade
derecha dee la distribución muestrral, ya que Zonade
A
Aceptación RechazoddeͲ
sólo allí po
odrán apareecer valoress que sean
delaͲ
significativaamente supeeriores (a 100). Por eso
este es un n ejemplo de contrastte de cola P=100
derecha.
Laccuestiónqueesurgeaquí inmediatam mentees¿en funciónde quéseestab
blecehastad dónde
llegalazonadeaceptacción,yportantodónde comienzalaaderechazo deͲ?;queeeslomismoque
preguntarsee¿hastadón ndeunadifeerenciaesaleeatoriaydesdedóndeeempiezaaseersignificativva?La
respuestap podríaser:deependiendodelavoluntaaddelinvesttigador.
Peroenrrealidad,com
motodoenEEstadística,laarespuestaeestáenlaprrobabilidad.Esdecirquee
la “an
nchura” de estas
e zonas depende deel valor de laa probabilidaad fijada, esosí por el investigador,,
paracadaunadeellas.
Concretamente, a la zona de recchazo se le asociará
a el valor
v probabilidad de error D,,
de la p
denominada com mo sabemos: nivel de co onfianza o nivel
n de riesgo, o incluso nivel de significación,
s ,
término que aqu uí tiene mu ucho sentido
o ya que se e asocia a la idea de eexpresar unaa diferenciaa
signifficativa.Por lotantoalaazonadeaceeptaciónsiempreseleaasociaelvalo ordelaprob babilidaddee
acierttoͳD,esdecirelcoeficcientedecon nfianza.Enconsecuenciaaenelmismo ográficoantterior:
n contraste de cola derecha
Al ser un
toda laprobabiliddadasociadaaaladecisió ónde
rechaazo de Ͳ (el D) se encuentra en e el RͲ
extreemo superior derecho de d la distribución AͲ
muesstral. Y por ello, toda laa probabilidaad de D
D
1D
acepttar Ͳ (ͳD) se asocia con
c el área resto
0
P=100
deladistribución.
Sedenom minapuntoccríticoalvaloordeladistrribuciónmueestralqueseeparaaambaszonas.En n
elgrááficoanteriorseobservaadichoPC.Ennuestroejemploydan ndoporsupu uestoqueladistribución n
muesstraldelam mediaquete nemosenu usoseajustaaalmodelo delaN(0;1), ,elpuntocr ríticoesla
perceentílica que correspondee al área de ͳD. Enton nces, si hubiésemos fijad
do el nivel más
m habituall
e el de DൌͲǡͲͷ y como
que es o es un contraste de coola derecha, nuestro punto crítico será
s la dell
paraelpercentil95,esdeecir:ǡͻͷͲͲൌͳǡͶ(verttabladelapáágina162).
modeeloN ( 0 ; 1 )p
Yconesteevaloryatenemosunarregladedeciisiónparalatomadedeccisiónenestecaso:
9 ElinvestigaadorpodrárrechazarlaHH0paraesteDDൌͲǡͲͷsiem mprequeen ladistribuciiónmuestrall
ഥ cuyos va
aparezcan estadísticoss ܆ alores corresspondan a ͳǡͶ
. Sólo
o en ese casso, se podráá
concluirquue podemos rechazar (porserimpro obable)aqueelloquesep proponíaen lahipótesiss
nula,loqueimplicaráttenerunapo oyoparala hipótesiscieentíficaquessepretendíaademostrar..
Estaeslasituaciónaqu
uelladenegaarlanegación n(quehayenlaͲ)paraaafirmar.
9 Encambio,,nosepodrá Ͳloquesup
árechazar ponequesettendráqueaaceptarparaestemismo o
ഥ
DൌͲǡͲͷsieemprequeaaparezcanesstadísticos cuyosvaloreescorrespon
ndana ͳǡͶ.Ahoraen n
esecaso,ddeberemoscconcluirque lomásprobbableesaquelloquesepproponíaenlahipótesiss
oquenotendremosevid
nula,porlo denciasestaddísticasqueaapoyennuesstrahipótesisscientífica.
Convieneerecordaran ntesdeconttinuarque,aademásdeq quelosvalorresdeestarreglasonun n
meroo ejemplo paara cierto nivel D, no to
odas las distribuciones muestrales siguen el modelo
m de laa
N(0;1
1),porloqueeenotroscasoslospun ntoscríticos setomarán demodelos comoJiͲcuaadrado, dee
Studeent,o deFhiserͲSnedeccor.
oconelsupu
Siguiendo uestodequeeelmodelo queestamo osusandoesseldeN ( 0 ; 1 ),queporr
Engeneral:
El estadístico de contraste (razón crítica) es el indicador de la posición que
ocupaundeterminadoestimador(elestadísticohalladoenlamuestra)dentrodesu
distribución muestral correspondiente. Asimismo, es equivalente a la distancia
observada entre este estimador empírico y la hipótesis nula expresada en la escala
estandarizadacorrespondientealmodelodecadacaso(ǡ
Ǧ
ǡǡ ǡ…).
Delaecuacióngeneraldeuna(página155)se
deduce muy fácil e intuitivamente que este estadístico
ഥ െ ૄ െ
܆
de contraste se calcula con la expresión que aparece al ܈ൌ ൌ
ો܆ഥ À
ୈǤǤ
lado. Aunque, como casi todo, no la vamos a necesitar
puestoqueelcálculoseloencomendamosaSPSS.
Imaginemosqueennuestroejemplo,ladistribuciónmuestraldelamediaquenecesitamos
para comprobar el contraste se define con un error típico: ɐଡ଼ഥ ൌ ʹǡͳͲ (para muestras de n=100).
Entonces:
Ͳ paraunvalorde ഥൌͳͲ͵,elestadísticodecontrastees ൌሺͳͲ͵ǦͳͲͲȀʹǡͳͲሻൌͳ ͳǡͶ͵൏ͳǡͶ (D=0,05)
porloquetendremosqueaceptarlaͲ;
Ͳ paraunvalorde ഥൌͳͳͷ,elestadísticodecontrastees ൌሺͳͳͷǦͳͲͲȀʹǡͳͲሻൌ ǡͳͶͳǡͶ (D=0,05)
porloquepodemosrechazarlaͲ;
Ͳ yexactamenteapartirdeunaഥ ൌͳͲ͵ǡͶͶ(comosepuedecomprobarfácilmentedespejandode
laecuaciónanteriorparalaൌͳǡͶdeeseD)podemosrechazarlaͲ.
Elinconvenientedetomardecisionesestadísticasbasadasenlaregladedecisióntalycomo
hemosexplicado(yejemplificado)esquenohayunareglageneral.Esdecirque,dependiendode:
1)eltipodecontraste(doscolas,coladerechaocolaizquierda),2)delmodeloteórico(ǡ
Ǧ
ǡ
ǡ ǡ …)alqueseajusteladistribuciónmuestralutilizadayfinalmente3)delaprobabilidaddeerror
(D) que se fija, cada vez que resolvamos un contraste tendremos una regla distinta. Y además de
tenerquepensarla,vamosatenerqueusartablasdeprobabilidadparaestablecerla.
Además,usandodenuevoelejemploanterior:
ഥൌͳͳͷconൌሺͳͳͷǦͳͲͲȀʹǡͳͲሻൌ
Ͳ una ǡͳͶͳǡͶorechazaͲparaD=0,05
Ͳ unaഥ
ൌͳͲͺconൌሺͳͲͺǦͳͲͲȀʹǡͳͲሻൌ͵͵ǡͺͳͳǡͶotambiénrechazaͲparaD=0,05
Ͳ yunaഥ
ൌͳͶͲconൌሺͳͶͲǦͳͲͲȀʹǡͳͲሻൌͳͳͻǡͲͷͳǡͶotambiénrechazaͲparaD=0,05;
por lo que parece que en todos estos casos (que son valores cualquiera elegidos al azar) la
probabilidad de error de dicha decisión de rechazo de Ͳ es siempre la misma: 0,05. Y no parece
lógicoqueseaasí.Todolocontrario,elsentidocomúnnosdicequecuántomáslejosestemosdeuna
Ͳ menos probabilidad de error debemos de tener al rechazarla. Es como decir “cuánto más lejos
estoydelpeligro,tengomenosmiedo”,¿no?Yestehecho,eldeladisminucióndelaprobabilidadde
error,noquedaexpresadoporningúnlado.
Ambos problemas se van a solventar utilizando como medio de toma de decisiones a un
nuevo concepto: la probabilidad asociada. También se la conoce como p de significación
(abreviadamente: Ǧ o Ǧ en los textos en inglés) e incluso simplemente como la del
contraste.
Denominamosprobabilidadasociada(óǦ),alaprobabilidadexactade
errorquetieneelinvestigadoraltomarladecisiónderechazarlahipótesisnula.
Entonces¡cuidado!porquesudefiniciónesmuycercanaaladeniveldeconfianzaD.Elmatiz
está en que mientras D, por ser un valor fijado a priori por el investigador, debe ser considerado
comounlímitemáximoparalaprobabilidaddeerrorqueestamosdispuestosaadmitir;laǦes,
comoladefinicióndice,unvalorexactodeprobabilidaddeerrorydependesiempredeloquevalga
elestadísticoestimadorencontradoenlamuestra.Portantonotenemosningúncontrolsobreélya
quenoloconoceremoshastaquetengamoslosdatosempíricos(aposteriori).
Poresto,mediascomo108,115y140citadasantestienendistintaǦ.Veamos:
Ͳ laഥ
ൌͳͲͺconൌሺͳͲͺǦͳͲͲȀʹǡͳͲሻൌ͵ǡͺͳotieneunaǦൌͲǡͲͲͲͳ
Ͳ laഥ
ൌͳͳͷconൌሺͳͳͷǦͳͲͲȀʹǡͳͲሻൌǡͳͶotieneunaǦൌͲǡͲͲͲͲͲͲͲͲͲͲͲͲͷ
Ͳ ylaഥ
ൌͳͶͲconൌሺͳͶͲǦͳͲͲȀʹǡͳͲሻൌͳͻǡͲͷotieneunaǦൌͲǡͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲͲ;
¿Cómohemosobtenidoestas?
Su valor, conceptualmente, equivale a la suma de las probabilidades de aparición en la
distribución muestral de todos aquellos estadísticos que se alejan significativamente de Ͳ, por lo
quepermitentomarladecisiónderechazarla.
Operativamente, es la superficie de la distribución muestral que queda más allá del
estadísticodecontrasteenelsentidoespecificadoporlacoladelcontraste.
Yunacuestiónmásmuyimportante:laǦeselvalorquenosdaSPSSparaquetomemos
ladecisiónacercadelcontrasteplanteado.Decisiónquedesdeestenuevoconceptovamosatomara
partirdeunanuevareglaqueahorasíquepodemosdecirqueesuniversaleindependientedetodos
loselementosquedijimos(enlapáginaanterior)quelacondicionabanyquelacambiaban.
Enconcretoparalainferenciaestadística,sehaestablecidoque:
ÖpodemosrechazarͲsiemprequelaǦ൏ǡͲͷ ሺpr.deerror<ͷΨo൏ǡͲͷͲሻ
(ladelerrorquesecometeesmenorqueellímitemáximo;porloquedeforma
másgenéricalareglaes:൏D).
ÖdebemosaceptarͲsiemprequelaǦtǡͲͷሺpr.deerrortͷΨotǡͲͷͲሻ
(ladelerrorquesecometeesnoesmenorqueellímitemáximo;porloquede
formamásgenéricalareglaes:t D).
Dedondesederivaquetambiénpodríamoshaberdefinidoalaprobabilidadasociada(Ǧ)
como el valor del nivel de confianza D más pequeño con el que una Ͳ puede ser rechazada (en
funcióndelestadísticodecontrasteobtenido).
Estaregladecaráctergeneralyuniversalutilizaellímitedel5%comolamáximaprobabilidad
deerror(cuandosetomaladecisióndeRͲ)queseestádispuestoaadmitir.Elinvestigadornunca
podrásermásflexibleyadmitirdeerrormayores.Peropuedesermásestrictosilodeseaybajarel
nivel máximo de error a otros valores como el 3% ó el 1%, formulando nuevas reglas como por
ejemplo:rechazamosͲsipͲsig<,010 ሺpr.deerror<ͳΨሻ.Peroestonoesnadarecomendable,pues
puede provocar la aparición de otros errores que resultan fatales para la investigación y para la
Ciencia en general. Pero de esto hablaremos en el apartado 12.2. Antes, debemos de terminar el
procesodeuncontrastedehipótesiselaborandolasconclusiones.
12.1.5.- Conclusiones
Elprocesometodológicodeuncontrasteestadísticodehipótesiscomotal,ya
ha terminado con la toma de decisión sobre la Ͳ. Pero la intención con la que se plantea un
contrasterequierequedemosunpasomás.Elpuntodepartidarecordemosquefueunahipótesis
científica,puesbien,tenemosquellegaraalgúntipodeconclusiónconrespectoaella.
Y ese el momento en el que nos encontramos ahora. En la página 213 ya se presentó un
esquemaenelqueseindicabaquetrasladecisióndelcontrasteestadístico,vienenlasconclusiones.
Pero, allí mismo, ya se adelantaba que hay una conclusión de tipo estadístico y una conclusión
científica,quesondiferentesencontenidoaunqueseoriginenenunamismadecisión.
En el siguiente esquema se expresa tanto la sucesión encadenada entre hipótesis y
conclusiones,comolavinculaciónquehayentreellas:
DecisiónsobreͲ
(Aceptar/Rechazar)
Hipótesis Hipótesis Conclusión Conclusión
CIENTÍFICA ESTADÍSTICA ESTADÍSTICA CIENTÍFICA
Enlosmismostérminos
Conidénticaterminología
Portanto,enlaconclusiónestadísticasehablaenlosmismostérminosenlosqueseescribió
la hipótesis de investigación estadística. Se incluyen: la muestra, los valores de los estimadores, el
estadísticodecontrastesiseconsideranecesarioylapͲsigconlaquesejustificaladecisiónsobreͲ
quesehatomado.
Enelejemplosobreelnivelintelectualdelosuniversitariosquehemosestadoutilizandoalo
largo de todo este apartado y siendo recuérdese la Ͳ: ρେ୍ୱȀ୬୧୴ୣ୰ୱ୧୲ୟ୰୧୭ୱ ͳͲͲ, vamos ahora a
imaginar que en una muestra apareciese la media que vale 115, que es una de las citadas en las
páginas anteriores, por lo que le corresponden el resto de valores ya aparecidos. Entonces, la
conclusiónestadísticaseríaaproximadamenteasí:
“En la muestra de 100 universitarios analizada se ha obtenido una ܺത=115 en CIs cuyo
estadístico de contraste (ൌǡͳͶ) tiene una Ǧൌ,000. Este valor nos permite rechazar la
hipótesisnulaplanteada;yportanto,podemosadmitirquelamediadelCIsdelapoblaciónde
universitariosessignificativamentemayora100”.
Este tipo de conclusiones estadísticas son las que aparecen en los informes que los
profesionales de la Estadística realizan por encargo para los profesionales de otras áreas, pero no
aparecenenlosartículosdeinvestigacióncientífica.Comotampocoaparecenenellos,laformulación
de las hipótesis estadísticas y en cambio son imprescindibles para el análisis de los datos.
Normalmente estos informes son, digamos, de “uso interno” entre colaboradores de un mismo
equipoinvestigador,deahíquenoseaveanpúblicamente.Ensulugar,lasquesíseincluyenenlos
artículosquesedivulganenlasrevistasespecializadassonlasconclusionescientíficas.
Enlaconclusióncientíficacomosededucedelesquemaanterior,seemplealamismaforma
dehablarconlaqueseredactólahipótesiscientífica(revisarlaenpágina209).Poresoenellatiene
que aparecer: el constructo, la variable con el instrumento de medida si es necesario, y la
consecuencia que tiene la decisión que hemos tomado sobre el contenido de dicha hipótesis.
HabitualmentelafraseseiniciaconlarelaciónquehemosobservadoentreelvalordelapͲsigyel
nivelmáximoD(0,050porlogeneral)alestilodelaexpresiónqueaparecíaenlapágina219como
regladedecisión.Esdecir,paranuestroejemplo,algoparecidoaesto:
“Con una Ǧ൏ǡͲͷ se han encontrado evidencias estadísticas que apoyan que la
capacidadintelectualgeneral,expresadaenCIsdeltestWAIS,delapoblacióndeuniversitarios
españolesmatriculadosenelpresentecursoacadémico,essignificativamentesuperioralade
lapoblacióngeneralnouniversitariacuyamediaesde100puntos”.
Y con esto, ahora ya sí que podemos dar por terminado todo nuestro trabajo. Un ejemplo
completo, con todos los pasos presentados de forma consecutiva y no a medida que se van
explicando,yademásresueltoconSPSS,lovamosadejarparaelTema13cuandoexpliquemoslas
técnicas inferenciales más básicas que existen y que son aquellas en las que se analiza a una sola
variabledependienteendiseñosdeunaúnicamuestra.
Ahoravamosacontinuarconotroasuntoteóricodesumaimportancia.
Cuando nos planteamos un contraste de hipótesis es, lógicamente, porque
desconocemos si en realidad, una hipótesis de investigación estadística (la Ͳ) es cierta o es falsa,
porquedelocontrarionotendríasentidoplantearsenada.
Comoacabamosdeverenelapartadoanterior,elempleodeunmétodoprobabilísticonos
permitirá tomar una decisión acerca de la citada hipótesis. Pero, recordemos que, en Estadística
Inferencial nunca podemos afirmar o negar, algo, con total certeza. Esto es algo que se indica
claramente tanto en la conclusión estadística como en la científica cuando en ambas aparecen los
valores de la Ǧ que, no olvidemos, es una probabilidad de error es decir una probabilidad de
haber tomado una decisión que sea errónea. Un error que puede ocurrir tanto cuando se acepta
comocuandoserechazadichahipótesisnula.
Por todo ello, el investigador siempre deberá pensar que existe la posibilidad de que al
resolverelcontrasteestétomandounadecisiónqueestéequivocada.Veámosloconmásdetalle.
Comolahipótesisnulapuedetenersólounodeestosdosestados:ciertaofalsayladecisión
queelinvestigadorpuedetomarsolamentepuedeser:deaceptaciónoderechazo,nosencontramos
anteúnicamente4situacionesocasosposiblesdistintosfrutodelacombinacióndeloselementos
queacabamosdecitar:
1. ladecisióndeaceptarlahipótesisnula…yqueestaͲseaciertaoAͲC
2. ladecisióndeaceptarlahipótesisnula…yqueestaͲseafalsaoAͲF;
3. ladecisiónderechazarlahipótesisnula…yqueestaͲseaciertaoRͲC;
4. ladecisiónderechazarlahipótesisnula…yqueestaͲseafalsaoRͲF.
Dosdelasdecisionesdeestalistahansidocorrectasyporlotantonohayerrorposible:
Ͳ laprimera:aceptarͲsiendocierta(AͲCes:admitirunaverdad);
Ͳ ylaúltima:rechazarͲsiendofalsa(RͲFes:rechazarunafalsedad).
Peroenlasotrasdos,elinvestigadorhatomadounadecisiónincorrecta:
Ͳ secometeunerrorcuandoseacepta“algo”falsooAͲF;
Ͳ perotambiénsecometeunerrorcuandoserechaza“algo”ciertooRͲC.
Lógicamente, ambos errores ni son iguales ni tienen la misma trascendencia como se verá
posteriormente.Anteestassituaciones,laEstadísticahadenominado:
Ö Errordetipo:alcometidocuandosehatomandoladecisiónderechazarlaͲ
aúnsiendocierta.
Ö Errordetipo:alquesecometealtomarladecisióndeaceptarlaͲ,aunque
seafalsa.
Lasiguientetablaresumetodasestascuestiones:
Enparticular:
Ö La probabilidad de cometer un error de tipo , es decir, la probabilidad de
equivocarsealtomarladecisiónderechazarlaͲsiendociertaes:
Ͳ bienelniveldeconfianzaDcuandoestáfijadoaprioriporelinvestigador,
Ͳ
obienlaprobabilidadasociada(Ǧ)cuandosecalculaapartirdelvalordel
estimadormuestralobservado.
Ö Laprobabilidaddecometerunerrordetipo,esdecir,esdecir,laprobabilidad
deequivocarsealtomarladecisióndeaceptarlaͲsiendofalsa,es:E(queno
tieneunnombreconcreto,simplementeselaconocecomo“beta”).Existiendo:
Ͳ unvalordeEfijadoaprioriporelinvestigador,
Ͳ yunvalordeEqueseasociaalestimadorobtenidoenlamuestra.
Y en consecuencia, las decisiones que evitan estos errores tienen las probabilidades
complementarias:ͳ Ǥ
Lasiguientetabla,denuevo,loresumetodo:
ͲCIERTA ͲFALSA
ProbabilidaddeErrorTipo: Probabilidadde
RECHAZARͲ Fijadaൌ D nocometerunErrorTipo:
Calculadaൌ Ǧ ͳEൌ
Probabilidadde ProbabilidaddeErrorTipo:
ACEPTARͲ nocometerunErrorTipo: Fijadaൌ E(apriori)
ͳD ×ͳǦ CalculadaൌE(cometido)
Enestatabla,seguramentelomásinteresanteeslaaparicióndeuntérminoquetodavíaes
desconocido. Se trata del símbolo como equivalente al valor de ͳE. Se denomina poder de
contraste o potencia de la técnica estadística empleada. Es, obviamente, una probabilidad de
acierto.Peroesunaprobabilidadtrascendentaldadoque:
La potencia () es la probabilidad de evitar un error tomando la decisión
correctaderechazarunahipótesisnulafalsa(RͲF).
Noolvidemosquelaintenciónconlaquesepartesiempreenuncontrastedehipótesisesla
derechazarlaͲ,portantoéstaesunadelasrazonesdelaimportanciadelapotencia.
Larepresentalaprobabilidaddequecuandoconseguimosnuestropropósito(derechazo
delaͲ)estemostomandoladecisiónadecuada.Yenconsecuencia,éstaesunaprobabilidadque
puede asociar al grado de veracidad que tiene la hipótesis científica que motivó el contraste. Esto
últimosiemprequedichahipótesiscientíficasecorrespondaconlaͳdelcontraste,queeselcaso
másfrecuenteperonopodemosdecirqueseaelúnico(revisar,siesnecesario,lapágina212).
Apesardeesteenormeinterés,nodejadesercuriosocómoenlaliteraturaespecializadase
ha tenido muy poco en cuenta a esta probabilidad. Es raro, por no decir muy raro, el artículo
científico que cuenta con técnicas de análisis estadístico inferencial que lo incluye. Seguramente
porquenosehacalculadosuvalor.Sóloenestosúltimosañosseestáempezandoacitarconcierta
asiduidad.
Esposiblequepartedelacausaporlaquenoseaalgoqueseempleecomúnmente,estéen
quesoftwarecomoSPSSnotienenensusmenúsopcionesquelacalculan,loqueimplicaqueesalgo
quetendremosquehacernosotros“amano”.
Para ello, en primer lugar, obsérvese en el gráfico siguiente cómo y dónde se sitúan los
valoresdelasprobabilidadesEyenladistribuciónmuestral.SehaempleadoelparámetroPy
por ello aparece la distribución muestral de la media porque es el ejemplo con el que venimos
trabajandoporcomodidad,peroesevidentequefuncionaigualconcualquierotroparámetro.Porla
mismarazónsepresentaelcasodeuncontrastedecoladerecha:
Zonadeaceptación deͲ
Zonaderechazo deͲ
Situacióndela
distribuciónmuestral,
D
supuestolaͲcierta
ͳD
AͲCo1D RͲCoD
N(0;1)
AͲFoE RͲFo1E
Punto
crítico
Cambioenlasituacióndela
E
distribuciónmuestral,
supuestolaͲfalsa N(0;1)
Puesto que el eje de abscisas de ambas curvas es el mismo debemos imaginar que ambas
distribuciones están superpuestas o solapadas, siendo el punto crítico reseñado un indicador del
grado de solapamiento. Lo que ocurre en realidad es que la distribución muestral se desplaza
horizontalmentealolargodelejedeabscisassegúnsesupongaciertaofalsaalaͲ;estoimplica
que el parámetro tiene diferente valor en esos dos casos supuestos. Por ello, el punto crítico que
separalaszonasdeaceptaciónyrechazocortaaambasdistribucionespordistintolugar.
Obsérveseentonces,cómolasuperficiedeladistribuciónmuestralcorrespondientealvalor
delaprobabilidadE(AͲF)sesuperponesiempresobrelasuperficiedeladistribuciónmuestralque
correspondeconelvalorde1D(tambiénAͲperosiendoC).
Y asimismo, la superficie de la distribución muestral correspondiente al valor de la
probabilidad ͳE o Potencia (R Ͳ F) se superpone siempre sobre la superficie de la distribución
muestralquesecorrespondeconelvalordelaprobabilidadD(tambiénRͲperosiendoC).
La relación de solapamiento que acabamos de definir para estas áreas probabilísticas, se
mantieneenloscasosdecontrasteacolaizquierdaoadoscolas,peroevidentementelasituación
gráficaserádistintadebidoalacolocaciónquetengalaͳconrespectoalaͲ.
PuestoqueSPSSnocontieneestatareaentresusrutinasoperativas,sirecuperamosalgunos
de los datos aparecidos anteriormente en el ejemplo acerca de la capacidad intelectual de los
universitarios,podemospracticarelcálculo“manual”delvalordelapotenciaquehemosconseguido
enelcontrastedehipótesisquesehaestadousandoparaexplicartodoslosconceptosteóricosdel
apartadoprevioaéste.
Ejemplo17
Sienddo la hipóteesis nula del contraste: ρȀ ͳͲͲ y habiéndosee
obserrvado en unaa muestra de 100 universsitarios una media m ഥ=108
8 en CIs. ¿Cuuál es la poteencia de estee
contrraste, si se hah fijado el nivel de coonfianza D=,,05 habitual?? (el error ttípico de la distribuciónn
muesstral de la meedia es 2,10)..
Comoenloscasosanterioresen nquehemossusadoesteeejemplo,su uponemosquela mediaa
sigueeunadistribu uciónmuestrralqueajusttaalmodelonormal:ሺρ ρǢ ɐଡ଼ഥ ሻ,esdecir:ሺρǢ ʹǡͳͲሻparaestee
caso.Ahora,conlainformaciónarribainccluidaademáássabemosq quedichadisstribuciónm muestralbajo o
elsuppuestodeͲciertasedeefinecomo:N(100;2,10)..Mientrasqu uesilaͲfuuesefalsa,se
edesplazaríaa
hastaaunvalordeemediadistintodel100,,enconcreto ohastaelvaalormásprobableparae elparámetro o
quesseráeldesuestimadoraadecuado(laamediamue estral108),p porloqueen nestesegundosupuesto o
ladisstribuciónmu uestrales:N(108;2,10).M Másabajose eapreciaperrfectamenteenelgráfico o.
Para el cálculo
c de laa potencia, la clave estáá en el pun
nto crítico que separa laas zonas dee
acepttación y rech hazo de la Ͳ. Dicho pu
unto crítico corresponde
c e a un valor de media muestral
m quee
tienedistintapro obabilidaden ncadaunod delosdossu upuestosqueehacemosaacercadelesstadodeͲ,,
porlooquelecorrrespondedistintaperceentil.
Elproceddimientosiguueestasecueenciadepasoos:
1º)) Secalcula elvalordel puntocríticocorrespondienteala
delnivelD
Dfijadoaprriori;estosee
haceconlaainformacióndeladistribuciónmuestralparaelsupuestodeeͲcierta.
Ennu uestroejemploalD=,05deecoladerechaalecorrespon ndeelpercen ntil,9500ypaaraél
laees ǡͻͷͲͲൌͳǡͶ
Ͷdesdelacuaalyaseobtuvvoelvalordelpuntocrítico
o(verpágina 218)
ഥ
resultandoser:܆ൌͳͲ͵ǡͶͶ.
ൌ
2º)) secalculap untocríticoccuálseríasu enelsupu
paraelvalorrdedichopu uestocontraario,esdecirr
conladefin distribuciónmuestralparaelsupuesttodeͲfalsa.
nicióndelad
ഥൌͳͲ͵ǡͶͶenla
Laൌ adistribuciónmuestralparaͲfalsaN(1
108;2,10)tieneela:
ഥ
ሺ െ ρሻൗ ሺͳ
ͳͲ͵ǡͶͶ െ ͳͲͺͺሻൗ
܈ൌ ɐଡ଼ഥ ൌ ʹǡͳͲ ൌ െ ǡ ૠ
3º)) desdeestaúltimaZseobtieneunááreapercenttilconlaqueyaconocenlosvaloresd
deEyPw.
ൌʹǡͳenlaaN(0;1)lecorrrespondeelááreapercentil:,0149
Ala
Porlo ͳͶͻylapoten
oque:EൌǡͲͳ nciaconseguiddaes:ͳEൌൌǡǡͻͺͷͳ
Punto
crítico
DൌǡͲͷfijado
o
N ( 0 ; 1 )
ൌͳǡͶ
EൌǡͲͳͶͻ
ͻ
ൌǡͻͺͷͳ
N(0;1)
ൌʹǡͳ
(108;2,10) 103,44 108
Losvaloresdetodasestaspropiedadesserigenporlassiguientes2propiedades:
1ª) Sieltamañodelamuestrasemantieneconstante,losvaloresdeDyEsoninversamente
proporcionalesentresí,esdecirquecuandounoaumentadevalor,elotrodisminuye.
EstotieneinterésporcuantoelinvestigadorfijaelvalordeDaprioriyestoafectaráalaEya
la.Así,porejemplo,puedeocurrirlosiguiente:supongamosquesefijaunnivelDൌǡͲͳy
ello produce que la E ൌ ǡʹͺ que es un valor elevado con el que corremos grave riesgo de
cometer un error de tipo ; la solución pasaría por fijar un valor mayor para el nivel de
confianza,supongamosD ൌ ǡͳͲconelquelograríamosundescensode“beta”hastaE ൌ ǡͲͶ
(porejemplo)queestaríamuybienporqueentonceslapotenciaseríadel96%,peroahora
hemosfavorecidolaposibilidaddecometerunerrordetipo.
Ante situación, la pregunta es obvia: ¿qué es preferible?, ¿cuál de los dos errores tiene
mayortrascendenciaogravedad?Repasandosusdefiniciones(enpágina222)imaginoqueellector
estarádeacuerdoconmigoenqueesmásgravecometererroresdetipo,yaqueenesecasoel
investigador estará admitiendo algo que es falso (A Ͳ F). De un investigador que habitualmente
cometaerrorestipo(R ͲaunquepuedaserC )sólopodemosdecirqueesmuyriguroso,puesto
querechazalamayoríadelashipótesisdebidoaquenotieneseguridadacercadesucerteza.Estaes
porejemplolaposturadelaCienciacomoentequedemomentoprefierenocreerenDios(rechazar
lahipótesis)aunquesepuedaestarequivocandoyquerealmenteexista(hipótesiscierta).Encambio
uninvestigadorquehabitualmentecometaerroresdetipo(AͲaunquepuedaserF )quizáacabe
llegando“acreerenburrosvolando”pordecirlodeunaformaeducada.
En conclusión, en estos casos en los que nos vemos obligados a mantener el muestral
constante, es conveniente fijar para la resolución del contraste de hipótesis, el mayor nivel de
significación (D) posible, para de esta manera intentar reducir al máximo la probabilidad (E) de
cometerunerrordetipo(porejemplo:unE൏ǡͳͲ).
Lógicamente ésta puede ser una situación incómoda para un investigador pues cuando
intentaevitarunerrorpuedeacabarfavoreciendo,sindesearlo,lacomisióndelotro.Paratratarde
minimizar, o reducir todo lo más posible, las probabilidades (D y E) de cometer ambos errores
debemosdeutilizar,sihaylugarparaello,lasiguientepropiedad:
2ª) Alaumentareltamañodelamuestra,lasprobabilidadesDyEdisminuyenconrespectoa
susvaloresanteriores.
Así, imaginemos que los valores del ejemplo de arriba se daban con una muestra de 100
sujetos, entonces, si incrementamos el tamaño de la muestra hasta los 250 sujetos (por
ponerunejemplo)puedeocurrirperfectamentequealfijarelnivelD ൌ ǡͲͳcomoantes,el
valorde“beta”yaseasólodeE ൌ ǡͳʹporloqueahorayabasta(segúnla1ªpropiedad)fijar
un nivel de significación superior (digamos el D ൌ ǡͲͷ habitual) para que al fin se logre un
valormagníficoparalaprobabilidaddeerrortipo(supongamosEൌǡͲ).
Neyman y Pearson de quien hablamos antes (página 212) defienden que ésta debe ser la
posturahabitualdeuninvestigadorantesdecomenzarsutrabajo,esdecirquedeberíamoscalcular
eltamañomínimodemuestranecesario,paraasegurarnosqueDyEtenganunosvaloresreducidos
y fijados a priori; y que como consecuencia nuestra conclusión final esté dotada de una elevada
potencia(másdel90%aserposible;oalmenosquenuncaseainferioral80%).
Ya se dijo antes (página 223) que la potencia es clave aunque no suela prestársele mucha
atención.Comosabemoseslaprobabilidaddequelainvestigaciónconcluyaqueexisteunresultado
(unefecto,uncambioodiferencia)significativo,condicionadaaquelahipótesiscientíficaseacierta.
Yestaeslaimportanciadelapotencia,yaquenosindicahastaquépuntoennuestroexperimento
hemossidocapacesdeencontrar“algo”querealmenteexiste.
Entrelosfactoresqueinfluyenenlapotencia,ademásdelnivelDfijado(repasarlapropiedad
nº1anteriormentecomentada),estáeldenominadopoderdediscriminaciónotamañodelefecto.
El tamaño del efecto (o poder de discriminación) es la diferencia (en
unidadesdemedidadelavariable)entreelvalornuméricoasociadoalamediadela
distribuciónmuestralbajolacondicióndeͲfalsayelvalornuméricoasociadoala
mediadeladistribuciónmuestralbajolacondiciónquesuponeaͲcierta.
Esdecirque eltamañodelefectoes unvalorqueindicalaseparaciónesperadaodeseada
entre las medias de dos curvas como las que aparecen dibujadas en la página 225. Habitualmente
estáfijadoenfuncióndelaexperienciapreviay/odeloquevaldríalamenordiferenciaútilparaque
severifiquelahipótesiscientífica.
Confrecuenciaestevalor (quetieneunidad de medida)seestandarizapara que puedaser
comparadoentreunasinvestigacionesyotras.EstaestandarizaciónseconocecomodeCohenyes
semejante a una escala típica . No es muy complicado demostrar que a medida que aumenta el
tamañodelefecto,tambiénaumentalapotenciadelapruebaestadísticarealizada.
Lasiguientetablaresumequéfactoresafectanalapotenciaycómolohacen:
n,si… p,si…
Mayortamañodelefecto Menortamañodelefecto
Mayornúmerodesujetosenlamuestra Menornúmerodesujetosenlamuestra
Menorvarianzapoblacional Mayorvarianzapoblacional
Menorvarianzadeladistribuciónmuestral Mayorvarianzadeladistribuciónmuestral
Mayorvalordelniveldeconfianza(Dindulgente) Menorvalordelniveldeconfianza(Dexigente)
Encontrastesdeunasolacola(unilaterales) Encontrastesdedoscolas(bilaterales)
Enpruebasparamétricas(conelmismomuestral) EnpruebasnoͲparamétricas
Comoconsecuenciadetodoestoyamododeconclusiónsepuedeaseverarquelasituación
ideal para investigar, con vistas a conseguir una buena potencia en el contraste de la hipótesis, es
aquellaenque:
Ͳ seplanteaelcontrasteestadísticoa1cola,
Ͳ sepuedeemplearunatécnicaparamétricapararesolverlo,
Ͳ sefijaelnivelDൌǡͲͷhabitual,
Ͳ seestableceuntamañodelefectorazonablementeelevado,
Ͳ seestudiaunapoblaciónhomogéneaenlavariabledeinterés,
Ͳ yseseleccionaunamuestradetamañosuficientementegrande.
Precisamenteaestaúltimacuestiónsededicaelapartadofinaldeestedensoeimportante
Temateórico.
Basándonos en el enfoque propuesto por Neyman y Pearson, el tamaño
mínimo de muestra que se precisa para un estudio científico que tenga asociado el uso de una
metodologíaestadística,estáenfuncióndetresfactores:
Ͳ elniveldeconfianzaDquesefijaapriori(yasesabepreferentemente,05);
Ͳ lapotenciadeseada(preferiblementemásdel85%,mejoraúnsisuperael90%,ynuncapor
debajodel80%);
Ͳ y el valor del tamaño del efecto mínimo que se considera imprescindible para que se
produzcalamejorapretendida.
Al respecto me viene a la memoria una ocasión en la que recibí una llamada telefónica
urgente en la que unos colegas que se estaban planteando la viabilidad de una investigación me
pedíanqueledijesecuálseríaelnúmerodecasos(eranpacientesdeciertotrastornoatendidosen
undeterminadohospital)mínimoqueibananecesitar.Estanoesunacuestiónsintrascendencia,ya
que en ocasiones una estimación como ésta que fije el mínimo en, pongamos… 400 individuos,
impide que se aborde el estudio por cuestiones relacionadas con el elevado coste económico y
temporalqueellosupondría.
Siguiendoconlahistorieta,yaparezcounabuelocontandobatallitas,loanecdóticodelcaso
es que yo caminaba por la calle en el momento de la llamada y ellos pretendían que les diese la
soluciónenesemismomomento.Algocomplicado,comosecomprenderáenseguida.
Dado que el estudio se enfocaba hacia el empleo de un nuevo protocolo de intervención
terapéutica que mejorase las condiciones actuales, les hice dos preguntas a mis colegas: ¿en qué
cantidadfijabanelloseléxitodeestanuevaformadeterapia?y¿quépotenciaqueríanconseguir?
Alaprimerapreguntamerespondieronquesiactualmenteseestabarecuperandoun15%
delospacientes,conincrementaresteresultadoenun7%sesentiríanmuysatisfechos.¿Reconoceel
lector,elconcepto?...…Esperoquesí,…este7%demejoraeseltamañodelefectoexplicadoantes,
esdecirladiferenciaqueseconsideraquerepresentauncambiosignificativo.Estevalorimplicaque
elnuevométodotendríaéxitosirecuperaalmenosal22%(15+7)delosenfermos.
Alasegundapregunta,medijeronqueunosinvestigadoresbritánicosquehabíanpublicado
algoparecidohabíanconseguidounapotenciadel80%porloqueconesomismoseconformaban.El
80%recordemos,eselmínimoalquedebemosdeaspirar.
Nolespreguntésobreelniveldeconfianza,porquelógicamentemehabríadichoquetomase
elhabitual5%(D=,05).
Como por la calle no llevo calculadora ni tengo instalado un chip operativo en mi cerebro,
contodaestainformaciónmefuiamicasayallíhiceloscálculosqueacontinuaciónvoyaexplicara
mododeejemplosobrecómoestimarunmínimo.
Antesdenada,hayqueadvertirqueessóloeso,unejemplo,esdecirqueelestudianteno
debedepensarquesiempresevanutilizarestasmismasecuaciones.
Ejemplo18
Al uttilizar cierta técnica teraapéutica se consigue
c recuuperar a un 15% de loss
pacieentes que preesentan un determinado
d trastorno. See desea probbar una nuevva forma de intervenciónn
con la
l que esperaa incrementaar esa tasa de d recuperaciión en un 7% %. ¿Cuál serrá el tamañoo mínimo dee
muesstra que se vaa a precisar para ello, si se fija el niv vel D=,05 y se pretende tener una po otencia de all
menoos un 80%?
Deentrad da,loprimerroquedebemosdetene erencuentaesquelavaariablequee ejercedeVDD
enesstasituación es:recuperarsedeltrasstorno(si/no o)portantod dicotómica. Estoesmuyyimportantee
yaquueelparámeetroimplicad doenelconttrastequese evaaplanteeareslapro
oporciónSy nolamediaa
como ohemosestaadousandoaalolargodetodoestecaapítulo.
Enconcreeto:
Ͳ lahipótessiscientífica diríaalgoassícomoque “elnuevoprrotocolodeiintervenciónterapéutica a
incremen ntaenun7%latasadepacientesrecu uperados”;
Ͳ dado quee el valor de referenciaa es que ya se están reecuperando un 15% de casos, paraa
confrontaar la hipóteesis anterior habrá que plantearse una hipóteesis estadístiica sobre ell
parámetrroSdelosrrecuperadosconelnuevométodo,q quediga:Ɏ ǡͳͷ;esdeccirquepartee
delahipó
ótesisdequeeelnuevotrratamientom mejorasignificativamenteeel15%derrecuperadoss
queyaseeconseguíaaantes;
Ͳ porloqueelcontrasttedehipótessiscompletoserá:
Ͳ:Ɏୖୣୡ୳୮ୣ୰ୟୟୢ୭ୱȀ୬୳ୣ୴୭ ǡͳͷ
ͳǣɎୖୣୡ୳୮ୣ୰ୟୟୢ୭ୱȀ୬୳ୣ୴୭ ǡͳͷ
obsérvesee que el valor del tamaño del efectto (7%) no aparece
a en éél aunque se
ea necesario
o
paraelcáálculodelb
buscado.
Enconseccuenciaelm
modelodedisstribuciónm
muestralquevamosaem
mpleareselq
queapareció
ó
enlapágina191:
ܘሺିܘሻ
൫ɎǢ ɐ୮ ൯ ՜ ۼቆ ૈǢ ට ቇ
ቇ
ܖ
ܘሺିܘሻ ܘሺିܘ
ܘሻ
quedeelvalordelerrortípico:ો ܘൌ ට
enelq á: ܖൌ
sedespejará
ܖ ોܘ
Porlotanntotendremosquesaberantescuántovaleelerrortípicodeladistribuciiónmuestrall
delaproporción,asícomodeeterminarun nvalorparaeeltérmino queapareceeensuecuacción.
on asignarle a esta el mismo valor que se pro
mo es sencilllo, basta co
Esto últim opone en ell
contrrasteestadístico,esdecirr,15(el15% %departida)..
Encambioaveriguar cuáleselvaalordelerrortípicoyatienemásenjjundia.Yestoeraloquee
yonoopodíaresollvercaminan ndoporlacaalle.Parahallarlohayqueehacerunm montajesemejantealdell
cálculodelapoteenciadelejeemplo16antteriormenteresuelto;yeestablecerun nsistemade eecuacioness
oquevalgaeelpuntocrítticoqueseeparalaszonasdeaceptaaciónyrechaazodeͲen
conlo nfuncióndell
nivelDfijadoydeeladeseeada.
En el siguiente gráfico se obserrva todo el proceso, sisstema de eccuaciones incluido. Paraa
entennderlo mejor, recordar que
q arriba se s traza la curva que supone a Ͳ ccierta y debaajo a la quee
suponeaͲfalsaa:
Punto
crítico
Desdeelaexpresión
ndel
DൌǡͲͷfijaado estad
dísticodeconttraste:
ܘെૈ
܈ൌ
ોܘ
N ( 0 ; 1 )
ൌͳǡǡͶ
elsisttemaseestabblece
(0,15;;Vp) 0
0,15 p??
ǫy
coneelvalordela
suscorrespondie entes
Ladiferencciaentre enlassdistribucioneesde
ambosSeseelvalordel ambo ossupuestos:
tamañodeelefecto: EൌǡͲʹͲ ൌǡͺͲ
ܘൌ ǡ ȉ ો ܘ ǡ
0,220,155=0,07 N ( 0 ; 1 )
ൌͲ
ͲǡͺͶ
ܘൌെ
െǡ ૡ ȉ ો ܘ ǡ
(0
0,22;Vp) p?? 0,22
De manera quee igualando ambas exp presiones de e , despejamos el erro
or típico y con
c él
siguiendolaaexpresiónindicadaenlapáginaantterior,hallam
moselmíniimobuscado o:
Ͳǡʹʹ െ Ͳǡͳ
ͳͷ ͲǡͲ ሺͳ െ ሻ ͲǡͳͷሺͲǡͺͷሻ
ͳǡͶɐ୮ Ͳǡǡͳͷ ൌ െͲǡͺͶɐ୮ Ͳǡʹʹ ՜ ો ܘൌ ൌ ൌ ǡ ૡ ՜ ܖൌ ൌ ൌ
ͳǡͶ Ͳǡͺ
ͺͶ ʹǡͶͺ ɐʹ ͲǡͲʹͺʹଶ
Estee resultado nos indica que a partirr de una muestra con 160 pacientes, estaremos en
disposición decomprob barlahipóteesis,consiguiiendounapo otenciadel8 80%ómásssiempreque sede
el caso de que con loss datos emppíricos podamos admitirr que la nueeva técnica mejora de forma
f
decirRͲen
significativaalaformadeeinterveniraanterior(esd nelcontrasteeestadísticoanterior).
Am
mododeconcclusiónesmuyimportantequepensemosquepaaraotrassitu uacionesdon ndese
trabaje conn parámetro os diferentess o con planteamientoss distintos al
a que hemo os usado enn este
ejemplo,elprocedimien ntoserábásiicamenteelmismoaunq queyaadvertíquelasecu uacionesnoserán
siempreiguuales.
El cálculo
c del
mínimo precisa al meenos de los tres elemenntos citadoss al comienzzo del
apartadoen nlapágina2228.Yluego encadacaso osegúnelm
modelodedistribuciónm muestralimplicado
sepodránn necesitaradeemásotrosddatos.
No obstante, no se puede finalizar sin
n comentar que
q hay maatices que pu ueden variar este
procedimiento general y que no hay espacio en
e este mannual para traatar todos lo
os casos possibles.
Esperoquelodicho,alm
menos,hayaaservidoparraqueelestuudiantesehagaunaclaraideadecómose
procedeenlavidareald
delinvestigaador.
Tema 13
TÉCNICAS
INFERENCIALES BÁSICAS:
DISEÑOS DE 1 MUESTRA
13.1.ͲTécnicasdebondaddeajustealaNormalidad
13.2.ͲInferenciassobreelparámetromediaP
13.3.ͲInferenciassobreelparámetroproporciónS
13.4.ͲLatécnicaChiͲcuadradoparadatosde1solamuestra
Casitodaslastécnicasinferencialesdetipoparamétricoqueapareceránalo
largo del próximo Capítulo 5, exigen el cumplimiento de varios supuestos previos cuyo fin es
garantizareladecuadoempleodeunatécnicaestadísticaconcretaparaundeterminadocontrastede
hipótesis.Algunosdeestossupuestossonespecíficosdecadaprueba;perohayunoqueescomúna
lainmensamayoríadeellascuandolavariablesemideenformacuantitativa.
Setratadeldenominadosupuestodenormalidad,queestablecequelavariabledependiente
(VD)sedistribuyenormalmenteenlapoblación.
¡Cuidado!...porqueenlapartedescriptivadelmanualveíamoscómodeterminarsilosdatos
obtenidos en una muestra cumplen algunas de las propiedades que definen una curva normal a
partirdelosestadísticosdescriptivosdeasimetríaycurtosis.Ellospodríanseracompañadosporun
histograma como método gráfico, y por tanto visual, de comprobación. Pero, en todo caso, la
conclusiónalaquepodemosllegarconestasherramientasesquelaVDsepuedeonoasemejarala
normal…enlamuestrautilizada(revisarpágina131).
En cambio, la cuestión que ahora nos ocupa y a la que se refiere el citado supuesto de
normalidad,essipodemosinferirquelaVDseajustaconvenientementealmodelodelanormalenla
población,noenlamuestra.
Por tanto lo que sometemos a contraste inferencial es si las diferencias que se habrán
encontradoentreladistribuciónempíricaobtenidaenlamuestrayladistribuciónteóricaqueindica
cómo tendría que haberse distribuido esa variable para que siga el modelo normal, son aleatorias.
SóloencasoafirmativoseadmitequelaVDseacomodaelmodelonormalyquecumpleelsupuesto.
En este apartado vamos a hacer una rápida revisión de los procedimientos que tenemos a
nuestra disposición para comprobar la verificación de la condición de normalidad. Principalmente,
una prueba inferencial de tipo noͲparamétrico. Y aunque parece paradójico, esto es así porque lo
que se contrasta en esta técnica es la forma que tiene la distribución de la variable y ésta es una
cuestiónqueafectaatodoslospuntosdelcontinuoynoaunparámetrodeterminado(alrespectose
puedenrevisarlaspáginas183a185).
Porestemotivoseplanteauncontrastedehipótesisestadísticodonde,siempre:
Ͳ:laVDsedistribuyenormalmenteosecumpleelsupuestodenormalidad;
ͳ:laVDnosedistribuyenormalmenteonoseverificalacondicióndenormalidad;
yenelcualesnecesarioquesetomeladecisióndeaceptacióndehipótesisnula(conunapͲsig>,05)
paraquesecumplaelsupuestoteóricoquesecontrasta.Estoesasí,enlamayoríadelaspruebas
estadísticas que se emplean como medio de comprobación de condiciones previas al uso de otras
técnicasdestinadasalcontrastedehipótesiscientíficas.
Entretod daslasprueb
basestadísticcasqueresue elvenelconttrastecitado
o,lamásreco
omendadayy
utilizaada por la mayoría
m de los
l autores, es el Test de
d Bondad de
d Ajuste dee KolmogorovͲSmirnov,,
abrevviadamente Test KͲS. Esta técnica permite comprobar si una variable cuantitativva sigue unn
modeeloconcretodeprobabilidadqueenelcasoquenosinteresaaeselmodelonormal.
Elproced dimientoestansimple,quepodemossverlodirecttamentecon nunejemploo.
Ejemplo19
En unn estudio soobre rasgos de d personaliddad de los aadolescentes, entre otrass
pruebbas se ha applicado a unna muestra de d 50 casos el cuestionnario E.P.Q.R R. (Eysenck k Personalityy
Questionnaire Reevised) que permite
p la meedida de las dos
d dimensioones bipolarees de la perso onalidad quee
el auutor considerra más importantes: neeuroticismo-p psicoticismo e introverssión-extroverrsión. Comoo
condiición previa a posterioress análisis, see necesita verrificar si ambbas variabless cumplen ell supuesto dee
normmalidad.
SPSSͲ15 sitúa
s al Test KͲS en un menú
m global de pruebass no paraméétricas. Para llegar hastaa
ellah
hayqueseguuirlaruta:
ANALIZARÖPRUEBASSNOPARAMÉÉTRICASÖK KͲSDE1MUESSTRA
o: sisehacreadounaabarrarápid
obienenelicono dadeherram
mientasestad dísticas.
En dicha función se abre el cuaddro de diálo
ogo
que se
s inserta aquí al lado. En él, como o en todos los
demáás, se selecccionan las variables
v a analizar
a denttro
del liistado y se trasladan a
a la casilla de
d la derech ha.
Como osepodráo observaryavvieneactivad dapordefeccto
como oDistribucióndecontrasste:laNorm mal.Demane era
que simplemente pulsando en Aceptarr aparecerá la
tabla de resultad dos que se incluye debajo junto a su
interppretación.
Prueba
a de Kolmogorov-S
Smirnov para una muestra
m La infformación fundamental
f l
Neuro
oticismo- Introverrsión- quuecontienellatablaes:lamediaylaa
Psico
oticismo Extroveersión
N 50 50 deesviación típ pica de cad
da variable,,
Pará
ámetros normales Media 11,24 11,28
Desviación típ
pica
jun
nto a los esstadísticos de
d contrastee
4,525 4,160
deel test KͲS que son una (similar a
a
Diferrencias más Absoluta ,129 ,103
extre
emas Positiva ,103 ,085 unna )consu ucorresponddienteǦ,,
Negativa -,129 -,103
Z de
e Kolmogorov-Smirn nov ,913 ,731
quue será el valor desde el quee
Sig. asintót. (bilateral) ,375 ,659 haremoslatom madedecisióón.
AmbasǦǦsonmayyoresallímittehabituald del5%(,05ó
ó,050contreesdecimaless)porloquee
uedeaceptarrlahipótesisnulaquepo
sepu malidad.
ostulalanorm
Enconseccuencia,conestosdatoslaconclusió ónestadísticaaesque:
Ͳ se
s puede addmitir que la variable neeuroticismoͲppsicoticismo (media 11,2
24 y d.t. 4,52
2) cumple la
a
c
condiciónde
enormalidad dconunaǦde,375>,050(AͲ);
Ͳ y
y que tambiién se aceptta que la introversiónͲexxtroversión (media 11,228 y d.t. 4,16) se ajusta
a
a
adecuadame entealmodeelonormalco onunaǦde,659>,0550(AͲ).
Aunque el anterior procedimiento es el más utilizado existen varios más a nuestra
disposición. Por lo general están vinculados al entorno gráfico y no nos entregan valores de Ǧ
paraquetomemosnuestradecisión.EsteeselcasodelosgráficosPPyQQdenormalidad.
El gráfico PP representa las proporciones acumuladas (o probabilidades P) de todos los
valores observados en la VD para determinar si la distribución de las mismas coincide con las
probabilidadesesperadasparaunadistribuciónnormal.Encasodequeseverifiquetalcoincidencia,
lospuntosdelgráficoseconcentranentornoaunalínearectaquecruzaladiagonaldelmismo.
ElgráficoQQrepresentaloscentiles(oengeneralcuantilesQ)deladistribucióndelaVD
para determinar si la distribución de los mismos coincide con los percentiles de una distribución
normal.Siseverificaestacoincidencialospuntosdelgráfico,comoenelanterior,seconcentranen
tornoaunalínearectadiagonal.
AmbasrepresentacionesgráficasnoseencuentranenelmenúdeGráficosdeSPSSͲ15sino
eneldeEstadísticosDescriptivos,porloquelarutaparallegarhastaelloses:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖGRÁFICOSPP
obien:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖGRÁFICOSQQ
En el cuadro de diálogo que se abre, basta con seleccionar a las variables que se desean
representary Aceptar yaqueelmodeloNormalcomodistribucióndecontrasteyavieneactivadode
serie en el programa. A continuación se incluyen como ejemplo los gráficos PP creados por SPSS
paralasdosvariablesqueanalizábamosconKolmogorovͲSmirnovenlapáginaanterior:
En ambos se observa cómo los puntos representados se sitúan muy próximos a la recta
diagonal que simboliza la coincidencia perfecta entre probabilidades reales y probabilidades de un
modelodedistribuciónnormal.Enconsecuencia,seadmiteelcumplimientodelsupuestoestudiado;
lapegaesque,comoyaseadvirtió,estaconclusióncarecedeunvalordeǦquelaapoye.
NoseincluyenlosgráficosQQporquesonmuysimilaresalosanterioresyseinterpretan
exactamentedelamismaformaquelosanteriores.
Pero aún hay más. SPSS tiene otra función donde estudiar el supuesto de normalidad. Se
trata del menú EXPLORAR que ya apareció cuando se propusieron ejemplos para la estimación del
parámetromedia(verpáginas200y202).
Enél,SPSSnospermitecombinarambasestrategias,lavisualconlosgráficosylaestadística
conlastécnicasinferenciales.Enestecaso,eltestnoparamétricoqueseaplicaesunaversióndelde
KolmogorovͲSmirnov anterior que incluye una corrección descrita por Lilliefors que estima el valor
mínimo (el límite inferior) que tendría la Ǧ, por lo que el resultado no va a ser semejante al
obtenidoparaestosmismosdatosenlapágina232.DehecholaspͲsigdeestavariantedeKͲSson
siempre más pequeñas, por lo que puede haber ocasiones en que tengamos más dificultad para
aceptarlahipótesisnula.Poresarazóntambiénserealiza,deformaautomática,otrotestdebondad
deajustedescritoporShapiroͲWilkqueesmásconservador(pͲsigmayores).
AdemásestaspruebasestánacompañadasporunavariantedelgráficoQQantesdescrito
en la que se representan los valores directos observados y las puntuaciones que les
corresponderíanaestosmismosvaloressisetratasedeunmodelonormalestándar.
Comoyasesabeaestafunciónsellegamediantelaruta:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖEXPLORARosubotón:
En el cuadro de diálogo que se abre, se pasan las variables a analizar a la casilla derecha
comosiempre.Después,sepulsaen Gráficos… queabreunsubcuadrodediálogoenelquehayque
marcarlaopción:Gráficosconpruebasdenormalidadtalycomoseapreciadebajo:
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Neuroticismo-Psicoticismo ,129 50 ,037 ,952 50 ,043
Introversión-Extroversión ,103 50 ,200 ,979 50 ,522
a. Corrección de la significación de Lilliefors
Como supongo que el lector habrá observado, para la variableintroversiónͲextroversión se
aceptalahipótesisnuladeajustealanormalidadenambostest:enKͲSͲLillieforsconǦൌ,200yen
ShapiroͲWilkconunaǦൌ,522.AdemáselgráficoQQpresentaatodoslospuntosprácticamente
sobrelarectadiagonal.
En cambio, en la variable neuroticismoͲpsicoticismo aparecen dudas. Según la prueba de
ShapiroͲWilkaúnsepodríaaceptarͲaunquetengaunaǦ(,043)ligeramentemenorallímite,05
(ó,050quequizáalestudiantenovatoelusodelos3decimalesleayude).Estedatoestáexpresando
unmuylevedesvíodelmodelonormal.EncambiolapruebaKͲSconLillieforsbajaunpoquitomásel
valordelaǦ(,037)acentuandoel citadodesvío.Ysinembargoelgráfico apenasregistraestas
pequeñasdesviacionesdelmodelo,sóloenlosúltimos2puntosdelmismo,losquecorrespondena
lasZmáselevadas,podríahaberunapérdidadenormalidad.
Noobstante,laimpresiónglobalquenosdaelconjuntodeanálisisrealizadosindicaqueel
ajustedeambasvariablesestámásqueprobado.
Lafunción EXPLORARdeSPSSparaelusuarioavanzadodelprogramaesmuyútilpuestoque
integraen1sóloanálisisvariasacciones:
Ͳ calcularherramientasdescriptivas,
Ͳ dibujargráficos
Ͳ yaplicartestcomolosqueacabamosdecomentar;
ytodoello,además,pudiendointroducirvariablesdeagrupación(factores)queclasifiquen/dividana
lossujetosenfuncióndesuscategorías(verpáginas202Ͳ203)
Porejemplo,ademásdeloqueyasehaexplicadoanteriormentedeestemenúSPSS,cabe
añadir que también genera los gráficos de caja que utilizábamos (ver páginas 137 a 140) para la
exploracióndedatosoutliersenlasvariablescuantitativas.
Portodoestoleinvitoallectoraque“explore”lasopcionesdeestafunciónSPSS.
En función del sentido que posee el concepto de media aritmética, el
objetivo general de investigación que nos lleva a la utilización de estas inferencias es cualquier
cuestiónrelacionadaconelrendimiento(capacidad,nivel,competencia,...)queenlaVDalcanzanlos
sujetosdeunapoblación.Cuestiónqueimplicatantoalcontrastedehipótesisqueseráelusomás
común, como a la estimación del valor del parámetro P. A diferencia del apartado anterior, ahora
estamosanteunatécnicadelgrupodelasparamétricasyaquecomoesevidentehayunparámetro
directamenteafectado.
Ejemplo20
Dentrro del contexxto del anterrior estudio sobre rasgoss de personaalidad de loss
adoleescentes, el investigador
i q su población analizada es muy eextrovertida. El punto dee
se plantea que
corte de la escalaa I-E del test E.P.Q.R. quue limita la ex xtroversión es e 14. ¿Aporrtan sus dato os muestraless
algunna evidencia que apoye esta hipótesis?
unciado anteerior se establece como objetivo comprobar si eesta población presentaa
En el enu
deterrminadorasggo(serextro overtidos).P Porello,lahipótesiscienntíficapodríaaseraproxim madamente::
“la población
p ad
dolescente… … manifiestta un condu ucta extroveertida según el test EPQ QR”; que see
correespondería con
c la hipóttesis estadísstica: “la media
m de loss adolescenttes en el teest EPQR ess
signifficativamenttemayora1 14”.Enesta expresión habrárecono
h ocidoellectooraunaͳ comosuelee
ser habitual
h (hip
pótesis cienttífica = hipó
ótesis alternativa), de manera
m que el contrastte completo o
quedarácomosiggue:
Ͳ:ߤூாିாாொோ ͳͶo olamedianoessignificativamenteemayora14 4;
ͳ:ߤூாିாாொோ ͳͶ
Parareso
olverlo,acudiimosalaruttadenavegacióndeSPSSS:
ANALIZARÖCOMPARARM
MEDIASÖP RAUNAMUESSTRAosu
PRUEBATPAR ubotónrápido:
Enelcuadrodediálo ogo,comoen ntodos,
seleccionamos la l variable a estudiar y la
traslaadamos a laa casilla dereecha. Y en la parte
inferiior, donde dice
d Valor dee prueba esccribimos
siemp a parámetro en la
pre el valorr asociado al
hipóttesis nula, es decir 14 para
p el contrraste de
esteeejemplo.Nonecesitamosnadamás.
Terminam mos pulsando en Aceptaar y de inmediato apareecerán las d
dos tablas de
e resultadoss
quesseincluyenaacontinuació
óndondeseharesaltado olainformaciónclave:
Estadísticos
s para una mues
stra
Valor de prueba
p = 14
95% Intervaalo de
confianza paara la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior S
Superior
I
Introversión-Extro
oversión -4,,623 49
9 ,000
0 -2,720 -3,90 -1,54
Es posible
p que algún lecto or las prisass y el deseo de saber yya qué ha pasado
or llevado po
simplementtesehayafijjadoenelvaalordelapͲssig(,000)ap partirdelcuaalhabrápen nsado:rechazzoͲ,
luegolameediaenlaesccalaIEͲEPQRRessignificattivamentem mayora14.P Pues…sihah hechoesto,¡seha
equivocadoo!Veamospo orquéconcaalma.
De entrada,laffunciónSPSSSestádiseñaadaparatrab bajaren2co olas,algoqu ueindicalappropia
tabla de reesultados cu uando dice: Sig.(bilaterral). Por tan nto el valorr real de la probabilidaad de
significación na1solacolaserá,siem mpre,lamitad ddelvaloraanterior.Eneestecaso,po ococambia¿¿no?...
puestoquelamitadde,000seráaúnmenor;p porelloquizáálomáshab bitualesexpresarloasí:< <,000.
Demanera queellecto orpuedequeeinsistaenssuconclusión n:rechazo Ͳ,luegolam mediaenlae escala
IEͲEPQR es significativaamente mayo or a 14. Puees… se sigue equivocand do. Hubiese tenido razón n si la
mediaestim madora(ladeelamuestradeൌ50)fu ueseunvalo ormayora14 4,peronolo oes.Enlatabblade
descriptivossprevia,se observaqueeenlamuesstra: ഥ=11,28
8porloqueesíque hay unasignificación,
peroeslaccontrariade laesperadaaennuestrocontraste,e esdecirqueedesdelosd datosempíricoslo
queseobseervaesque la ߤூாିாொோ d delapoblaciónadolesce enteessignificativamenttemenora1 14.En
consecuenccianopodem mosadmitirn nuestrahipótesiscientífica,estapoblaciónnoesextrovertidaa.
Portanto,ennuestrocontrrastenopod demosestar rechazando laͲ.¿Cóm moesestopo osible,
silaǦeera<,000?... Larazónesstáenlascolasdelcontrraste.Elqueehemosplan nteadoesde ecola
derecha,po orloquelassuperficiedeladistribuciiónmuestrallquesecorrrespondecon nlaǦesttáala
derecha deel valor del estimador… y, en camb bio, éste se encuentra muy a la izquierda del valor
propuestoeenͲ.
Lassituaciónqueetenemosseeobservaen nelsiguiente egráfico:
Eláreadeccurvaquetie eneel
valor <,000
< citadoo antes serría la
Ǧ superficie a la izquierda del
(todalasuperficiealaaderecha)
estimad dor, ya quee la significación
enconttrada dice qu ue la media P es
Coladereecha
Unapistamuybuenaparadarsecuentadeloqueestápasandohabríasidofijarseenqueel
valor del estadístico de contraste “” de Student es negativo y en cambio el contraste es de cola
derecha. Este valor negativo de (4,623) ya indica que el estimador está por debajo de Ͳ y por
tanto en la cola contraria al contraste propuesto. Y en todos los casos como éste, en que el
estadísticosevaalacolaopuestaaladelcontraste,laǦquetenemosqueusarparalatomade
decisiónserásiemprelacomplementariadelaindicadaenla tabladeresultadosdeSPSS;esdecir
ͳcomohemoshechohaceuninstante.
Evidentemente, en los contrastes a 2 colas nunca nos encontraremos en esta situación. En
esos casos, simplemente la Ǧ que indica SPSS nos permite rechazar o no la Ͳ y después sólo
cuandoserechacemiraremoselvalordelestimadorparasaberladireccióndeladiferencia.
Formalmente todo lo que hemos estado explicando se expresaría en una conclusión
estadísticasemejanteaesta:“conunaǦ>,999yporellomayora,050nopodemosrechazarlaͲ
planteada, es decir que debemos mantener que P ч 14”… que es lo mismo que decir que no será
mayor a 14.Es muy importante acostumbrarse a laforma de expresarse en Estadística Inferencial;
siempresehacereferenciaaloquesediceenͲ ǡnuncasehabladeͳaunqueellaseacasisiempre
(comoaquí)laqueequivalealahipótesiscientífica.
Esta conclusión estadística nos llevaría a la conclusión que aparecerá en las publicaciones
científicasquees,másomenos,comoesta:“Lamuestrade50adolescentesobtuvoenlaescalaIE
del test EPQR una media de 11,28 (d.t. 4,16). Por tanto, con una pͲsig>,05 no existen evidencias
estadísticas que apoyen que esta población presenta una conducta extrovertida (Ͷͻൌ4,623;
p>,999)”, donde conviene fijarse que la Ǧ aparece simplemente como y que los datos del
contasteestadísticoseincluyensiemprealfinalyentreparéntesis.
Paraterminarconesteapartadounpardecuestionesmásalrespectodelainformaciónque
noshadadoSPSSenlastablasderesultadosincluidasantes.
Enprimerlugarenlosdescriptivosapareceelvalordelerrortípico(0,588)deladistribución
muestraldelamediaqueseempleaenestecontraste.Elvalor2,720queapareceenlatabladela
PruebaTcomoDiferenciademediasesexactamenteladiferenciaentreelestimador( ഥ=11,28)yel
valorpropuestoparaPenͲ(14).Elestadísticodecontrasteconsus49g.l.quehemosusadoantes
(4,623)seobtienedehacerelcocienteentreestadiferenciayelerrortípicodelamedia.
AdemástambiénenlatabladelaPruebaT,apareceunintervalodeconfianzaparael95%.Es
muyimportantequenocreamosquesetratadeldelparámetroP.Siendoelestimador11,28no
esposiblequeelsea:[3,90;1,54].Elqueapareceesunparaladiferenciaqueexisteentre
estimadoryparámetro,esdecireseldelerrormuestralquedefinimosenpágina195alhablarde
laconsistenciadeunestimador.
Pero,síquetenemoslainformaciónnecesariaparaqueconstruyamosnosotrosmismosel
delaPenIEͲEPQRdelapoblación.Así,paralaconfianzadel95%,bastaconquecalculemoselerror
máximocon:േͳǡͻ ȉ ߪത yqueselosumemosyrestemosalamediamuestral.Asíconnuestrosdatos
elcitadoerrormáximoserá:േͳǡͻ ȉ Ͳǡͷͺͺ ൌ േͳǡͳͷporloqueelICresultantees:
ഥ െ ͳǡͳͷ ρ
ሾ ഥ ͳǡͳͷሿ ൌ ሾͳͳǡʹͺ െ ͳǡͳͷ ρ ͳͳǡʹͺ ͳͷሿ ՜ ۷۱ሺૢΨሻǣൣǡ ૄ۷۳ି۳ ܀ۿ۾ ǡ ൧
que es una información que suele acompañar, casi siempre, a la conclusión científica anterior. Por
cierto,obsérvesequeestenocontieneelvalor14encoherenciaconloqueyasabíamos.
EnPsicologíayenmuchasotrasCienciasrelacionadasconlaobservacióndel
ser humano es bastante frecuente encontrarse con variables medidas en forma dicotómica o
dicotomizada, es decir que se presentan en dos categorías mutuamente excluyentes como por
ejemplo:“sanos/enfermos”,“tratados/noͲtratados”,“acierto/error”,“verdadero/falso”,“alto/bajo”,
“aprobado/suspenso”,etc...Engeneral,sonvariablesdeltipo:“si/no”cuandolaprocedenciaesde
naturaleza cualitativa, o del tipo: “mayor/menor” a un valor de corte cuando el origen de la
dicotomíaestáenunavariablecuantitativa.
Esteniveldemedidaqueahoraempleamosrequieredeuntratamientoinferencialespecial.
Deentradalaprimeradiferenciaquesenospresentaesqueenlarecogidayelresumendelosdatos
observados (como vimos en el Tema 5 del Capítulo 2) al investigador solamente le interesa la
cantidaddesujetos(lafrecuencia)queseencuentraencadaunadelascategoríasdefinidasenlaVD,
información que habitualmente suele quedar expresada en forma de porcentaje. En consecuencia,
quedanfueradeusoherramientastancomunescomolamediayladesviacióntípicaquehaestado
apareciendoconstantementeenlaspáginasanteriores.
Por tanto, cuando trabajamos con una variable dicotómica o dicotomizada, únicamente
disponemos de un estadístico que expresa la proporción (ó %) de sujetos en cada una de las 2
categorías.YcadaunadeestassonestimadoresdesusrespectivosparámetrosS.Elejemplomás
simple es suponer que en una muestra de 220 personas observamos 148 mujeres y 72 hombres
(variabledicotómica:sexo).Porloque:
ଵସ଼
Ö ൌ ൌ ൌ Ͳǡ͵seráelestimadordelaproporciónSdemujeresenlapoblación;y
୬ ଶଶ
ଶ
Ö ൌ ൌ ൌ Ͳǡ͵ʹseráelestimadordelaproporciónSdehombresenlapoblación.
୬ ଶଶ
Elobjetivoquenosllevaalusodeestatécnicaserácontrastarunahipótesissobreelvalorde
una de estas dos proporciones de sujetos que se encuentran en una categoría concreta de la VD,
aquellaquesealadeinteréscientífico.Enestalínea,estamosanteunatécnicamuy utilizadapara
contrastarhipótesisacercadela“presenciamayoritaria”(S ! ͲǡͷͲ)desujetosenciertacategoríade
la variable; por ejemplo a partir de los datos de arriba “¿se podría aceptar que en esta población
existe una mayoría significativa de mujeres frente a hombres?”. Esta pregunta teñida de carácter
científiconosllevaríaaunobjetivoqueseplasmaríaenunahipótesiscientíficayquesecontrastaría
planteandounaͲsobreelSdemujeresqueseresolveríaconelestimadorempleandolatécnica
queestamospresentandoenesteapartado.
A pesar de que de la mayoría de las veces que analicemos variables nominales estaremos
obligadosausartécnicasnoͲparamétricas,laqueahoranosocupaesunatécnicaparamétrica,porlo
quelaestrategiadetrabajoesmuysimilaraladelaanteriorpruebasobrelamediapoblacionalP.
Enprimerlugarvamosavercómoenfocarelcontrastedesdeestaperspectivaparamétricay
despuésveremoscómoloresolvemosconSPSS,cuestiónquetienesusmaticesmuyparticulares.
Elmodelo odedistribu
uciónmuestrraldelapropporciónyaseepresentóeenlapágina 191,asíquee
podemosirdirecttamentealeejemploconelqueexpliccarlasinfereenciassobreS.
Ejemplo21
Suponngamos quee se está realizando un estudio sobbre la incid dencia de laa
enferrmedad de Alzheimer
A en cierta zona ded Castilla-L León. El estaado de deteriooro mental se ha medidoo
con el
e conocido test
t Mini-Meental. Se sosppecha que po or las particuularidades dee esa zona la enfermedadd
afectaa más a lass mujeres que q a los hombres. En una muestrra representtativa de esa poblaciónn
apareecieron 239 personas
p conn valores en ele test indicaativos de deteerioro cognittivo debido ala Alzheimerr
de loss cuales 128 fueron mujeeres.
Enesteenunciadoseeplanteacom moobjetivodeinvestigaccióncompro obarsienesttapoblación n
tanp
particularlaeenfermedaddeAlzheimeersepresenttamásenmujeresqueeenhombres.Dadoqueell
sexoesunavariabledicotómica,esteobjetivoequivaaleacompro obarsientreestosenferm moshayunaa
mayo oríasignificattivademujeres.
Por tantoo la hipótessis científica que podríaamos redactaar sería, máás o menos,, así: “En la
a
poblaación de la zona… de CͲL…
C la enferrmedad de Alzheimer afecta
a más aa las mujerees que a loss
homb bres”.Estahipótesisimp plicaalparám metroSdem mujeresque tienenesta enfermedad d,porloquee
secorrespondeconlahipótessisestadísticca:“laproporcióndeenfeermosdeAlzzheimerquesonmujeress
gnificativameentemayora
essig a0,500(el550%)”.Enesttaexpresiónesperoque denuevoellectorhayaa
reconnocidoaunaaͳ,demaneraqueelco ontrastecommpletoquedaarácomosiggue:
Ͳ:ߨ௭ିெ௨௨ ͲǡͷͲͲ Ͳolaproporcióndemujjeresnoesssignificativam mentemayorra0,500;
ͳ:ߨ௭ିெ௨௨ ͲǡͷͲͲ Ͳ
Parareso
olverestecon ntrasteSPSSSͲ15notiene eunafunción nespecífica,esdecirque enoaparecee
entreesusmenúsunapruebaestadísticassimilaralad delamediaq quehemoseempleadoenelapartado o
anterrior.
Ahorabieen,enrealidaadlaherram mientaestadíísticaproporrciónenun navariablediicotómicaess
equivvalentealco
onceptodem mediaaritméética,aunqu uenomerecelapenaqu ueentremossendetalless
mateemáticos parra demostraarlo. Pero baasándonos en e esta iguaaldad concep ptual podremos usar laa
Prueb baTparaun
namuestraq queyavimossenelEjemp plo20;esosí,engañando oalprogramma.Paraello,,
tenemmos que deffinir a la varriable a anallizar (en este
e caso: sexo
o) asignando o siempre el valor 1 a laa
categgoríadeinterésparaelccontraste(mujeresenessteejemplo) yelvalor0 alaotracattegoríadelaa
dicotomía. El engaño no fun nciona con otros valore es numérico os. Las tablas de resultaados que see
incluyyendebajoddemuestran estaigualdaad.Sehancalculadocon nfunciones deSPSSyau utilizadasen n
variassocasiones anteriores:lladelaizquiierdaesunatabladefreecuenciasgeeneradacon ANALIZARÖ Ö
ESTADDÍSTICOSDESSCRIPTIVOSÖ ÖFRECUENCIA AS;ylaquea apareceasu uderechasehaobtenido oconlarutaa
ANALLIZARÖESTA ADÍSTICOSDESSCRIPTIVOSÖ ÖDESCRIPTIV VOSymarcan ndo:MediayyE.T.mediae enelcuadro o
dediálogodelas Opciones…:
SEXO
Estadísticos de
escriptivos
Porcentaaje
Frecuencia Porc
centaje válido
N M
Media
V
Válidos Mujer 128 53,6 533,6 Estadísttico Estadístico
o Error típico
Varón 111 46,4 466,4 SEXO DE ENFER
S RMOS
2
239 ,536
6 ,032
Total 239 100,0 100,0 C
CON ALZHEIMER
R
Commosehabrápodidocomprobar,enlaatabladefre ecuenciaslass128mujereesexistentessenla
muestra dee 239 enferm mos de Alzhheimer obserrvados son el 53,6%. Y la media dee la variable
e sexo
(1:mujer;0:hombre)ess,536completamenteeequivalenteaalaproporcióndemujerresenlamu uestra.
Igualdadquuedemuestraalodichoan ntes.
Asim
mismo la segunda tablaa de resultad e que el error típico de la proporciión es
dos nos dice
0,032;porlloque,ladisstribuciónmu uestralquessevaempleaarpararesollverelcontraasteplanteadoen
nteriores:ሺሺɎ୪ି୳୨ୣ୰ Ǣ ͲǡͲ͵ʹሻ.
lapáginaan Ͳ
Yattenemos,entonces,lavaariableprepaaradaparaengañaraSPSSSyusarlaP PruebaTparrauna
mediacon estaproporción.Aunquedichaprueebauseelm modelodeprobabilidad “”deStude ent,al
tenerൌ23 39,los238ggradosdelib bertaddeestta“”garanttizansuiguaaldadconlassdelaN ( 0 ; 1 ).
Siguiendolaarutayacitaada:
ANALIZA
ARÖCOMPA
ARARMEDIASSÖPRUEBA AMUESTRAosubotónrápido:
ATPARAUNA
escribiendo
oelvalor0,50
00(delaͲ)enlacasilla
) aValordepru
uebatalyco
omoseaprecciadebajo:
ocon Aceptaar seobtien
yterminado nelasiguientestablasde
eresultadossdonde,com
mosiempre, seha
sombreadolainformaciiónmásimportante:
Estadístico
os para una muesttra
Prueba para
p una muestra
Valo
or de prueba = 0.50
00
95% Inte ervalo de
confianzza para la
Diferen
ncia difere
encia
t gl Sig. (b
bilateral) de meddias Inferior Superior
SEXO DE ENFERMOS S CON ALZHEIMER
R
1,100 238 ,272 ,036 -,028 ,099
oporción de mujeres
(pro s)
Apesardel“truco”queacabamosderealizardisponemosdeunaopciónmás
sencilla.Ydeusomásgeneraltambién,puestoqueesaplicableatodotipodevariablescategóricasy
no solamente a las dicotómicas. Se trata de una técnica del grupo de las no paramétricas
denominadaChiͲcuadrado.
EnverdadbajoelnombreChiͲcuadradoaparecenenlaliteraturatodaunafamiliadepruebas
inferenciales, o métodos estadísticos, que tienen una fundamentación común pero un uso muy
distinto. En este capítulo sólo vamos a presentar la Prueba ChiͲcuadrado para una muestra que
requiereparasuusoqueendichaúnicamuestralavariabledeinterés(VD)seadetipocategóricoy
quenosetengaencuentaelposibleefectodeningunavariableindependiente(VI).
Como se acaba de decir todas las pruebas ChiͲcuadrado tienen un fondo teórico común y,
porotraparte,bastantesimple.Comoquieraqueesnecesarioconocerloantesdeemprendereluso
deestastécnicas,vayamosconellodeinmediato.
Ladiferenciaentrecadafrecuenciaysucorrespondientefrecuenciasedenominaresiduo
(representadocomo,suvalorserá:ൌparacadacategoría).Ysonlaclavedelaprueba.
Esobvioquecuantomayorsealacuantíadelosresiduos,menosprobabilidadestienedeser
cierta la hipótesis estadística planteada ya que la realidad se aleja más de aquello que se espera
segúnloqueproponedichahipótesisnulay,portanto,mayoreslatendenciahacialadecisiónde
rechazodelaͲ.
Lógicamenteelvalordeunresiduopuedeserpositivoonegativoporloquelasumadetodos
ellosserásiemprecero.Esteproblemaseresuelvedelamismamaneraquecuandoestudiábamosla
definicióndelavarianza(verpáginas125Ͳ126),esdecirelevándolosalcuadrado(ʹ).Ahorabien,el
valordeesteresiduocuadráticoʹtienedistintopesoenlatomadedecisiónsobreͲsegúncuálsea
lamagnituddelafrecuencia.
Aclarandoestacuestión:sisuponemosqueunafrecuencia es18ysucorrespondientees
14,elvalordelresiduoes: ൌ1814=4yporsupuesto ʹes16;comotambiénvaldría16unresiduo
cuadráticoentreunaൌ1504yunaൌ1500.Lacuestiónestáenqueunadiferenciader4sujetos,es
unerrormínimo,ounadiferencia despreciable, cuandoseesperaque haya1500sujetos(4sonel
0,3%de1500)yesunerrorenormecuandoseesperansólo14(unadiferenciade4individuosescasi
el29%de14).Enconclusión,unmismoresiduo(obien ʹ)pesamuchomáscuandolafrecuencia
es menor. Por ello, esta diferencia entre realidad e hipótesis que está representada mediante el
residuoseponderaproporcionalmentesiempreporlacuantíadelafrecuenciaesperada(ʹȀሻǤ
ElestadísticodecontrastedeestapruebadescritoporPearsonydenominadoChiͲcuadrado
(oJiͲcuadrado)quedanombreaestastécnicasyqueserepresentaporelsímbolo esunindicador
deladiscrepanciaentrerealidadehipótesisestadísticarepresentadaenͲyequivalealasumatotal
delasponderacionesdelosresiduoscuadráticosencontrados: ൌ ሾ܀ Τ۳ሿ.
Sedalacircunstanciaevidentedequesicadafrecuencia coincidieseconsurespectiva ǡ
todos los valdrían cero por lo que el estadístico ɖଶ valdría cero. Como esto es imposible en la
realidadporquesiempreexistirándiferenciasentrelasylas:elestadístico siempreserámayor
a cero. Y cuanto mayor sea su valor, mayores serán los residuos, más lejos estará la realidad (las
frecuencias )delo propuestoenhipótesisestadística(las )y menorserálaprobabilidaddeque
estahipótesisseverifique,talycomoyasedecíaarriba.
Conocidoenvalordelestadísticoɖଶ ,laúnicatareaquenosrestaparatomarladecisiónsobre
Ͳ es averiguar su probabilidad asociada o Ǧ. Pues bien, el nombre de este estadístico de
contrastesedebeaqueelmodeloteóricodeprobabilidadalqueseajustaessiempreunJiͲcuadrado
(presentado en páginas 169Ͳ170) y SPSS cuenta con las rutinas de cálculo necesarias para hallar la
Ǧqueandamosbuscando.
Lanormaparalatomadedecisióneslayaconocida:siemprequelaǦ>ǡͲͷ(5%)debemos
deaceptarlahipótesisnulaconloquesecumplelahipótesisestadísticaplanteada;mientrasquesi
laǦ<ǡͲͷpodemosrechazarlapuestoquehaydiferenciasignificativaentreladistribuciónyla.
Paraterminaryenlalíneahabitual,laconclusiónestadísticaqueacabamosdetomarnospermitirá
razonarsisecumpleonolahipótesiscientíficaplanteada.
Todoestosepodráverconmásclaridadmedianteunosejemplos.Perohayqueesperarun
momento antes de abordarlos porque conviene comentar primero qué técnicas concretas de la
familiaChiͲcuadradotenemosparacuandonosinteresensololosdatosde1VDen1muestra.
EnestaP
PruebaChiͲcuuadradodeu unamuestra
a,existen2vvariantesen funciónde lashipótesiss
dísticasquessesometenaacontraste:
estad
a) Hipótessis de homo q formulaa como Ͳ la igualdad de proporcciones entree
ogeneidad: que
todas las categoría as que conttiene la varriable depen ndiente. Porr ejemplo: ses pretendee
demostrarquenoh haydiferenciassignificativasentrelassopcionesdeopiniónso obrecómolo o
está haciendo el Gobierno
G en materia de economía (y ( si esta vaariable se midiese
m en 4
4
categorrías: totalmeente a favor,, a favor, en
n contra, tottalmente enn contra; la hipótesis dee
homogeeneidadplan ntearíaqueh habráun25% %decasosen ncadaunad deellas).
b) Hipótessisdebondaddeajuste aunadistribucióndadaa:queenuncciaenͲquelavariablee
dependiente se distribuye
d de una dete erminada manera
m teórricamente esperada y y
especifiicada,porelinvestigado or.Porejemplo:compro obarsialobsservarlasintomatologíaa
de ciertta patologíaa, las distinttas manifesttaciones se presentaránn con una determinada
d a
probabiilidadpreesttablecida;o también:verificarsienttrelosestudiantesdelassFacultadess
dePsicoologíadetod daslasUniveersidadesesspañolasel6 65%terminanlosestudio osenelaño
o
desuprromoción,ell25%pierden1ómásañ ñosyel10%restantenotermina.
Es interesante comprobar, a travvés de los ejemplos
e antteriores, quee es muy co
omún que laa
hipóttesis científicca a contrastar se form
mule en form
ma probabillística, o al menos en porcentajes,,
debid c esta información co
do a su mayyor comodidad de maneejo e interpretación. Es con on la que see
deterrminacómoseríaladistrribucióndefrecuenciase esperadas().
)
Ahoraya podemosirrconlosejem mplosdecadaunadeestasdosvarriantesdela PruebaChiͲͲ
cuadrradoparaun namuestra.
13..4.2.- La prueba Ch
hi-cuadrado
o de homog
geneidad
Esta prueba
p es laa alternativa que se citaba antes (páágina 243) como
c opción
n
más simple para comprobar la hipótesis del ejemplo o 21. Por lo que vamos a repetir diccho ejemplo
o
pararesolverlocoonelChiͲcuaadradodeho omogeneidad d.
Ejemplo22
Como oserecordarásetratabaadecompro obar:con unna muestra reepresentativaa
de cieerta zona de C-L si por las particulaaridades de esa poblaciónn la enfermeddad de Alzh
heimer afectaa
más a las mujerees que a los hombres. En E dicha mu uestra, de 2339 personas con deteriorro cognitivoo
debiddo al Alzheim
mer, 128 erann mujeres.
Eneelcuadrodeediálogoqueeseabreyqueaparece
al lado, see selecciona a la VD a
a analizar (een nuestro
ejemplo:seexo)yyaesttá,puestoqu uecomose observaen
lacasillaVaaloresesperaadosyavien neactivadappordefecto
laopciónTTodaslascattegoríasigua alesquecorrespondea
lahipótesisnuladehom mogeneidaddeestapru ueba.Porlo
que solo queda
q picar en Aceptar para terminar y que
aparezcanlassiguientesstablasdereesultados:
S
SEXO Estadís
sticos de contras
ste
Ejemplo23
En unna muestra reepresentativaa de cierta Universidad
U eespañola se han
h recogidoo
una serie
s de datoos de tipo psiicosocial. Enntre ellos la Ideología Poolítica con laa que más see identifican..
Esta variable se ha categorizzado en tres niveles clarramente difeerenciados (1: derecha; 2: centro; y
3: izqquierda) trataando de huir de los extrem mos y de loss matices com mo centro-izquierda. La cuestión
c quee
se pllantean los investigadore
i es es si habbrá o no differencias significativas eentre estos tres t tipos dee
ideología, de mannera que podamos afirmaar que la dom minante en essta poblaciónn es la de izqu uierdas.
EsteobjetivonosllevadenuevoaautilizarlatécnicadeCh hiͲcuadradop parauna1mmuestrabajo o
lahip
pótesisdeho omogeneidad dutilizadaantes.Porello,lasfrecueenciasesperaadasserániggualesenlass
tresccategoríasdeelavariableideología;m mientrasquelahipótesisnulaestableecequesiladistribución n
es igual a la distribución , no habrá diferencias significativa
as entre las opciones po
olíticas de laa
variable,porloquenoexisteningunaopcciónideológiicaqueseap predominantte.
La hipóteesis científicca podría ser: “En la población ded estudianttes de la Universidad…
U
predo ominan los que
q se identtifican con unna ideologíaa política de izquierda”. En cambio, el contrastee
estaddísticoseformulaenlafo ormageneraalhabitual:
Ͳ: ሺሻ ൌ ሺሻohayyelmismoporcentajedepersonasidenttificadasconccadatipodeiddeología;
ͳ: ሺሻ ് ሺሻoNO Ohayelmismo oporcentajed
depersonasid deideología.
dentificadasconcadatipod
quesseresuelvecconlamismaarutadeSPSSqueantes::
ANALIZARÖPRUEBASNOPARAMÉTRICASÖCH Oosubo
HICUADRADO otónrápido:
dondeenelcuad drodediáloggoqueseab bre,simplem mentehayqueseleccion narlavariableaanalizarr
ulsaren Acepptar paraqueeobtengamo
(ideologíapolíticaaparaesteeejemplo)ypu osestosresu
ultados:
Identific
cación con Ideolo
ogía Política Estadísticos de
e contraste
El lector avispado puede pensar que tales diferencias significativas no se encuentran entre
izquierda y derecha, sino que a simple vista parece que se darán entre cada una de esas dos
categoríasyladecentro,quehasidoconmucholamenoselegida.
Puesbien,estacuestiónpuedeesclarecerse,descartandoalossujetosdeestaúltimaopción
políticaycomparandosolamentealosdeizquierdaconlosdederecha.Paraellounaformasencilla
dehacerloesestablecerelvalor2delacategoría“centro”delavariableideologíapolíticacomodato
perdidoparaelSPSS(enlahojadeVistadeVariables,revisarpágina77)yserepiteelanálisisconla
mismatécnicaybajolamismahipótesissóloconlosdatosdelasdoscategoríasrestantes.
Hechoesto,elresultadohasido:
Identificación con
N observado N esperado Residual
Ideología Política
Derecha 65 72,5 -7,5 Chi-cuadrado 1,552
Izquierda 80 72,5 7,5 gl 1
Total 145 Sig. asintót. ,213
Ahorapodemosllegaralasiguienteconclusiónestadística:“unaǦൌǡʹͳ͵ǡͲͷͲnosllevaa
tomarladecisióndeaceptarla Ͳporloquenoexistendiferenciassignificativasentrelasopciones
izquierda y derecha de la variable ideología política”. Luego no hay una mayoría significativa de
estudiantes que digan ser de izquierda. Esto confirma nuestra sospecha anterior y las diferencias
significativasqueencontrábamossedebíanalaescasaeleccióndelaideologíadecentro.
Esta cuestión se comunicaría en forma de conclusión científica aproximadamente de la
siguiente manera: “Analizados solamente los encuestados con respuestas extremas, se observo un
55,2%deizquierdasfrenteaun44,8%dederechas.Conp>,05ladiferencianofueestadísticamente
significativa(߯ ଶ =1,552;gl=1;n=145;p=,213)”queunavezmásconvienerecordarqueesloúnicoque
apareceenlaseccióndeResultadosdelosartículoscientíficos.
13.4.3.- La prueba Chi-cuadrado de bondad de ajuste
Como se indicaba en página 245, también podemos utilizar esta prueba de
ChiͲcuadrado de una muestra para probar las denominadas hipótesis de bondad de ajuste a unas
proporcionespreviamentedefinidas.
Dichas proporciones o porcentajes, o probabilidades: deben ser establecidas con precisión
para todas y cada una de las categorías de la VD y no pueden ser todas del mismo valor (porque
entoncesseríaunahipótesisdehomogeneidad).
Esta situación nos lleva a una diferencia clara con respecto a la variante anterior y es que
lógicamenteahoralasfrecuenciasnoseránigualesparatodaslascategorías(comohasucedidoen
losdosejemplosanteriores)sinoqueestaráncalculadassegúnlaexpectativaprevia.Estoimplicaque
estaexpectativaeslahipótesiscientíficaqueelinvestigadorquierecomprobar,porloqueenesta
variante de ChiͲcuadrado como norma se puede decir que siempre la hipótesis científica se va a
corresponderconlaͲdelcontraste.Esdecir:
Ͳ: ሺሻ ൌ ሺሻolaVDsedistribuyesegúnloesperadoporlahipótesiscientífica;
ͳ: ሺሻ ് ሺሻolaVDnosedistribuyesegúnloesperadoporlahipótesiscientífica.
Paraverlo
o,nadamejo
orqueunnu
uevoejemplo
o.
Ejemplo24
Segúnn un estudio realizado en el año 2000 en laa población de jóveness
españñoles menores de 19 añños (edad media m 9,8 año
os) la prevaalencia de loos principalees trastornoss
psicoológicos tratados en hospitales púbblicos fue: un u 23% trasstornos de la conductaa, un 14,6% %
depreesivos, un 13,3%
1 de annsiedad, un 12,7% trastornos especcíficos del desarrollo, un u 9,7% dee
eliminación y conntrol de esfínnteres, un 4,,7% del sueñ ño y un 4,2%% de conductta alimentariia. El 17,8% %
restannte se repartiió entre mucchos otros traastornos cad da uno de loss cuales teníaa una prevalencia menorr
al 1,55%. En el añño pasado, enn cierto hosppital se han tratado
t a 1144 casos de mmenores de 19 años. Conn
los daatos de esta muestra,
m se pretende
p aveeriguar si la prevalencia
p h
hallada en ell año 2000 see mantiene o
ha haabido algún cambio
c significativo.
Delenunciadoseded ducequelaV VDaanalizares:tipode trastornopsicológicodiiagnosticado o
enmenoresde19años;que lógicamenteeesunavariiablecategórica,enconccretosehanestablecido o
8cateegoríassegú úneltextoan nterior.Estoyabastaríaparadecidirquelatécnicaausaresdelafamiliaa
de ChiͲcuadrado
C o. La hipótesis de investigación qu ue se deseaa someter aa contraste es que loss
porceentajes de presencia
p de cada uno de
d esos trasttornos manttienen la preevalencia de el año 2000..
Como oesobvioqueestaprevvalencianoeeslamisma paracadau uno,nosetrratadeuna hipótesisdee
homo ogeneidad,rrazónporla cualestamo osanteunC ChiͲcuadrado odebondad d deajusteq
quesostienee
como o hipótesis estadística
e ( Ͳ) que loss porcentaje
( es observado os en el último año enn el hospitall
estuddiadosonlossconocidos segúnlapreevalenciadelaño2000((citadosarrib ba).Comoco onsecuenciaa
elconntrasteestad dísticoserá:
Ͳ: ሺሻ ൌ ሺሻoloostrastornosssedistribuyyensegúnlaprevalenciaadelaño200 00;
ͳ: ሺሻ ് ሺሻoloostrastornossnosedistriibuyensegún nlaprevalennciadelaño22000.
Parareso
olverloacudim momenúdelosejemplosanteriores:
mosalmism
ANALIZARÖPRUEBASNOPARAMÉTRICASÖCH Oosubo
HICUADRADO otónrápido:
peroenelcuadro odediálogoqueapareceecambiamosslaformadeeintervenció ónyaqueahhorahayquee
indicaarleaSPSSccuálessonlo
osporcentajesesperado osparacadacategoríadelaVDpor elordenen n
definicióndeelamismaenlaHojadevariablesdeelabaseded
quesselehanasiggnadoenlad datosSPSSyy
quennotieneporq mismoordenindicadoenlahipótesis..Dehechoeennuestrocaasonoloes,,
queserelm
yaqu
ueelordenddelahipótesisvademayyoramenor prevalenciayelordendelascategorríasdelaVDD
enlabaseSPSSesotrocompletamentediferente.
magen de la derecha se puede
En la im
comp probarqued despuésdesseleccionaryytrasladara
laVD
Daanalizaraallugarseñalado,sehaccambiadola
opcióón de los ejemplos anteriores (Todas las
categgoríasigualees)porlaopcciónValores yqueenla
casillaa que hay a su ladoo se han anotado los
porceentajes espeerados paraa cada unaa de las 8
categgorías (13,3%%; 23%; 12,7
7%; etc…) pulsando
p en
Añadir paraagreg garlosdeunooenuno.
n Aceptar paraqueaparezcanlassigguientestablasde
Terminadocon estobastacconclicaren
resultados:
Tipo de trasttorno (menores de
e 19 años)
Ejemplo25
Según la OMMS la tasa dee mortalidad d de adultos (entre
( 15 y 59 años) en España
E
en el año 20003 fue de 116
1 varones y 46 mujerees, por cada 1000 habitanntes: es decirr que el 71,6 6% de
los adultos de ese margen de edadd, muertos en e España, fueron
fu varonnes. En una determinadaa zona
española se ha averiguaado que en el año 2004, sobre 1458 fallecidos
f 8991 fueron vaarones (un 61 1,1%),
lo que hacee pensar que hay una difeferencia signiificativa tal que
q la tasa de d mortalidadd para los vaarones
de este lugaar es menor.
pongo que para
Sup p todos es
e obvio quee la VD med dida es el seexo de los faallecidos, no
ominal
dicotómica por supuesto, y para laa que se plaanteará una hipótesis ciientífica desde los valorres de
mortalidadconocidosenlapoblació ónEspañoladelañoante erior.
Dichahipótesisensupartefundamentaldiceque:“latasademortalidaddelosvaronesdela
regiónde……,esmenoral71,6%detodoelterritorionacional”.
Para contrastarla se podría emplear una prueba paramétrica al estilo de la usada en el
apartado 13.3 (desde página 240), haciéndola corresponder con una hipótesis estadística sobre el
parámetroproporcióndemortalidaddevarones: ߨ௦ெ௨௧௦ ൏ Ͳǡͳqueseríaobviamentelaͳ
delcontraste.
PerotambiénesperfectamenteposibleemplearesteChiͲcuadradodebondaddeajusteenel
quenosencontramosenesteapartado.Paraellobastaríaconformularuncontrasteestadísticodel
tipoaldelejemplo24conlosporcentajesesperados(71,6%paravaronesy28,4%paramujeres)y
esperar a que tras el rechazo de la Ͳ los residuos nos indiquen que el cambio se produce en la
direccióndeseada(esdecirquehaymenoshombresmuertosdelosprevistos).
He optado por esta segunda solución para no perder el hilo conductor del Tema volviendo
atrás y porque lo interesante de este ejemplo no es esto sino que, como se advertía antes, sólo
tenemoslascifrastotalesynounabasededatosenSPSSconlainformacióndelos1458fallecidosen
elaño2004enesadeterminadaregiónespañola.Estaeslanovedadquejustificaesteejemplofrente
alosanteriores.
Laformaderesolveresteproblemaeslasiguiente.SeabreunabasededatosSPSSenblanco
yenlahojadeVistadevariablessedefinealaVDconsuscaracterísticas;enestecasosetratadel
sexoquecontienealascategorías:hombre(1)ymujer(2).Hechoestosecreaunasegundavariable
queenrealidadnovaasertalyaquelainformaciónquevaacontenereselnúmerodecasos(las
frecuencias)delascategoríasdelaVDanterior.Aestasegundavariable,quesedejaenescalacomo
nivel de medida adecuado, la podemos llamar como queramos, por ejemplo “Núm. de casos”. El
resultadodeestosepuedeverenlaimageninferior:
AcontinuaciónenlahojadeVistade
datos,enlacolumnadelaVDseescribensus
categorías. Y en la columna de la ficticia
variable que en realidad contiene el número
de sujetos, se escriben las frecuencias
observadas en la muestra. El resultado tiene
que ser el que se observa en la imagen
insertadaaquíaladerecha.
Antes de resolver el contraste, con la prueba ChiͲcuadrado o con el contraste sobre S que
daríalomismo,hayquedecirleaSPSSqueesosvalores(891y567)sonunafrecuencia,porquesino
lo hacemos el programa creerá que tenemos 2 casos: uno es un hombre que ha puntuado 891 en
alguna variable cuantitativa y el segundo una mujer que ha puntuado 567 en la misma variable.
CuandoenrealidadloquequeremosquesepaSPSSesquehay891hombresy567mujeres.Estose
hace mediante una función que aún no habíamos tenido la ocasión de presentar, se trata de la
Ponderacióndecasosyalaqueseaccedeconlaruta:DATOSÖPONDERARCASOS…
Elcuadrodediáálogoseabreetalycomoseveenlaimageninclu uidadebajoaalaizquierdaayen
la que el estado habitu
ual del proggrama cuand do se arrancca es “No poonderar caso os”. Esto hay que
cambiarlo por n “Ponderar casos
p la situacción que se ve en la deerecha, es decir se activva la opción
mediante”yyalacasilla dealladossetrasladalaavariableficticiadondettenemosalaasfrecuenciaas(en
nuestroejemplo:Núm.decasos).
N observvado N esperad
do Residual Sexo
o
Hombre 891 10433,9 -152,9 Chi-cuaddrado 78,883
Mujeer 567 4144,1 152,9 gl 1
Total 1
1458 Sig. asinttót. ,000
Páginadonde
Páginadonde
Término aparecepor
sedefine
primeravez
CA
APPÍT UL
LO
5
LA
A ASO
A OCCIA
ACIÓ
ÓNN
EN
NTRRE VA
ARI AB
BLE
ES
La
a asocia
ación en
ntre vari ables:
concep
ptos funddamenta ales
Asocia
ación en
ntre vari ables ca
ategóric
cas:
C
Chi- cuad
drado
Co
oncreció
ón del M
Modelo Explicat
E ivo de Efectos:
E
T de Stu
udent
Co
oncreció
ón del M
Modelo Explicati
E ivo de E fectos:
ANOVVA
Con
ncreción
n del Moodelo Pr edictivo
o:
Correlaci ón y Regresión Lineal
257
Tem
ma 14
4
LA ASO
OCIA
ACIÓ
ÓN
E
ENT RE VAR
V IABLLES:
CO
ONCEP
PTOS FUND
DAMEN
NTALE
ES
14.1.ͲP
Preámbulo
14.2.ͲEElconceptod
decorrelació
ónentrevarriables
14.3.ͲEElconceptod
dediferenciaestadísticaamentesignificativa
delatécnicaestadísticaadecuada
14.4.ͲLLaelecciónd
14.1.- Preámbulo
Hastaeltemaanterior,enlosprimeroscuatrocapítulosdelpresentemanual,
hemos venido trabajando en el uso de herramientas estadísticas para el análisis descriptivo e
inferencialdelosdatosde1solavariable.Enlarealidadcotidianadelosestudioscientíficosnuncase
mideunasolavariablesinoquesetienemuchamásinformacióndelosindividuosquecomponenla
muestrautilizada;estosepuedecomprobarencualquieradelasmuchasimágenesdebasesdedatos
deSPSSinsertadasenlaspáginasanteriores.Porelloenalgunaocasión,enalgunodelosejemplos,
esposiblequehayanaparecidomásdeunavariableenelmismoestudio,peroentodosloscasosse
tratabadevariablesqueteníanelpapeldeobservadasdentrodelcontextodeunainvestigaciónpor
loquesuanálisisserealizabasinestablecerningúntipodevínculoentreellas.
Apartirdeestemomentovamosadarleunimportantegiroanuestrorumbopuestoquenos
introduciremosenelanálisisestadísticoinferencialconjuntodedosomásvariables.
Esteeselámbitoalqueseleconocecomo:
Ͳ AnálisisBivariadooEstadísticaBivariada:cuandohaysólo2variables,unaVDyotraque
ejerceelpapeldeVI;
Ͳ y Análisis Multivariado o Estadística Multivariada: con más de dos variables, 1 VD y un
conjuntodeKvariablesindependientes(comomínimo2).
Ahora bien, antes de nada es muy importante advertir que el objetivo de estos análisis
bivariadosymultivariadosnoesestudiardeformaunivariadaacadaunadelasvariables,nimucho
menos.Elobjetivodelanálisisestadísticoqueaquícomenzamosestádirigidohaciaelconocimiento
deaquelloqueasocia,ovincula,alasvariablesentresí.
Esdecir,estapartedelaEstadísticasecentraenelestudiodelasrelacionesexistentesentre
las variables, de manera que se puedan extraer conclusiones sobre las conductas de los sujetos
inclusoenaquelloscasosenqueéstasnopuedanserobservadas.
YasabemosqueenPsicología,enlasCienciasHumanasySocialesyenotrasafinescomola
Medicina o la Biología, generalmente no basta con el estudio descriptivo de tipo univariado. Si el
investigadormidedosvariables(omás)noessolamenteconlaintencióndeconocersusmedias,sus
varianzas, los porcentajes, etc..., sino que se quiere ir más allá y descubrir si las variables están
asociadas o relacionadas. En definitiva, desea saber si tienen algo en común que las vincula de tal
maneraquealactuarsobreunadeellas,seproducealgúntipodeefectoenlaotra.
Por ejemplo en el campo de la Psicología Clínica y buscando un caso totalmente ficticio,
exagerado y de elevada gravedad pero útil para la explicación, podemos afirmar que una terapia
antidepresiva será eficaz si reduce el riesgo de tentativa suicida del paciente; pues bien, el
investigador estará interesado en el grado de relación o asociación que existe entre las variables
“número de sesiones de la terapia” y “grado de depresión” y a su vez entre ésta última y la
“tendencia suicida”, de manera que en función de esta información pueda determinar cuántas
sesiones necesitará (con una elevada probabilidad de certeza) para llegar a un grado de depresión
reducido en el que no tema por la vida de su paciente quien había ingresado en consulta con una
profundadepresión.
Es decir, que estamos entrando en el terreno del análisis estadístico mediante el cual
podemosdarrespuestaapreguntasdeinvestigacióncomoporejemplo:
Ͳ “¿Losalumnosconmásrendimientoacadémicopresentanunmayorniveldeautoestima?”
Ͳ “¿Laterapiaaversivaeselmejormétodoparalareduccióndelaenuresis?”
Ͳ “¿Hombresymujeresreaccionandediferentemaneraanteciertoestímuloagresivo?”
Ͳ “¿Qué terapia (… o dosis de medicación) es la más eficaz para el tratamiento de un
determinadotrastorno?”
Ͳ ¿Un mayor bombardeo publicitario desencadena el proceso psicológico que incrementa la
probabilidaddequelaspersonasrecuerdenmáselproductoanunciado?
Ͳ “¿Apartirdelos70años,esciertoqueamayoredadmásdeteriorocognitivo?
etc.,etc…que,comosesabe,sonelpuntodeorigenapartirdelcualsediseñanlasinvestigaciones
científicas,desdelasmássencillashastalasmáscomplejas.
Pero antes de comenzar con el estudio específico de todas las técnicas estadísticas que se
empleanpararesponderapreguntascomolasdearribayquecomponenelrestodeestemanual,
conviene realizar a un acercamiento, aunque sea todavía solamente teórico, a dos términos
generales que son la clave de todo: correlación y diferencia estadísticamente significativa. Desde
estemomentovanaformarpartedenuestrolenguajehabitualdurantetodoelrestodellibro.
Ambos conceptos son fundamentales en la Estadística porque que en torno a ellos se
formulan innumerables hipótesis, tanto científicas como estadísticas, que se plantean con la
intención de dar respuesta a las preguntas, como las anteriores, que se hacen los investigadores y
quejustificanlosobjetivosdeunestudiocientífico.Esciertoqueeltérminodiferenciasignificativaya
fuepresentadocuandosesentaronlasbasesteóricasdeloscontrastesdehipótesis(verpágina215),
sin embargo ahora adquiere un matiz importante puesto que se va a referir al efecto que las VI
ejercen sobre la VD. Esta nueva perspectiva se abordará enseguida en el apartado 14.3. Antes
vayamosconelqueescompletamentenuevo:correlación.
Losmétodosparaelanálisisestadísticodelaasociaciónentrevariablesson
muy diversos dependiendo del tipo de variables a correlacionar. La diferencia fundamental se
encuentraenlosprocedimientoscreadosparaestudiarlarelaciónentrevariablescuantitativasylos
quesonadecuadosparalasvariablescategóricas.Noobstante,lanocióngeneraldecorrelaciónes
exactamente la misma en ambos casos. Desde mi experiencia, creo que es más simple abordar la
comprensión del concepto de correlación desde la perspectiva de la asociación entre variables
cuantitativasyporelloasíloharemosacontinuación.
Unabuenaformadeiniciarseenelconceptodecorrelaciónentreestetipodevariableses
hacer referencia, aunque sea de forma superficial y sencilla, a un concepto básico en el campo
matemático.Enélencontramosuntipodemodelodenominadofunciónmatemática: ܑ܇ൌ ࢌሺ ܑ ܆ሻ.
Paraentendernos,podemosdecirsimplemente que setrata deunaecuación que contiene
unasconstantesydosvariablesnuméricas.Unadeellas,la ܑ ܆,eslavariableindependienteytoma
losvaloresquenosotrosdeseemosasignarla.Laotra,la ܑ܇, eslavariabledependienteysusvalores
están determinados por los de ୧ que se introducen en la ecuación y por los términos constantes
contenidosenlafunciónmatemática.Porellosedicequeéstaesunarelacióndeterminista.Quizá
sea necesario recordar que en la terminología científica (ver páginas 66Ͳ67) la VD es la variable
observadacomoefectodelaVI,quienasuvezsedefinecomolavariablemanipuladaomodificada
por el investigador. Los manuales especializados también se suelen referir a ellas como: variable
criterio(alaVD)yvariablepredictora(alaVI).
Existen bastantes tipos de funciones matemáticas, pero buscando el antecedente de la
correlación nos vamos a centrar solamente en las conocidas como funciones lineales. Éstas son
aquellasquealserrepresentadasgráficamenteentrelosejesdecoordenadasǢgeneranunalínea
recta.Enconcreto,haydostipos:ladirectamenteproporcionalylainversamenteproporcional.
2,5
Este otro tipo, representado por
2
Función lineal una recta decreciente, indica una
inversamente
1,5 proporcional relacióntalque:siseincrementaelvalor
1
de se produce una disminución en el
0,5
de (y al contrario). Ejemplo: siendo el
0
espacio una función constante, a más
65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 velocidad,menostiemposenecesita.
Lacaracterísticafundamentaldeestasrelacionesofuncionesdeterministas,eslaexistencia
de una biunivocidad constante, es decir que una vez definida la función (la ecuación) a cada valor
concreto ܑ ܆de la VI predictora le corresponde un único, y siempre el mismo, valor ܑ܇en la VD
criterio.
En el estudio de los atributos o constructos presentes en las Ciencias Sociales y de la
Conductadelserhumano,aligualqueenotrascienciasafines,haypares(y/ogrupos)devariables
que tienen una configuración semejante a la anterior pero sin que lleguen a alcanzar éste modelo
determinista.Elinvestigadorobservaquesimodificaelvalordeunavariable(talcomosehaceconla
VI)seproduceunefecto(uncambio)enunaVD,peroqueacadavalordedichaVInolecorresponde
unúnicovalordeVD,sinotodaunadistribucióndevaloresdistintosdedichaVD.Esteconjuntode
valores ܑ܇quesecorrespondenconunúnicovalorde ܑ ܆,sedenominadistribucióncondicional.
Unadistribucióncondicionalesladistribucióndelconjuntodelosvaloresde
unavariablecriterioqueestánenfunciónde,o“condicionadosa”,unacategoría ܑ܆
concretadelavariablepredictora.
Porestarazón,alrealizarunarepresentacióngráficadeunasituacióncomoéstaseobtiene,
envezdeunalínearecta,unanubedepuntosenlaqueseobservaciertatendencialineal:
105
4,5
95
4,0
85
3,5
75
65 3,0
55 2,5
45 2,0
35
1,5
25
19 21 23 25 27 29
1,0
19 21 23 25 27 29
La imagen de la izquierda evoca en cierta medida una línea creciente, por ello se dice que
tiene una tendencia lineal directa. Por el contrario, la de la derecha se asemeja a una línea
decrecienteyporellosedicequetieneunatendencialinealinversa.
Estamos ante una forma muy intuitiva, pero útil, de saber si dos variables cuantitativas
mantienenalgunarelaciónentresí.Estetipodegráfico,llamadodiagramadedispersión,presenta
visualmentelaconcurrenciadelaspuntuacionesquetienecadasujetoenlasdosvariables.
Por ejemplo, representando en un diagrama de dispersión con SPSS, los pares de
puntuaciones obtenidas por un grupo de 43 adolescentes anoréxicas en las escalas DT (que mide
obsesiónporladelgadez)yBD(queevalúalainsatisfaccióncorporal)delTestEDI2(Inventariode
TrastornosdelaConductaAlimentariadeD.Garner)nosencontramosconungráficocomoeste:
100
Enél,latendenciaquesepuedeobservar
80 es clara: aquellas adolescentes que tuvieron
60
valores elevados en la obsesión por la delgadez
EDI-BD (insastifacc. corporal)
EDI-DT (obs.delgadez)
laotra.
Esteeseltipoderelacióndenominadalinealdirecta,enlacualloscambiosenlosvaloresde
ambas variables se producen de forma asociada en la misma dirección; es decir aumentan
simultáneamenteydisminuyendelamismaforma.
Veamosotroejemplo.RepresentandoenundiagramadedispersiónconSPSS,losparesde
puntuaciones observados en una muestra de 80 participantes en una investigación sobre agudeza
visualenlasvariables:cantidaddealcoholingerida(enmgrs./lit. desangre)ynúmerodeaciertosen
un simulador de conducción, nos encontramos con la siguiente nube de puntos que, como se
aprecia,esmuydistintadelaanterior:
60
30
menoreselnúmerodeaciertosconseguidoenla
20
tarea, y al contrario. Es decir, que las
10
puntuaciones altas de una de las variables se
0
0,0 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8
asocianalasbajasdelaotravariable.
Mgrs. Alcohol / Litr. sangre
Estaveznosencontramosanteotrotipoderelacióndenominadalinealinversa,enlacuallos
cambiosenlosvaloresdeambasvariablesseproducendeformaasociadaendireccionesopuestas;
esdecirqueelincrementodelvalordeunavariablevaacompañadoporlareduccióndelvalorenla
otra.
Resumiendo y concluyendo con todo lo anteriormente expuesto, en Psicología y ciencias
afines, nos encontramos con variables que mantienen sin ninguna duda algún tipo de relación o
asociación puesto que los cambios producidos por el investigador en una de ellas (la VI) generan
cambios en la otra (la VD), aunque una determinada modificación no produce siempre el mismo
efecto como se puede apreciar en los ejemplos anteriores donde sujetos con el mismo valor o
puntuaciónenlaVItienendistintosvaloresenlaVD.
Pues bien, precisamente esto es una correlación, el hecho de que dos variables estén
vinculadas de manera que el cambio en los valores de la VI se vea acompañado del cambio en los
valoresdelaVD,peronosiempreenunamismacuantía.
Portanto,podemosdefinirformalmenteydemaneragenerala:
Una correlación como: el grado de asociación existente (o concomitante)
entre los valores (o categorías, en su caso) de dosvariables; de manera que quede
suficientemente explicada la forma (el ¿cómo?) y la intensidad (el ¿cuánto?) con la
queambasseencuentranvinculadas.
Estepuedeserunbuenmomentoparacomentarquelarelaciónlinealnoeslaúnicamanera
enquedosvariablescuantitativaspuedenestarasociadas.Asíporejemplo,conmuchafrecuenciase
dicequeelrendimientodeportivoseveintensamenteafectadoporelniveldeansiedadͲestadoque
tienenlosdeportistas;porellosepiensadeformahabitualqueunmayorniveldeansiedadincidede
formanegativaenelrendimiento,demaneraqueambasvariablesmantendríanunarelacióninversa
y elevada. Estudios realizados por Psicólogos del Deporte, encontraron resultados como el que se
expresa en el siguiente diagrama de dispersión que evoca a la conocida curva de la Ley de la U
invertidadeYerkesͲDodsonenelámbitodelosestudiossobremotivaciónyrendimiento:
22 En él, se observa claramente como
20 el rendimiento de los deportistas tiende a
18
ser bajo tanto en los valores de ansiedadͲ
estado bajos como en los valores elevados;
16
mientras que el citado rendimiento
14
aumenta,esdecirseoptimiza,enlosvalores
12
centralesdelcontinuodeansiedadͲestado.
Rend-Deport.
10
Como es evidente, las variables
8
correlacionan, pero no de una forma lineal.
6
10 20 30 40 50 60 70 80 90
Este tipo de asociación se denomina
Ansiedad-Estado
relacióncurvilínea.
Por otra parte cambiando de contexto, si nos centramos en el marco de la relación entre
variables nominales o categóricas, no cabe hablar ni de relaciones lineales ni de relaciones
curvilíneas,sinoquehayquehablardelaasociación,ovinculación,entredeterminadasyconcretas
categoríasdeunayotravariable.
Así por ejemplo si estamos estudiando la posible existencia de correlación entre el hábitat
(definidocondosniveles:ruralyurbano)yladisposicióndetiempolibre(quetienetrescategorías:
alta,mediaybaja),podemosencontrarqueelmediourbanoseasociaconunabajadisposicióndel
tiempo libre, mientras que el medio rural está asociado a una alta disposición del mismo. Es decir
quenosexplicacómoserelacionanlascategoríasdeunavariable(VI)conlascategoríasdelaotra
(VD).Debajoseincluyeunatabladecontingenciaconlosdatoscorrespondientesaesteejemplo;en
ella,leyendolascategoríasdecolumnayfilaencuyocruceestánsombreadaslascasillas,seobserva
lacorrelaciónantescomentada:
Tabla de contingencia Disposición de tiempo libre * Habitat
Habitat
Urbano Rural Total
Disposición Baja Recuento 135 18 153
de tiempo % de Habitat 60,0% 7,9% 33,8%
libre Media Recuento 66 42 108
% de Habitat 29,3% 18,5% 23,9%
Alta Recuento 24 167 191
% de Habitat 10,7% 73,6% 42,3%
Total Recuento 225 227 452
% de Habitat 100,0% 100,0% 100,0%
Otracuestiónadestacar,esquelasasociacionesentrevariablessonbidireccionales,esdecir
quesilavariableAseasociaconlaBdeunadeterminadamanera,entoncespodemosdecirquela
variableBseasociaconlaAexactamentedelamismamanera,porloquelospapelesdeVDyVIson
perfectamenteintercambiablesentresí.Porestarazónesporloquesesueledecirquelacorrelación
es una concomitancia, no una causalidad; es decir que expresa variaciones simultáneas y no
relacionesdecausaͲefecto.EselinvestigadorelqueleasignaacadavariableelpapeldeVIcausaly
deVDderesultadoenfuncióndelobjetivoydelahipótesisplanteada.
Yparaterminaresteapartadounaúltimacuestión,perodeenormetrascendencia. Elpeso
delamuestradondesehanmedidolasvariablesesclavealahoradeafirmarqueexisteonouna
determinadacorrelación. Enconcreto,elefectoquepuedetenertantoelazarcomoelnúmerode
casospuedellegarinclusoallevarnosaconclusionesequivocadas.Asípodríadarseelcasodequela
mera observación descriptiva de los datos muestrales nos invite a concluir que las variables están
correlacionadascuandoenrealidadnoloestán;perotambiénalainversa,cuandonoparecehaber
evidenciassobrelapresenciadecorrelacionesquerealmentesíexisten.
Porestarazón,duranteelanálisisdelosdatosobtenidosenunamuestraesimprescindible
someter a la correlación a un contraste de hipótesis denominado Prueba de la significatividad de
unacorrelación.Enélsiempreseplanteadeformagenérica:
Ͳ:lasvariablesnocorrelacionanyloqueseobservaenlamuestrasedebealazar;
ͳ: lasvariablescorrelacionansignificativamente(porloqueexistecorrelaciónenlapoblación).
Comosehabráfijadoellector,lahipótesisnulaessiempreunahipótesisdeindependencia,
deausenciaderelación,entrelasvariables.Ylaintencióndelinvestigador,comosueleserusual,es
la de rechazar esta Ͳ para demostrar la existencia de una correlación entre las variables que no
pueda ser justificada por el efecto tanto del azar del muestreo como del azar experimental;
cuestionesquesonespecialmentetrascendentescuandosetrabajacongruposdetamañoreducido.
Aunquelametodologíaesdiferentesegúneltipodevariablesqueseestáncorrelacionando,
entodasellassevaaobtenerunestadísticodecontrastequellevaasociadaunaǦdesdelacual
setomaladecisiónpertinente.Enlalíneadetodaslastécnicasinferenciales,sólosidichaǦ < ,05
sepuederechazarlaͲyconelloconcluirqueexisteunacorrelaciónsignificativaentrelasvariables
quevamásalládelmeroazar.
No obstante conviene comentar que el tamaño de la muestra donde se han medido las
variablestienemuchoquedecirenesto.Conmuestraspequeñas(como:<30ó<40)elerrortípico
delasdistribucionesmuestraleseselevadoporloqueelvalordelaǦdifícilmentepuedellegara
sermenoralnivel,05yenconsecuenciahaypocasposibilidadesdequesedetectencorrelaciones
significativasaunqueestasexistan(esdecirqueAͲFconloquehabríamoscometidounerrorde
tipo).Estoimplicaríaqueelinvestigadornohasidocapazdeconseguirlasuficientepotenciacomo
parallegaraprobarsuhipótesiscientífica.
A medida que aumenta el tamaño disminuye el valor del error típico de la distribución
muestralcorrespondiente,porloquetambiénsehacemáspequeñoelvalordelaǦyconello
serámásfácilquenospermitaalcanzarladecisiónderechazodeͲconlaqueconcluirlaexistencia
de una correlación significativa. Esto siempre y cuando realmente exista dicha correlación puesto
quesinoesasí,novaaaparecersimplementeporqueseaumentóel.
Sin embargo, el peligro que aquí se corre es que si se sigue incrementando el tamaño de
muestrahastaunacantidadciertamentemuyelevada,acabaríamossiemprerechazandoͲaunque
enverdadnoexistieselacorrelación,demaneraqueestaríamosanteunagravesituaciónenlaque
seestaríacometiendounerrordetipoሺRͲCሻ.
Comoconsecuenciadetodoesto,determinareltamañodemuestramínimoyadecuadopara
losobjetivosdenuestrainvestigación,serevelaaquícomoalgoesencial.Lametodologíaesdiferente
acadacaso,peropodemosadelantarqueconunentre40y150casossuelesersuficienteyqueno
senecesitangrandestamañosdemuestra.
Yasabemosqueelconceptodediferenciasignificativaesfundamentalenla
inferenciaestadística;estoyaquedódemanifiestoalexponerlasbasesteóricasdeloscontrastesde
hipótesis.PerocomoyaseadvertíaaliniciodeesteTema,elusoqueharemosahoradeélsebasaen
lamismaideaperobajootroenfoque.
TrasloaprendidoypracticadoenelCapítulo4yasabemosqueparaquesepuedarechazar
una hipótesis nula se necesita que el valor del estadístico de contraste que hemos obtenido en la
muestrasealejesignificativamentedelopropuestoendichaͲ;mientrasquesidichadiferenciano
fuesesignificativa(yportantodiríamosdeellaqueesaleatoria)tendríamosqueaceptarlaͲ.
En cambio, a partir de este momento y a lo largo del resto del Capítulo 5 que estamos
iniciando,vamosaextenderesteconceptoclavehaciasuusomuchomáscomúnyfrecuentequees
eldeladeterminacióndelaexistencia,ono,dediferenciassignificativasentrelosparámetrosque
definena2(omás)poblacionesosubpoblaciones.
El concepto general de diferencia significativa parte de que el simple hecho de que dos
númerosseandistintosnobasta,estadísticamente,paraconcluirquesuinterpretaciónosignificado
seadistinto.Asíporejemplo,queundíadeveranotengamosalas12:00h.38ºCdetemperaturao
que tengamos 36ºC, siendo temperaturas distintas numéricamente, no es una diferencia
estadísticamente significativa dado que la sensación de calor que percibimos sin duda es similar.
Pero,empleandolosmismosnúmerosparaqueejemploimpactemás,tener38ºCdefiebreotener
36ºC,síqueesunadiferenciasignificativaenlostérminosqueestamosexponiendo,puestoqueel
estadofísicodelapersona,ysupropiapercepción,cambiasustancialmente.Yaséqueesteejemplo
científicamente no es correcto, ya que se comparan conclusiones sobre variables distintas
(temperatura ambiental y temperatura corporal) que aunque se midan en escalas semejantes (al
menos, en unidad de medida) tienen interpretaciones y consecuencias totalmente distintas, pero
creemos que ilustra adecuadamente la cuestión, al menos de forma introductoria, puesto que se
deduce de él que si dos números distintos difieren significativamente es porque nos dan distinta
información sobre la VD, mientras que si difieren de forma no significativa es porque nos dan la
mismainformación.Yaprenderestoúltimoeselúnicoobjetivodelejemplo.
Extendamos ahora esta cuestión al contexto del análisis estadístico. Pensemos en una VD
cuantitativa que creo que es más sencillo para empezar. El simple hecho de que dos medias
muestrales (o cualquier otra herramienta estadística) tengan valores distintos no supone que sus
correspondientesparámetrostambiénseandistintos.Estees,precisamente,unodeloserroresmás
comunes en los principiantes, creer que porque dos o más estadísticos del mismo tipo (medias,
varianzas, proporciones, correlaciones, etc…) tienen distinto valor, ya indican resultados diferentes
en su interpretación. Y ello se debe a que olvidan (o desconocen) que precisamente ésta es la
intencióndelastécnicasinferencialespara2(ómas)muestras(queseincluyenenlosTemasdel15
al 18): verificar si las diferencias aparentes observadas entre las muestras son significativas, o no,
desdelaperspectivapoblacional.
Es decir, que estas técnicas estadísticas han sido desarrolladas para permitir y facilitar la
comparaciónderesultadosentregruposdesujetosyapartirdeelladeducirlaposibleexistenciade
relación entre las variables. En consecuencia, la confirmación de que una diferencia es
estadísticamentesignificativallevaalinvestigadoralaconclusióndequesehaproducidouncambio
enlaVDmedidaqueestáasociadoaunamodificaciónintroducidaenunaVI,loqueportantoimplica
lapresenciadeunacorrelaciónentrelasmismas.Mientrasquealcontrario,ladeterminacióndeque
una diferencia no es estadísticamente significativa, indica que no se ha observado ningún cambio
sustancialenlaVDapesardequesehayamodificadolaVIyque,enconsecuencia,losresultados
obtenidossondistintosúnicamenteporelefectodelazar(experimental,odemuestro).
Resumiendo, que la existencia de diferencias significativas entre parámetros, como por
ejemplolasmediasPdedos(omás)poblaciones,sedebeaquelaVIqueestácorrelacionadaconla
VD produce un efecto sobre ésta que modifica significativamente los resultados que obtienen los
sujetos.
Siguiendoconestaidea,supongamosporejemploquelaVDqueobservamoseselpesode
laspersonasendospoblacionesdistintasconhábitosalimenticiosdistintos,portomaruncasomuy
sencillo.Estasegundavariable,ladieta,seríalaVI.Enella,cadanivel(pongamos:dietaricaengrasas
frenteadietafundamentalmentevegetal)defineunapoblación;esdecir,quetenemos2nivelesen
VI que implican la consideración de la existencia de 2 poblaciones, o subpoblaciones si se prefiere
decirlodeestaotramanera,delascualesesnecesarialaextraccióndesendasmuestrasinsesgadas.
Si detectamos, mediante el pertinente análisis estadístico, la existencia de diferencias significativas
entrelospesosmedios(P)deambaspoblacionespodemosdeducirqueexisteunacorrelaciónentre
elpeso(laVD)yeltipodealimentación(laVI)delossujetos.
Por tanto, dado que si la razón por la que hay diferencias significativas entre los P de las
poblacioneseslaexistenciadeunacorrelación(tambiénsignificativa)entrelaVDylaVI,podríamos
decirqueestamosabordandoelestudiodelamismarealidad(laasociaciónentrevariables)desde
dosópticastotalmentedistintas,peroabsolutamentecomplementarias:ladiferenciasignificativayla
correlación.
Dicho todo lo anterior, supongo que ya el lector habrá pensado que todas las técnicas
inferencialesasociadasaestemarcoteóricosonpruebasdeanálisisestadísticosobrelasdiferencias
entre poblaciones. La inmensa mayoría de ellas se plantean sobre diferencias entre parámetros
(principalmenteentremedias,aunquepodríasercualquierotro)porloquepertenecenalgrupode
lastécnicasparamétricas.Perotambiénhayalgunasqueseplanteanacercadelasdiferenciasentre
distribuciones (de frecuencias, o de probabilidad) por lo que están incluidas en el grupo de las
técnicasnoparamétricas.
En el caso de las pruebas paramétricas, este nuevo enfoque de la significación implica una
modificación metodológica. Los modelos de distribución muestral que se definen ahora son
ligeramentedistintosdelosempleadosenlastécnicasinferencialesquevimosduranteelTema13
(enconcretoenlosapartados13.2y13.3).Dichocambiosepuedeintuirsidecimosqueahoralos
modelossondistribucionesmuestralesdeladiferencia,porejemplo:ladistribuciónmuestraldela
diferenciaentremedias.Portanto,cadavalornuméricoqueapareceindicadoenelejedeabscisas
de las mismas, no es el valor de un estimador sino que es el valor de una diferencia entre
estimadores,porloquelamediadelmodelocorrespondealvalordeladiferenciaentreparámetros.
Asimismo,lavariabilidaddeestadistribuciónvendráexpresadamedianteunadesviacióntípicaque,
engeneral,denominaremoserrortípicodeladiferencia.
Noobstanteloqueenrealidadsehacepareceunjuegodepalabrasquenoestal,puestoque
es un artificio matemático mediante el cual se define un parámetro diferencia equivalente a la
diferenciaentreelvalordedosparámetros.Esdecir,enelcasodelasmediasquesindudaeselque
másvecesseutilizaeninvestigacionesempíricas:setratadedefinirunparámetroૄ െ ૄ (llamado
“mediadelasdiferencias”)cuyovaloresexactamenteigualaladiferenciaentrelosparámetrosρଵ y
ρଶ (queseríala“diferenciaentrelasmedias”).Deahílodeljuegodepalabras,yaquelamediadelas
diferenciasesigualaladiferenciaentrelasmedias.Peroloimportanteaquíesqueestojustificaque,
comosedijoantes,cada valornuméricorepresentadoenladistribuciónmuestralcorrespondiente
seaunadiferencia.
Estas distribuciones muestrales de la diferencia, se emplean tanto para los contrastes de
hipótesiscomolasestimacionesdeparámetros.
Alrespectodelobjetivodeestimaciónhayquedecirque,obviamente,loqueseestimaesel
valor de la diferencia (del parámetro diferencia); es decir que no se estima cuánto vale cada
parámetroindividualmenteconsiderado,sinocuáleselvalordeladiferenciaentreellos.Estimación
queporsupuestoesdetipointervalar.Porejemplo,enelcasocitadoantesdelainfluenciadeltipo
dedieta(VI)sobreelpesodelaspersonas(VD),laestimaciónintervalarnosinformaríadecuálesla
diferenciadepesoentrelaspersonasquesiguenambostiposdedietas;esdecircuántoskilosmáso
menossepesasisesigueunadietauotra.
Encuantoalobjetivodecontrastarhipótesishayquedecirqueprácticamenteenlatotalidad
de los casos el contraste que se plantea es el que motiva este apartado teórico en el que nos
encontramos, es decir el destinado a saber si una diferencia es significativa o no. El artificio
matemáticoquesecomentóarribaproducequeelcontrasteestadísticoseformulesobreelvalordel
parámetrodiferencia.
Mejor lo vemos con un ejemplo. Supongamos que se desea comprobar si los estímulos
sonorosgenerantiemposdereacciónsignificativamentemenoresquelosvisuales.LaVIeseltipode
estímulos con 2 categorías o niveles (sonoro y visual) y la VD que se mide es el tiempo que las
personas tardan en emitir una determinada respuesta. De manera que tendremos una media del
tiempoantecadatipodeestímulos:ૄȀǤ yૄȀǤ .
Entonces:
Ͳ segúnhipótesis,seesperaquelaρȀǤ seasignificativamentemenorquelaρȀǤ
Pues no. El contraste se formula con el valor del parámetro diferencia. La cuestión es tan
simple cómo ¿cuál es el valor de la diferencia entre dos términos que son iguales entre sí?...
evidentemente:cero.Porloqueelcontrasteestadísticoqueenrealidadseformulaes:
Ͳ:ρୖȀǤୗ୭୬୭୰୭ െ ρୖȀǤ୧ୱ୳ୟ୪ Ͳ
ͳ: ρୖȀǤୗ୭୬୭୰୭ െ ρୖȀǤ୧ୱ୳ୟ୪ ൏ Ͳ
yengeneral:
Ͳ:ladiferenciaesiguala0oesunadiferenciaaleatoria;
ͳ: ladiferenciaesdistintade0oesunadiferenciasignificativa.
queesunaformulaciónadoscolas,mientrasqueladelejemploinmediatamenteanterioresdecola
izquierda.
Otro tipo de contraste de hipótesis que se puede formular tras comprobar laexistencia de
unadiferenciasignificativa,esaquelqueplanteaunahipótesisacercadelvalorquepuedetenerel
parámetrodiferencia;oloqueeslomismo,unahipótesisacercadecuántaesladiferenciaentrelos
parámetrosdelassubpoblacionesimplicadas.Elformatoessemejantealanteriorperoconcualquier
valor numérico a excepción del 0; dicho valorserá, lógicamente, el que se propone en la hipótesis
científicaformulada.
Endefinitivaqueestetipodecontrastetendríaestaformageneral:
Ͳ:ladiferenciaesigualaG
ͳ: ladiferenciaessignificativamentedistintadeG.
Pero no merece la pena entrar en muchos más detalles metodológicos; simplemente decir
que las ideas generales ya aprendidas se mantienen exactamente igual. En consecuencia, todo se
reduceabuscarunestadísticodecontrasteconcuyaǦsetomaladecisiónsobrelaͲ.Algoque
esigualparacualquieradelosdostiposdecontrastes.
Para terminar este Tema, unas breves recomendaciones de tipo general al
respectodecuáleslatécnicaestadísticaadecuada.
Porsupuesto,laprimeraclavevaaestarencuáleselobjetivodelainvestigaciónparaelque
estamos buscando una técnica estadística inferencial. Pero hablar de esto en este momento me
parece precipitado puesto que el estudio de estas técnicas está aún por hacer; de hecho es el
contenidodelrestodelmanual.Asíqueestaclaveseiráaprendiendopocoapocoalolargodetodos
losTemasquequedanpordelante.
Sinembargoenestemomentosíquesepuedencitarotrasclaves,muygeneralesesosí,pero
queyapuedecomprenderellectorsinningunadificultad.
En primer lugar el tipo de datos generado por la VD medida. En función de esto podemos
dividiralastécnicasentresbloques:
a) técnicas para datos cuantitativos: es decir para las variables cuantitativas cuyo origen se
encuentraenmedicionesrealizadasconescalasdeintervalooderazón;
b) técnicas para datos ordinales: aquellas construidas para variables cuasiͲcuantitativas que
songeneradasporelusodeunaescalademedidaordinal;
c) ytécnicasparadatosnominalesocategóricos:esdecirparavariablescualitativasresultado
delempleodeunaescalanominal.
Y en segundo lugar el diseño estadístico para el análisis de datos. La terminología de esta
segunda“pista”estávinculadaaladelametodologíaexperimental,aunqueahondarenesteasunto
noesmateriadelaEstadísticasinodelasasignaturasdeMetodologíay/oDiseñosdeInvestigación.
Encualquiercaso,enfuncióndeestecriteriocabríahablarde:
> Diseñosnofactorialesode1solamuestra:quesonaquellosdondenosetieneencuentael
posibleefectodeningunaVI.
> Diseñosfactoriales:dondesíqueseincluyealgunaVI(enlapágina67yaquedódichoqueel
término“factor”essinónimodeVIenciertoscontextos).
EvidentementelosdiseñosnofactorialesnosonobjetodeestudioenelpresenteCapítulo5.
Pero, se podría decir que las técnicas inferenciales adecuadas a esta situación están entre las ya
estudiadasenelTema13.
Por tanto, nos vamos a centrar en los diseños factoriales. Y dentro de ellos, se dice que el
diseñoes:
Ͳ unifactorialsihay1únicaVI;
Ͳ bifactorialsihay2VI;
Ͳ ymultifactorialcuandohay3ómásVI.
DadaslaslimitacionesdetiempodeestecursodeEstadísticaydetodosloscursosbásicosde
estamateriaqueseimpartenenlosprimerosañosdelosestudiosdePsicologíaycienciasafines,nos
vamos a centrar exclusivamente en los diseños unifactoriales. Además esta es la situación que se
corresponde con los llamados análisis bivariados (citados al comienzo de este Tema; página 258)
dondeseestudialaasociaciónentre1VIy1VD,queeselcentrodeatencióndeesteCapítulodel
manual.
Enestosdiseñosunivariadoselnúmerodeniveles,categoríasovalores,delaVIdetermina
exactamente el número de subpoblaciones y por tanto el número de submuestras diferentes a
considerardentrodelamuestraglobalseleccionada.Puesbien,elinterésdeestoradicaenquehay
diferentestécnicasestadísticasenfuncióndeéstenúmerodesubmuestrasestablecido.Enconcreto
tenemos:
Ͳ técnicasparadiseñosde2muestras(osubmuestras)cuandolaVItiene2niveles;
Ͳ ytécnicasparadiseñosdeKsubmuestras(siendoK>2)cuandolaVItieneKniveles.
Traslocualademássurgeunanuevacuestiónparacompletarelpanorama:enambostipos
siempreesnecesariodiferenciarsiestamosanteelcasodemuestrasrelacionadas,obientenemos
muestrasindependientesentresí.
La definición de lo que son muestras estadísticamente relacionadas, también llamadas
dependientes,esuntantoarduapuestoquesebasaencriteriosmatemáticosfundamentadosenla
probabilidadcondicional.Porello,quizáseapreferibleomitirla.
Sinembargo,sonmuyfácilesdereconocerporquesólosepuedenpresentaren3situaciones
concretas:
1ª)enlosdiseñosdemedidasrepetidas;
2ª)cuandosetrabajaconpersonasquetenganentresívínculossanguíneos;
3ª)enlosdiseñosdeinvestigaciónplaneadosconsujetosigualados.
Acontinuaciónsedetallanunpocomás.
1) Medidasrepetidas:conestenombreseconoceaaquelloscasosenquedeunamismaVD
setomanvariasmedicionesenunamismamuestradeindividuos,demaneraquedecada
uno de ellos no se tiene un único valor en VD sino que se tienen tantos valores como
medidassehayanrealizado.Estasobservacionesdelavariablevanaestarseparadaspor
espacios de tiempo, mayores o menores dependiendo del objetivo de la investigación,
durante los cuales se van a modificar las condiciones previas en función de una
determinadaVI.EnconsecuenciassetomantantasmedidascomonivelesdefinanalaVI;
por lo que el número de medidas se considera equivalente al número de muestras
(aunqueenrealidadsiempreseanlosmismossujetos).
Elcasoparticularenelquesetoman2medidasdecadasujeto(deltipoantes/despuésde
laintervencióndelaVI)sesueledenominar:muestrasapareadas.
Y el caso más general en que se realizan K mediciones (K>2) de los mismos sujetos se
sueleconocercomo:diseñosintrasujetos.
2) Vínculossanguíneos:estenombreseasignaaaquellassituacionesenquesetrabajacon
2 ó más grupos de individuos cada uno, pero de manera tal que estos sujetos están
emparentadosentresíporrazonessanguíneas.Esdecir,imagineellectorqueseplantea
una investigación comparativa entre hermanos; entonces se está realizando este diseño
cuandoseseparaaloshermanosengruposdistintos,porejemploloshermanosmayores
enlamuestraAysusrespectivoshermanospequeñosenlamuestraB.
Elidealdeestetipodecasosconsideradocomomuestrasrelacionadasseríatrabajarcon
hermanosgemelosomellizos.Comoestonoesmuycomún,elcriterioseextiendehasta
todoslosparentescosdeprimergrado.
Algunos autores aprovechan este grupo para incluir aquí a los pares de sujetos que
mantienen relaciones sociales estables; es decir: matrimonios, parejas de hecho, etc…;
aunque, a mi entender, este es un criterio débil para afirmar la dependencia entre
muestras.
3) Sujetos igualados: con este nombre se conoce a aquellos casos en que ante la
imposibilidaddeemplearalosmismossujetosenundiseñodemedidasrepetidascomo
elexplicadoarriba,sehaceuntrabajopreviodecorteexperimentalenelquesebuscan
personassemejantesentresíparaemparejarlas.Estetipotareaesmuynecesariacuando
secreequeexistenvariablesextrañas(VE)quevanacontaminarlacorrelaciónquepuede
haber entre la VI y la VD estudiadas alterando los resultados de la investigación. De
hecho, con los datos de aquellas VE que se puedan conocer y que tengan más peso, es
conloqueseigualanalossujetos.SetratadeintentarequilibrarelefectodelasVEen
cadaunadelasmuestrasdesujetosdistintosqueseesténnecesitando.Portantoigualar
sujetos es algo que se realiza antes de asignar a los sujetos a las condiciones
experimentalesdefinidasporlosnivelesdelaVI.
El estudiante quizá no haya pensado que en estos 3 casos explicados, puede haber 2 ó K
grupos,peroquesiempreeltamañodecadaunodeellosdebeserelmismo.Estoesunabuena
pistaparareconoceralosdiseñosdemuestrasrelacionadasodependientes.
Encambio,todaslasdemássituacionesquenosecorrespondanconalgunodeestos3casos
queseacabandepresentarpertenecenalosdiseñosdemuestrasindependientesentresí.
Para terminar con este apartado y con el Tema, debajo se incluye una tabla que pretende
orientarallectorsobrelastécnicasquesepuedenemplearcomoresultadodelcrucedelosdistintas
posibilidades existentes según los 2 criterios (tipo de datos y de diseño estadístico) que se han
presentado en las páginas anteriores. El número que aparece en cada casilla de la tabla es el
apartadoconcretodelpresentemanualdondeseencuentranlastécnicasquesevanaestudiarpara
cadaunodeloscasos.
2muestras 17.2.1
17.3.1 15.2
INDEPENDIENTES 17.3.1
2muestras 17.2.2
17.3.2 15.3
RELACIONADAS 17.3.2
Kmuestras 18.2
18.4.1 15.2
INDEPENDIENTES 18.4.1
Kmuestras 18.3
18.4.2 ͲͲͲ
RELACIONADAS 18.4.2
Las técnicas con más presencia en las investigaciones psicológicas son las que analizan VD
quegenerandatoscuantitativos.Paraellas,preferentementesevanaaplicarpruebasdelgrupode
las paramétricas y en la mayoría de los casos destinadas al estudio de medias poblacionales P. Sin
embargo éstas son, en todos los casos, técnicas exigentes en cuanto a las condiciones particulares
querequierenparasuusoadecuado.Porello,siemprehayquecontemplarlaposibilidaddequese
necesitealgunaalternativadetiponoparamétrico.
PrecisamenteestasalternativassonlasmismasqueseempleanparaVDdetipoordinal,ya
que todas ellas (las pruebas) se desarrollaron en su origen para este tipo de datos. Ya se ha
comentado que la posibilidad de usar directamente estos test no paramétricos, porque la VD es
ordinal,esbastanteremotaenPsicología.
Finalmente,hayquedecirquetodaslastécnicasparadatoscategóricosincluidasenlaúltima
columnadelatablaanteriorsondetiponoparamétricoprecisamenteporquelasVDdetiponominal
exigenelempleodeestetipodetest.
273
Tem
ma 15
5
ASO CIAC
A CIÓN
N ENT
TRE
VAR
RIAB LES CAT
TEGÓ
ÓRICAAS:
CH
HI- CU
UADR
RADO
O
15.1.ͲTTécnicasparraelestudiodelaasociaaciónentred
dosvariablesscategóricass
15.2.ͲC
ChiͲcuadrado
odeindepen
ndencia
15.3.ͲEEltestdeMccNemar
Las técnicas de análisis estadístico citadas y que integran este campo se
basanensumayoríaenelestadísticoconocidocomoChiͲcuadrado(oJiͲCuadrado)quefueideado
en1891porKarlPearson,consideradopormuchoscomoelpadredelaEstadísticamoderna.Sobre
algunosdelosaspectosdesuvida,ArthuryElaineAaronpublicanuninteresantecuadroensulibro
“Estadísticaparapsicología”(2001)quesereproduceacontinuación:
Durantesuvida,llevóalaEstadísticadesde De hecho, a lo largo de su vida, fue un
lasituacióndemateriaampliamenteignoradaauna hombre que provocó amistades devotas o por el
posición primordial para el método científico, contrario profunda aversión. William S. Gosset, el
especialmente en las áreas de investigación de las creador de la prueba T, fue uno de sus amigos. En
cienciasnaturales. cambio, Sir Ronald Fisher, autor entre tantas cosas
Lamentablemente, Pearson era fanático del análisis de varianza y hombre relacionado con
delaeugenesia,el“perfeccionamiento”delaraza actitudes aún más extremas, fue uno de los peores
humana a través de la reproducción selectiva y, enemigosdePearson(yelamableypacíficoGosset,
mástarde,suobrafueutilizadaporlosnaziscomo amigo de ambos, estaba siempre intentando
justificacióndesutratoalosjudíosyotrasminorías suavizarlosproblemasentreellos).
étnicas.PeroamedidaquePearsonenvejecía,sus En 1933, Pearson finalmente se retiró, y
opiniones encontraron fuerte resistencia y mucho fueFisher,nadamenos,quientomósulugarenla
descrédito por parte de otros estadísticos más cátedradeEugenesiaenlaUniversidaddeLondres.
jóvenes,loquesólosirvióparaponeraPearsonen En 1936, los dos comenzaron su más punzante
contra de una, cada vez, mayor cantidad de discusión;curiosamentePearsonmurióesemismo
colegas. año.
Cuando se presentó la técnica ChiͲcuadrado para una muestra (en página 243) ya se decía
que en realidad estamos ante una familia de pruebas no paramétricas destinadas al contraste de
hipótesisdondelaVDsiempreesdetiponominalocategórico.
En este momento le toca el turno al ChiͲcuadrado de independencia que es, sin duda, el
miembrodeestafamiliaquemásimportanciayquemasusotienedentrodelmarcodelaEstadística
Inferencial. El apellido “de independencia” que lleva esta prueba es un claro indicativo de su
finalidad,ymásteniendoencuenta que estamosenelCapítulodellibrodedicadoalestudiodela
asociaciónentrevariables(unaVDyunaVI).
EstaversióndelChiͲcuadradorequierequeambasvariablesseandetiponominal,oalmenos
que estén categorizadas en el momento en que se vaya a utilizar, y tiene como único objetivo
comprobarsiexisteunacorrelaciónsignificativaentreellas.Así,recordandoelejemplodelapágina
263 donde se cruzaban las variables hábitat (urbano/rural) con el grado de disposición de tiempo
libre (bajo/medio/alto) en el que nos parecía ver que el tiempo libre era mayor en el ámbito rural
que en el urbano, deberíamos emplear la prueba ChiͲcuadrado de independencia como método
estadísticomásadecuadoparaverificarsiestaapreciaciónsedebealaexistenciadeunacorrelación
significativaentreesasdosvariables.
El papel de VD y VI es meramente arbitrario y está adjudicado según el objetivo de la
investigación. En este ejemplo parece lógico enunciar que la disposición de tiempo libre sea la VD
quedependedelhábitat(VI)dondesereside.Puesbien,unaexigenciadeestatécnicainferenciales
que los individuos que se encuentran en las categorías de la variable que actúa como VI sean
distintos,paraqueconelloquedeaseguradoquelassubmuestrasquesedefinenenfuncióndeellas
seanindependientesentresí(repasarpáginas269a271siesnecesario).Dehechoenesteejemplo,
cabríalaposibilidaddequetuviésemospersonasquevivenpartedesutiempoenunhábitatyparte
enelotro,porloqueestaríanincluidosenambasmuestras.Yestonoseríaválido.Alseleccionarlos
casos,entonces,tenemosqueasegurarnosdegarantizarlaindependenciaentregrupos,esdeciren
elejemploquelaspersonasdelhábitatruralseandistintasdelasdelhábitaturbano.
Lapruebasedenomina “deindependencia”precisamenteporquesiempreseplanteacomo
hipótesisnulalaindependencia,esdecirlanoexistenciadecorrelación,entredosvariablescomolas
del ejemplo que se acaba de recordar. De esta manera la estrategia estadística sigue el esquema
habitual,esdecirtratardeprobarlahipótesiscientíficaqueporlogeneralserálaafirmacióndela
existencia de una correlación significativa a través de la negación de una negación; en definitiva
demostrarlacorrelaciónrechazandolaindependenciapropuestaenͲ.
Porlotanto,elcontrasteestadísticoquedaráformuladosiempredelasiguientemanera:
Ͳ: ሺሻ ൌ ሺሻolaVDylaVIsonindependientesentresí(nocorrelacionan);
ͳ: ሺሻ ് ሺሻolaVDylaVIestánsignificativamentecorrelacionadas.
ynecesitaremosqueelestadístico ɖଶ tengaunaǦ<,05(5%)parapoderrechazarͲyafirmarla
existenciadecorrelaciónsignificativaentrelasvariables.
LalógicadeesteChiͲcuadradodeindependenciaesexactamentelamismaquevimoscuando
se presentó a las pruebas ChiͲcuadrado de una muestra (repasar páginas 243Ͳ244). Ahora bien, su
peculiaridad es que las frecuencias esperadas () que representan a la hipótesis estadística Ͳ se
calculan haciendo un reparto proporcional de los totales observados en las categorías de ambas
variables,bajoelsupuestodequenoexistieseconseguridadningúntipodeasociaciónentreellas.La
formamatemáticadehaceresterepartonotienetrascendencia,entreotrasrazonesporquelohace
SPSSautomáticamente.Asíqueendefinitiva,loúnicoquenecesitamosrecordaresqueseestiman
cuáles deberían haber sido las frecuencias de cada casilla cruce de ambas variables en la tabla de
contingenciabajolahipótesisdeausenciadecorrelaciónentrelasmismasyéstassonlas.
Enrigor,elcálculodelestadístico ɖଶ ideadoporPearsoncomoherramientaparallegarhasta
elvalordelaǦsólosepuedeefectuarcuandoeltamañodemuestratotalseamayora30casos
(inclusomejorsiesmayora40)yningunadelasfrecuencias seamenora5.Sinosecumpleesta
doblerestricciónhayqueefectuaralgúntipodecorrecciónduranteelcálculodedichoestadísticoɖଶ .
Todosloscasosposiblessepresentanresumidosenelsiguienteesquema:
EleccióndelestadísticodecontrasteparaelcálculodelaǦ
enlostestdesignificatividaddelaasociaciónentredosvariablescategóricas
͵Ͳytͷ dePearson
Tablasdeʹʹ corregidopor
(VDyVIcon2categorías) ͵Ͳperohay൏ͷ continuidad
ɖଶ con1gradodelibertad (Yates)
൏͵Ͳ TestdeFisher
͵Ͳytͷ dePearson
Tablasde
(másde2categorías)
͵Ͳ
ɖଶ conሺͳሻሺ
ͳሻg.l. deRazónde
perohaymásdeun
Verosimilitudes
25%de൏ͷ
Elfondometodológicodelcontraste,talycomoseexpusodurantelalógicadelaspruebas
ChiͲcuadrado (página 243), es el análisis de la significatividad de los residuos () encontrados. Y
precisamente el valor del residuo de cada casilla de la tabla va a ser un dato imprescindible para
interpretarcómoseasocianlasvariablesenelcasodequesedecidaquehaycorrelaciónsignificativa
(rechazandoͲnoloolvidemos).
En concreto existe untipoderesiduo denominado:tipificadocorregido ()cuyovalorse
obtienealdividirelRnatural(ൌ)decadacasillaporunaestimacióndelerrortípico,porloque
el resultado viene expresado como distancias en unidades de desviación típica y esto es casi lo
mismoqueunadelasqueusamosenelmodelodelanormal.Deahísuinterésyquesealamejor
herramientaparaencontrarcómoseasocianentresílascategoríasdeambasvariables.
Dichaestandarizaciónpermitequesuinterpretaciónestéuniversalizadaconindependencia
decuálesseanlasvariablesacorrelacionary,sobretodo,deltamañodemuestrautilizado.
Concretando:
Ͳ entodacasilladondeaparezcaun > +1,9(esdecir,apartirde+2)podemosafirmarque
esacategoríadelaVDestáasociada,deformasignificativa,conlacategoríadelaVIconla
quesecruza;
Ͳ pero además, en toda casilla donde el > +1,5 (es decir, desde +1,6 pero no llega a +2)
aunquenopodemoshablarderelaciónsignificativa,síquepodemospensarenquehayuna
tendenciaquepodríallegaraserloenpróximosestudios.
Deloinmediatamenteanteriornuncadebedededucirsequeelanálisisdelosresiduosesla
formadecomprobarlacorrelaciónentrelasvariables.Esperohaberdejadoclaroquelaexistenciade
correlación se contrasta en primer lugar con la prueba ChiͲcuadrado de independencia de la que
trataesteapartadoydespués,sóloenelcasoqueseconcluyaquehaycorrelaciónsignificativa,los
residuos(lospreferiblemente,traslodichoantes)nosdanlainformaciónnecesariaparaconocer
cómoseasocianlascategoríasdeambasvariables.
Además del estudio de los residuos, cuando se concluye que la correlación es significativa
tambiénesbastantefrecuentequesecalculeunestadísticoestimadordelamagnitudointensidad
de la asociación que se ha observado entre las variables. Algunos autores llaman a esto la
“estimación del tamaño del efecto” en un símil con el término del mismo nombre definido (ver
página227)cuandosehablódeltemadeloserroresylapotenciaenloscontrastesestadísticos.Sin
embargo, su interpretación en este ámbito no se parece en nada a lo que allí quedó dicho. Las
herramientas estadísticas que se emplean para cuantificar esta intensidad en la relación se
denominan genéricamente: coeficientes de correlación. Y del plural que se emplea se deduce que
hayvarioscoeficientesanuestradisposición.
Enconcreto,asociadosaestetestChiͲcuadradoexistenfundamentalmentedosquetambién
fueronideadosporPearson:
1) elcoeficientePhi(quesuelevenirrepresentadoconelsímbolo:I)queseempleaentablasde
contingenciadeʹ ʹ,esdecircuandolaVDylaVItienen2categoríascadauna;
2) yelcoeficientedecontingencia(representadocon:)queseutilizaentablasdeltipo: ,
expresiónqueseempleacuandoalmenos1delasvariablestiene3ómáscategorías.
Ambostomanvaloresenelrangoteórico: Ͳ o ͳ,dondeelvalorͲ,denominadocorrelación
nula, indica la ausencia de correlación y el valor ͳ indica una correlación perfecta. Ambos límites,
especialmenteelsuperior,sonimposiblesdeobtenerenlarealidad,porloqueseconsideranlímites
Ejemplo26
Con los
l datos recoogidos en el estudio sobrre la disposicción del tiem
mpo libre y ell
hábitat de residenncia de las personas
p (apparecidos en la página 2663) se deseaa comprobar si se puedee
afirm
mar que las peersonas que viven en hábbitats urbano
os tienden a tener
t una dissposición máás baja de suu
tiemppo libre que las
l que vivenn en zonas ruurales.
A continuación pulsamos el botón Estadísticos… y se nos abre el subcuadro de diálogo que
aparecedebajoalaizquierda.Enél,marcamosChiͲcuadradoparaquenoscalculeelestadísticode
contrastecontodassusalternativascitadasenelesquemadelapágina277ytambiénactivamosel
CoeficientedecontingenciayaqueenestecasolaVDtienemásde2categorías.Salimosdeaquícon
Continuar para volver al cuadro principal. Ahí, picamos en el botón Casillas… y se nos abre el
subcuadro insertado debajo a la derecha. En él, a lo que ya viene activado de serie añadimos la
marca en Porcentajes de columna (o donde hallamos colocado a la VI, en este caso por eso en
columnas)yenResiduos:Tipificadoscorregidos.Cerramoscon Continuar .
Alaizquierdavemoslatabladecontingenciadondeaparecenlos .Aladerechaarriba,la
tabla con la significación y debajo de ella se ha insertado la que contiene al coeficiente de
correlación.
Enprimerlugarrevisaamoselconttenidodelatabladesign nificación,laqueSPSSllaamaPruebass
ChiͲcuadrado. En n ella obsérvvese que sieempre va a aparecer un na nota al p
pie que nos informa dell
h tenido una frecuen
porceentaje de caasillas que han ncia ൏5. En n nuestro ejjemplo, com mo no hubo o
ninguuna, es el 0%. Esto unid do a que ell ൌ452 es mucho mayyor que el m mínimo, noss indica quee
estammos en las condiciones
c adecuadas ee ideales para el uso deel estadísticoo ɖଶ . Éste ap
parece en laa
primeerafiladeessatablayvaale201,86co on2g.l.;su Ǧൌ,000<<,050nospeermiterechaazarlaͲdee
indeppendencia y y ya nos llevaría a la conclusión
c estadística:
e “con una Ǧൌ,000<,0 05 podemoss
rechaazar Ͳ por lo que la diisposición deel tiempo lib
bre (recuérdese la VD) n no es indepeendiente dell
hábittat (la VI)” . Es decir que
q estamos concluyen ndo que las variables eestán significcativamentee
relacionadas.
Por ello, proseguimo os con el an
nálisis de loss residuos. En
E la tabla de continge encia se han
n
somb breadolos >+1,9.Leye endolascateegoríasdefilaycolumnaadelascasilllasdondese eencuentran n
deducimosque:llacategoría delhábitatu urbanoestáasociadacon nlascategorríasdetiemp polibrebajoo
ymedio,mientraasquelacategoríadeháábitatruralsseasociacon nlacategoríaadedisposicciónaltadell
tiemppolibre.
Finalmente,latablaq queSPSSllamaMedidasssimétricas contieneel valordelco oeficientedee
contingenciaqueeusamosparracuantificarlaintensidaaddelacorrrelaciónenco ontrada.Com mosepuedee
ଶ
ൌ,556(conunaǦൌ,000quees lamismade
ver: elestadístico o ɖ anterior).Estaintensidadpuedee
serco
onsideradaccomountam mañodelefectoelevado.Alrespectodeestoúltimo,debesaberellectorr
queddesde,300h habríamoshaabladodeun naintensidadmoderadaydesde,50 00yasedice equehayun n
grantamañodelefecto.
Para term minar, todo esto quedaaría resumido en una co onclusión dee tipo científico que yaa
sabemmosquees laqueapareeceríaenunacomunicaccióncientíficca,másomeenoscomolaquesigue::
“encuuestadas 225 5 personas del hábitat urbano, se comprobó
c que un 60% manifestaron tener una a
baja disposición de su tiemp po libre, mientras que un n 29,3% lo calificaron
c d
de disposición n media. En
n
camb bio,enlamu uestrade227 7personasd delmediorurral,un73,6% %admitíanun naaltadispo osicióndesuu
tiemppo libre. Con
n una p<,05 podemos ad dmitir la exisstencia de co
orrelación siignificativa entre
e ambass
ଶ
variables(߯ =201 1,86;gl=2;n==452;p<,000 0).Eltamaño odelefectoeeselevado(,556)”.
Ejemplo27
Se haa realizado un
u estudio qu ue pretende comprobar lla posible reelación entree
las vaariables: ser o haber sidoo consumidorr habitual dee drogas (coccaína, marihuuana, etc..) y el hecho dee
tener hijos/as quee también seaan adictos a cualquiera de d estas sustaancias. Para ello se han recogido loss
datoss de una mueestra aleatoriaa de 328 perssonas de amb bos sexos (185 varones y 143 mujerees) de edadess
compprendidas enttre los 32 y losl 45 años, que son pad dres y madres de hijos/ass de al menoss 15 años dee
edad.. (Losresultaddosobservadoossemuestraandirectamennteenlatabladecontingeenciaqueapaarecedespuéss
paraaahorrarespaccioaquí).
Deltextoanterioresobvioqueseededucequeelobjetivo oplaneadoesaveriguarssilaadicción
n
acierrtasdrogasd
depadresehhijossonvarriablesqueestánsignificaativamenteccorrelacionadasentresí..
Ante estopodríamosenunciaaralahipótesiscientíficcadeestam manera:“Lap probabilidadddequeuna a
persoonaqueeso oquehasidooadictaalaasdrogastenngahijosquuetambiénlo osean,esm
mayorquela a
proba abilidaddeq
queestoleoccurraaaqueellosquenoh
hansidonunncaadictosaningúntipodedroga”.
Ambas variables se han definido como dicotómicas (si/no) por lo que la prueba más
adecuada para contrastar esta hipótesis es el ChiͲcuadrado de independencia. En él, el contraste
estadísticoseplanteasiguiendolanorma,esdecir:
Ͳ: ሺሻ ൌ ሺሻoladrogadiccióndeloshijosnodependedeladelospadres;
ͳ: ሺሻ ് ሺሻolaadiccióndeloshijoscorrelacionasignificativamenteconladelospadres.
Siguiendolarutayacomentada:
ANALIZARÖESTADÍSTICOSDESCRIPTIVOSÖTABLASDECONTINGENCIAosubotónrápido:
apareceráelcuadrodediálogohabitualquesemuestra
aquíallado.
Seseleccionalavariablequehemosdesignado
como VD (tener hijos/as adictos) y la llevamos a las
Filas; luego seleccionamos a la VI (ser o haber sido
consumidordedroga)ylapasamosalasColumnasde
la futura tabla de contingencia. Tras esto, se continúa
delamismamaneraqueantes.
Terminando con Aceptar en el cuadro principal, SPSS nos muestra las tablas de resultados ya
conocidas por el ejemplo anterior, es decir la de ChiͲcuadrado con todas sus opciones (repasar
cuadrodelapágina277),latabladecontingenciaconlosresiduosylademedidassimétricasconla
intensidaddelarelación:
Pruebas de chi-cuadrado
Consumidor de
drogas
No Si Total
Tener hij@s No Recuento 146 19 165
drogadict@s % de Consumidor de drogas 71,2% 15,4% 50,3%
Residuo 42,9 -42,9
Si Recuento 59 104 163
% de Consumidor de drogas 28,8% 84,6% 49,7%
Residuo -42,9 42,9
Total Recuento 205 123 328
% de Consumidor de drogas 100,0% 100,0% 100,0%
Medidas simétricas
Sig.
Valor aproximada
Nominal por Phi ,540 ,000
nominal V de Cramer ,540 ,000
N de casos válidos 328
EnlatabladesignificacióndelasPruebasChiͲcuadradocomprobamosenlanotaalpiequeel
porcentajedecasillasquehantenidounafrecuencia ൏5esel0%.Puestoqueelൌ328podemos
utilizarcorrectamenteelestadístico ɖଶ .Suvalorenestecasohasido95,63para1g.lydadoquesu
Ǧൌ,000<,050 podemos rechazar la Ͳ de independencia y llegar a la siguiente conclusión
estadística:“conunaǦൌ,000<,05rechazamosͲyportantonoesadmisiblequelaadiccióndelos
hijos sea estadísticamente independiente de la que tienen o han tenido sus padres”. Es decir que
estamosconcluyendoquelasvariablesestánsignificativamentecorrelacionadas.
Elsentidodeestarelaciónlocomprobamosviendoquécasillastienen>+1,9.Enestecaso
tal y como se aprecia arriba, la categoría no consumidor se asocia con la de no tener hijos
drogadictos,yladesíconsumidorconsítenerhijosadictos.Finalmentevemosquelaintensidadde
estacorrelacióndeterminadaporelcoeficientePhihasidode,540yportantoelevada.
Lacomunicacióndeestosresultadosenunartículocientíficoseríaenunaconclusióndeltipo
a la que sigue: “En la muestra de 328 adultos participantes estudiados, 123 eran consumidores de
drogasyun84,6%deellosteníanhijos/asquetambiéneranconsumidores.Entrelas205personasno
consumidoras, un 71,2% tenían hijos/as que tampoco eran consumidores, por lo que solamente un
28,8%teníanhijos/asadictosalconsumodeestassustancias.Conp<,05seobservóunacorrelación
estadísticamentesignificativa(߯ ଶ =95,65;gl=1;n=328;p<,000)queapoyalasuposicióninicialdeque
esmásprobablequeloshijosdeadictostambiénlosean.Eltamañodelefectoeselevado(Iൌ,540)”.
Para dar por terminado este apartado dedicado a esta prueba de ChiͲcuadrado de
independencia, sólo nos resta un contenido importante que añadir: se pueden incorporar más
variables a un mismo estudio correlacional, en un procedimiento que se suele denominar tablas
segmentadas.Estacuestiónestádirectamentevinculadaalatareavistaenelpunto5.3.1cuandolas
tablasdecontingenciasedividíanencapas(verpáginas101Ͳ102).Deestamanerapartiendodeun
crucecualquieraenelqueseestudialaasociaciónentre2variables,añadirunatercera,segmentará
(dividirá)latablaentantaspartes(capas)comocategoríastengaestaúltimavariable.Elobjetivoes
estudiar la asociación entre las 2 primeras variables, calculando un estadístico ɖଶ , los residuos y el
tamañodelefecto,paracadaunadelascapasdefinidasenfuncióndelaterceravariable.
Y como ya se advirtió en aquel punto de la descriptiva (página 102) la profundidad que le
demos a la segmentación podría ser mayor añadiendo aún más variables; esto sólo dependerá de
hasta dónde nos permiita llegar el tamaño de la muestraa global, pueesto que a m
mayor núme
ero de
combinacio parezcan cassillas vacías y/o frecuencias
ones entre caategorías máás posibilidaad de que ap
menoresa55quenospo odríandifícilelusodelesstadísticoɖଶ deestaprueeba.
Commosiempre, loveremos másclaroconunúltimo oejemploenelquese vadividirel cruce
devariablessanterioren
nunprimeryyúniconiveldesegmentación:
Ejemplo28
Tras comproobar la relacción existentte entre la addicción a cieertas sustancias de
los progenittores y la suus descendientes, nos preeguntamos ahora
a si ello ocurrirá de la misma manera
m
tanto cuanddo el progenittor adicto seaa el padre coomo cuando lo
l sea la maddre.
Esddecirqueesttenuevoobjetivoincluyeecomo3ªvaariable,moduladoradelarelación,aalsexo
de los asceendientes. De
D esta manera, la tab bla de contingencia de la página anterior quedará
segmentadaa en 2 mitad des: una para padres y otra para madres.
m Y se obtendrán dos conjunttos de
estadísticoss,unoparacadacapa.
Lahhipótesiscienntíficapodríaaenunciarseemásomenosasí:“Elheechodequellaprobabilid dadde
queunapersonaqueessoquehasidoadictaa lasdrogasttengahijosq quetambiénloseanesm mayor
quelaprob babilidadde queestoleo ocurraaaqu uellosqueno ohansidonuncaadictossaningúntiipode
droga,ocurrredeigualfoformatantoccuandoelprrogenitoradiictoeshomb brecomocua andoesmujeer”.
Esteeplanteamieentonosoblligaríaaenu unciar2conttrastesestad dísticos,obviiamenteuno opara
cada sexo de
d los ascendientes. Perro como ambos tendrían n el mismo formato
f gen
neral conocid
do; es
decir:
Ͳ: ሺሻ ൌ ሺ
ሻonohayyasociaciónentrelaadicccióndeasce endientesyddescendiente es;
ͳ: ሺሻ ് ሺ
ሻohaycoorrelaciónsiggnificativaenntreestasdo osvariables.
melimitoareferenciar unoyadeccirqueserá igualparaasscendientes hombresyp
paraascendiientes
mujeres.
Lap nuevocaso, seconsigue porsupuesttosiguiendo
parteoperattivadeesten olamismaru
utade
SPSSͲ15anttesutilizada::
ABLASDECONTINGENCIA osubottónrápido:
ANALIZARÖESTADÍSTTICOSDESCRIPTIVOSÖTA
Aho ora, la única novedad ess que en el cuadro
de diálogo o principal se añade a la variable de
segmentación (en este ejemplo el sexo de los
progenitorees)introduciééndolaenlacasillaCapa a1de1,
talycomovveenlaimaggenquesein ncluyealladoo.
Y si esta tareaa se está haaciendo durrante la
mismasesió óndetrabajo oconSPSSeenqueseejeecutóla
anterior, no o necesitam mos nada más, puesto que
q las
opcionesacctivadasanteesenlosbottones Estadísticos…
y Casillas… h
hanquedado omarcadasyyguardadas.
Portanto,terminandocon Aceptar
A eneelmismocuadroprincipaaldondeseh
haintroducid
doala
variabledesegmentacióón,aparecerránlassiguieentestablasd
deresultado
os:
Consumidor de
drogas
Sexo No Si Total
Padres Tener hij@s No Recuento 89 12 101
drogadict@s % de Consumidor de drogas 76,1% 17,6% 54,6%
Residuos corregidos 7,7 -7,7
Si Recuento 28 56 84
% de Consumidor de drogas 23,9% 82,4% 45,4%
Residuos corregidos -7,7 7,7
Total Recuento 117 68 185
% de Consumidor de drogas 100,0% 100,0% 100,0%
Madres Tener hij@s No Recuento 57 7 64
drogadict@s % de Consumidor de drogas 64,8% 12,7% 44,8%
Residuos corregidos 6,1 -6,1
Si Recuento 31 48 79
% de Consumidor de drogas 35,2% 87,3% 55,2%
Residuos corregidos -6,1 6,1
Total Recuento 88 55 143
% de Consumidor de drogas 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
Medidas simétricas
Sig.
Sexo Valor aproximada
Padres Nominal por Phi ,566 ,000
nominal V de Cramer ,566 ,000
N de casos válidos 185
Madres Nominal por Phi ,509 ,000
nominal V de Cramer ,509 ,000
N de casos válidos 143
EnprimerlugarenlatabladesignificacióndelasPruebasChiͲcuadradocomprobamosenlas
notas al pie de tabla que el porcentaje de casillas que han tenido una frecuencia ൏5 es el 0% en
ambas capas. Y como el de cada una de ellas es grande, podemos utilizar adecuadamente el
estadístico ɖଶ . Como la información que ahora tenemos es el doble que la anterior y ya hemos
adquiridociertaexperienciaconestatécnica,voyasimplificar.
LosvaloresdelestadísticodecontrasteenamboscasosllevanasociadaunaǦൌ,000<,050
porloquesepuederechazarlaͲdeindependenciatantoenpadrescomoenmadresyafirmarque
lacorrelaciónessignificativaindependientementedelsexodelosprogenitores.Laúnicadiferencia,
mínimaimportantequeseobservaesqueeltamañodelefectoesunpocomásintensocuandoel
progenitoresvarón(I=,566)quecuandoesmujer(I=,509).Laspequeñasdiferenciasquetambiénse
pueden ver en la cuantía de los no tienen ninguna trascendencia ya que las casillas donde se
encuentranestosresiduossonlasmismas,porloquelosubstancialesquetantoparapadrescomo
para madres la categoría no consumidor del progenitor se asocia con la de no tener hijos/as
drogadictos,mientrasqueladesíconsumidorconsítenerhijos/asadictos.
Paraterminarycomoescostumbre,lacomunicacióndeestosresultadosenunartículosería
enunaconclusióncientíficasemejanteaesta:“Enelgrupodeprogenitoresvaronesanalizados,68
eranconsumidoresdedrogasyun82,4%deellosteníanhijos/asquetambiéneranadictos.Entrelos
117padresnoconsumidoresun76,1%teníanhijos/asquetampocoeranconsumidores.Larelaciónes
estadísticamente significativa (߯ ଶ =59,21; gl=1; n=185; p<,000). Por su parte en la muestra de
progenitores mujeres, 55 eran consumidores de drogas y de ellas un 87,3% tenían hijos/as que
también eran consumidores. Entre las 88 madres no consumidoras un 64,8% tenían hijos/as que
tampoco eran consumidores. La relación también es estadísticamente significativa (߯ ଶ =37,08; gl=1;
n=143;p<,000).Eltamañodelefectoesalgomáselevadoenhombres(,566)queenmujeres(,509)”.
Yyahemosterminado,aunqueesposiblequeallectorlesurjanalgunasideasnuevasalver
esteresultadoanterior.Porejemplo,¿hayunadiferenciasignificativaentreel76,1%delospadres
consumidores que sí tienen hijos/as adictos y el 64,8% de las madres adictas que también tienen
hijos/asadictos?...Perocomonoescuestióndealargarestosejemploslovamosadejarparaotro
momento;esosí,leinvitoallectoraquepienseenelloyaqueintenteresolverloporsucuenta.Una
advertenciaparaello,nocreasquenotieneslosdatosdelabasedeSPSSyqueporellonopuedes
hacerlo,recuerdaqueconlafunciónPonderarcasosdelmenúde DATOS teniendolasfrecuenciasse
puedereproducirlatabladecontingencia(revisarcuandoseusóesto,enpáginas151Ͳ152).
Yahaquedadodichoconanterioridad(porejemploenlaclasificacióndela
página274)quelapruebadeChiͲcuadradodeindependenciarequierecomocondicióndeusoelque
lossujetosquecomponenlasmuestrasdefinidasporlascategoríasdelaVIseandistintosentresíy
notenganningunadependencia.
Portanto,laEstadísticaseenfrentóalanecesidaddedesarrollarotrastécnicasaplicablesen
aquellos contextos donde las muestras estuviesen relacionadas. Aunque en su momento (página
270)sepresentarontressituacionesquecorrespondenadiseñosdemuestrasrelacionadas,losmás
sencillosyporellotambiénlosmáscomunes,sonlosestudioslongitudinalesenlosqueseobservala
VDenunamismamuestradesujetosbajovariascondicionesdiferentesestablecidasporlosniveles
delaVI.
Yaúnmás,dentrodeestetipodeestudioselmásfrecuenteesaquelenelquelaVDsemide
a los mismos sujetos en 2 condiciones experimentales (que suelen ser: antes y después de la
intervención de la VI) con objeto de evaluar la posible significación del cambio en la variable a
observar. Pues bien, la denominada Prueba de la significación de los cambios, o más simplemente
TestdeMcNemar,esunatécnicanoparamétricaquesedescribeprecisamenteparaestecaso.
QuizáslaúnicalimitaciónimportaanteparaelusodeestattécnicaesquuelaVDdeb betenersóloo
dos categorías;
c mite tanto que la variable sea purramente diccotómica (accierto/error;;
eso sí adm
favorr/contra,etc…),comoqu ueseaunavvariableque originalmenteteníamásscategorías peroquesee
agruppan hasta quedar
q solam
mente en doos (ideología de centro
o y derecha, frente a ideología dee
izquieerdas).
Después:VD
D Después:VD+
PortantoolapruebaM McNemarseepuede
emplearsolamen nteentablasde2x2comolaque
Antes:VD+
se in do. En ella, las casillass y
nserta al lad (cambiode+aa) (nohayccambio)
Ejemplo29
Una parte
p de los médicos
m y pssicólogos clínnicos en ejerrcicio avalan
n el uso de laa
marihhuana para laa reducción del
d dolor en enfermos dee ciertos tipoos de cáncer. Queremos comprobar
c sii
la actitud (favoraable/contrariia) que manifiestan los sujetos antee la despenaalización de la venta dee
marihhuana depennde del tipo y la cantidaad de inform mación que tienen.
t Para ello, se sellecciona unaa
muesstra adecuadaa al objetivoo compuestaa por 184 ad dultos de ammbos sexos, qque son inviitados a unaa
confeerencia de doos horas dondde especialisstas del mund do de la meddicina, de la ppsicología y del derecho,,
defiennden con proofusión de datos
d y argum mentos las ventajas
v que tendría paraa la población n en generall
que se
s tomara la decisión
d de permitir
p la veenta legal de marihuana en
e las farmaccias.
EsperoqueparatodosloslectoresseaevidentequelaVDeslaopiniónhacialaventalegal
de la marihuana en farmacias (dicotómica: favorable/contraria) y que la VI, cuyo efecto queremos
analizar,eslainformaciónrecibidaenlaconferencia(enfuncióndelacualseconsiderandosniveles:
antesydespuésdelamisma).Entonces,comoquieraqueseencuestaaunúnicogrupoquecontiene
alosmismos184sujetos,setratadeundiseñodedosmuestrasrelacionadas.Ydeahíelusodeltest
deMcNemarparacomprobarelobjetivo.
Noobstanteypuestoqueeslaprimeravezquenosenfrentamosadiseñosdemuestrascon
losmismossujetos,esmuyimportantequesepamosqueelfuncionamientodeSPSShacequeenla
definición de las variables para este análisis debamos crear una variable opinión (F/C) antes de la
conferenciayotravariabledeopinión(F/C)despuésderecibirlainformaciónalestilodeloquese
observaenlatablade2x2delapáginaanterior.Asídecadaindividuosabemosquéopinabaantesy
qué opinaba después. Es decir, que las 2 variables que operativamente tendremos en la base de
datos, no coinciden exactamente con la definición formal de la VD y de la VI implicadas en la
hipótesis,sinoquesonmásbienunacombinacióndeambas:laVDantesdeVI,ylaVDdespuésde
VI.Estaformadeactuarvaaserunaconstanteenlosdiseñosdemedidasrepetidas.
Dado que en la conferencia se defendían las ventajas de la legalización de la venta de
marihuana,encasodequeproduzcaunefectoéstedeberíadeserenesadirección;esdecirquela
probabilidad del cambio de opinión en el sentido: contraofavor, debería de ser mayor que la
probabilidaddelcambiodeopiniónenelsentidoopuesto(favorocontra).Estopodríavenirreflejado
en la hipótesis científica que se enunciaría como: “la información presentada en la conferencia
consiguemodificarlaactituddelossujetosenladirecciónesperada”,pordecirlodeunaformabreve.
Apesardeello,lahipótesisnulaseformulasiempreen2colas,porloqueplantearáquela
actitud(F/C)nodepende delainformaciónquelosparticipantesenlainvestigaciónrecibendelos
expertosdurantelaconferencia.Portantoelcontrasteestadísticoquedaráasí:
Ͳ: ൌ ୈ ൌ ǡͷͲoloscambiosdeopiniónsobre…nodependendelainformaciónrecibida;
ͳ: ് ୈ oloscambiosdeopiniónsobre…estánasociadosalainformaciónrecibida.
LarutaenSPSSͲ15paraejecutarestetesteslasiguiente:
ANALIZARÖPRUEBASNOPARAMÉTRICASÖ2MUESTRASRELACIONADAS
Alentrarahí,apareceelcuadrodediálogoqueseinsertadebajoalaizquierda.Enél:1º)de
lalistadevariablesdelabasededatossemarcalaprimeradelas2medicionesacomparar,enel
ejemplolaopiniónantesdelaconferencia,alhacerloapareceenlaparteinferiordelcuadrodonde
diceVariable1;2º)sehacelomismoconlaotravariable(laopinióndespués)queaparecedebajoen
dondediceVariable2;3º)sepicaenlaflechaentrecasillasyelpardevariablesapareceenlacasilla
dondediceContrastarpares,y4º)secambialamarcadeactivaciónaMcNemar.Elresultadofinalde
estascuatroaccionesdebeserelqueseapreciadebajoaladerecha:
Aunqueaparecenotrosbotonesenestecuadro,noesnecesariohacernadamás;asípues,se
termina la ejecución pulsando en Aceptar y SPSS nos muestra las dos tablas de resultados que se
incluyenjustoaquídebajo:
Estadísticos de contraste b
Opinión sobre la venta legal de marihuana (ANTES) y
Opinión sobre la venta legal de marihuana (DESPUÉS) Opinión sobre la venta legal de
marihuana (ANTES) y Opinión
Opinión sobre la venta sobre la venta legal de
legal de marihuana marihuana (DESPUÉS)
Opinión sobre la venta N 184
legal de marihuana (DESPUÉS)
Chi-cuadrado a 3,512
(ANTES) 1 2
Sig. asintót. ,061
1 45 14
a. Corregido por continuidad
2 27 98
b. Prueba de McNemar
Ladelaizquierdaesunatabladecontingenciaaunquequizánoshayacostadoreconocerla
dadoloescasodelainformaciónqueelprogramanospresenta.Nisiquieraaparecenlasetiquetasde
losvalores1y2delasvariables(1seasignóalaopiniónfavorablealalegalizacióndelaventay2ala
contraria).Sehansombreadolascasillasdelcambio:14personascambiandeopiniónenelsentido
favorocontra,y27enelsentidocontraofavor;porloqueparecequeestosdatospodríanapoyarla
hipótesiscientíficaanterioryllevarnosaadmitirquelaconferenciaendefensadelalegalizaciónfue
eficaz.Sinembargo,enlatabladesignificacióndealladopodemoscomprobarquelaǦ=,061es
mayora,050demaneraquenopodemosrechazarlaͲyenconsecuenciaelcambioapreciadono
esestadísticamentesignificativo.
Másformalmente,laconclusiónestadísticasehabríaexpresadoenestostérminos:“conuna
Ǧ=,061>,05 no es posible tomar la decisión de rechazo de Ͳ por lo que no hay suficientes
evidenciasestadísticasqueapoyenqueelcambioobservadoenVDestéasociadoalaVI”.
Por otro lado, me gustaría aconsejar al lector que cuando se enfrente al empleo de esta
técnica, tenga la precaución de pedir a SPSS una tabla de contingencia (en el menú descriptivo
adecuado para ello, que es el mismo de los ChiͲcuadrado anteriores) porque se puede llevar
sorpresas como la que hay en este ejemplo. Debajo se inserta la tabla de contingencia con los
porcentajesdelcambiodeopinión:
Tabla de contingencia Opinión sobre la venta legal de marihuana (ANTES) * Opinión sobre la venta legal
de marihuana (DESPUÉS)
Como se podrá comprobar, los 27 sujetos que cambian de opinión en el sentido esperado
sonel21,6%delosqueinicialmenteestabanencontra(125),pero¡cuidado!porquequelos14que
cambian en el sentido opuesto al esperado en hipótesis son el 23,7%!! de los que estaban antes a
favor (59); es decir que son más los que cambian en sentido contrario al esperado, por lo que de
haber existido significación, ésta habría sido al contrario de lo formulado en hipótesis. Así que
podríamoshabernosequivocadocompletamentealestablecerlaconclusión.Deahílatrascendencia
deestaadvertencia.Yesmás,inclusoquizásseamuyaconsejablehacerestatabladescriptivaantes
deusarMcNemarparaelcontraste.
Salvadoestedetalleyvolviendoconlosresultadosdeesteejemployparaterminar,laforma
decomunicaresteresultadoenforma deconclusióncientíficairáenesta línea:“Delgrupode184
participantes que fue encuestado acerca de su opinión sobre la venta legal de marihuana en las
farmacias como un método de alivio sintomático del dolor en enfermos de cáncer, 125 (el 68%)
estabaencontra.Trassuasistenciaalaconferenciadondeseexponíanlasventajasdeestaventa,27
de ellos (un 21,6%) cambiaron de opinión en sentido favorable, mientras que otros 14 que
previamenteteníanunaactitudfavorablelamodificaronensentidocontrario(un23,7%).Medianteel
Test de Mc Nemar se ha comprobado con p>,05 que estos cambios no son estadísticamente
significativos(߯ ଶ =3,51;gl=1;n=184;p=,061)”.
Comoyasecomentabaenlapágina274,haymuchasmástécnicasdisponiblesparaelcaso
enquelaVDmedidaseadetiponominalocategórico.Sinembargo,eltiempoyelespaciodelque
disponemos no nos permiten más. A pesar de ello, creo sinceramente que las bases que hemos
sentado en las páginas anteriores facilitarán que el estudiante interesado pueda, con otros
manuales, acceder al conocimiento y compresión de los restantes test de contraste sin ninguna
dificultad.
Tem
ma 16
6
ASO
OCIACCIÓN
N ENTTRE
VARRIABL
LES CUAN
C NTITA ATIVAAS:
EL MODE
M ELO LINEA
L AL GE
ENERRAL
nealgeneraldedescomp
16.1.ͲEElmodelolin posicióndellavarianza
16.2.ͲEElmodeloesstructuralexxplicativode
eefectos(MEEEE)
16.3.ͲEElmodeloprredictivoderegresiónlin
neal(MPRL)
El tema que a continuación se inicia, tiene como intención mostrar los
fundamentos lógicos y teóricos de un buen número de importantes técnicas de la Estadística
InferencialqueposteriormenteiremosestudiandoenlospróximosTemas(del17al19)conlosque
secompletaestemanual.
Dichastécnicasestándestinadasalanálisisdelasignificacióndelasdiferenciasentremedias
de variables cuantitativas (las pruebas “T” de Student y el Análisis de Varianza) y al estudio de la
significatividaddelacorrelaciónentrevariablescuantitativas(coeficientedePearson)asícomoala
prediccióndeunaVDapartirdelainformaciónconocidaenunaVI(laRegresiónLineal).Sepodría,
incluso, decir que todas estas técnicas son variaciones equivalentes entre sí, que nos permiten
estudiarunamismarelaciónentrevariablesdesdediferentesperspectivas.
La base teórica común que subyace a todas estas técnicas inferenciales se conoce con el
nombre de Modelo Lineal General. Dicho modelo presenta, en su forma más sencilla, dos
aplicaciones distintas: el Modelo Estructural Explicativo de Efectos (que será operativamente
aplicadoenlastécnicasestadísticasdelosTemas17y18)yelModeloPredictivodeRegresiónLineal
(queseráaplicadoenlastécnicasdeanálisisdelTema19).
En primer lugar conviene aclarar que el término modelo hace referencia a
unaecuaciónmatemáticaqueponeenrelaciónadosomásvariables.Noobstanteellectorqueno
tengasólidosconocimientosmatemáticos,quenosufraporelloquenolosvaanecesitar.
Enlascienciasrelacionadasconlaconductahumana,comolaPsicología,esfrecuenteutilizar
modelos para representar mediante ecuaciones las relaciones entre las variables implicadas en las
formulacionesteóricasdelasleyesquerigenlaconductadelserhumano.Losmodelosdeterministas
୧ ൌ ݂ሺ ୧ ሻqueyacitábamoscomoantecedentesdelacorrelación(verpágina260)representanuna
relaciónentrevariablesdependienteseindependientesquecarecedeerror,esdecirqueesperfecta,
y donde como sabemos se establece una relación biunívoca constante entre cada valor de VI y un
únicovalordeVD.
Yasabemosqueestonoesasícuandomanejamosatributosmedidosensereshumanosdado
queseobservanvariacionesaleatoriasenlosvaloresdelaVDquenosederivandelasvariaciones
introducidasporelinvestigadorenlaVI.
Estasvariacionesnosobliganaincluirenelmodelootrotérmino,elerror(simbólicamenteH),
traslocualelmodeloresultante,expresadocomo: ܑ܇ൌ ࢌሺ ܑ ܆ሻ ઽܑ yanoesdeterministasinoquees
unnuevomodelodenominadoestadístico(oprobabilístico)queestablecequeunaVDeslasumade
variasinfluenciasoefectos.
El caso más simple y evidente de este modelo estadístico es el que denominamos Modelo
LinealGeneral(enadelanteMLG)enelquevamosaprofundizaralolargodelaspróximaspáginas.
Lo que podríamos llamar la estructura conceptual del MLG establece que la variable
dependiente,cuantitativa,medidaenlossujetos,eslasumaocombinaciónlinealdedostérminoso
componentes: el sistemático o determinista, y el aleatorio o de error, tal y como se aprecia en el
siguienteesquema:
ܑ܇ ൌ ࢌሺ ܑ ܆ሻ ઽܑ
Variable dependiente,
o variable de salida,
Componente sistemático, Componente aleatorio,
o determinista o de error
o criterio
El componente sistemático o determinista incluye el efecto de todas las variables
independientesqueelexperimentadorconsiderarelevantesensuinvestigaciónparaelobjetivode
explicar los diferentes resultados observados en la VD; es decir, que contiene a aquellos factores
(sinónimodeVIdentrodeestecontexto)quepuedenproducircambiosenlosvaloresdelaVD(es
decir: generar variabilidad) y que han sido, o pueden ser, medidos y/o manipulados por el
investigador.
Porelcontrario,elcomponentealeatorioodeerrorincluyeelefectodetodaslasvariables
extrañas o contaminadoras (es decir VI no manipuladas) que no han sido consideradas en la
investigacióncomoposiblesfactoresexplicativosdelavariabilidaddelaVD.
Por tanto, este MLG establece que la variabilidad observada entre valores (distintos) de
una VD medida, es la suma ponderada: de los efectos de los factores explicativos incluidos en el
modelo(elcomponentesistemático)ydelosefectosdelosfactoresnoconsiderados(elcomponente
deerroraleatorio).Estaexpresiónanterioresloqueseconocecomodescomposicióndelavarianza
total.
En varias ocasiones a lo largo del presente manual hemos hablado de la importancia del
estudio de la variabilidad de un atributo para la Estadística Aplicada a las Ciencias Humanas.
Asimismo, explicar las variaciones observadas durante la medición de un rasgo es un objetivo
fundamental que la Estadística tiene en común con la Psicología. Puesto que esta propiedad (la
variabilidad) indica diferencias individuales, el análisis de la misma es vital en las CC.HH. ya que
equivale a explicar las semejanzas y desigualdades entre los seres humanos. Pues bien, su
expectativa teórica se fundamenta en el arriba citado modelo lineal de descomposición de la
varianza que en definitiva explica un fenómeno observado, la VD, como el resultado de la suma
ponderadadevariosefectos.
Estaesunacuestióncasidesentidocomún,odelógica,yestápresenteentodaslasciencias
basadas en la cuantificación. Pongamos un ejemplo muy simple, ¿por qué los estudiantes, de
cualquiermateria,obtienendiferentescalificacionesacadémicas?;enparteporelefectodevariables
como: los conocimientos adquiridos en la materia, el tiempo dedicado al estudio, la motivación, la
ansiedadanteelexamen,lainteligencia,etc…,queseincluyenenelcomponentesistemático;yen
parteporelefectodefactoresnoanalizados,bienporquenointeresaanalizarlosenesemomentoo
bien porque no resulta posible hacerlo y que por ello quedan en manos del azar (del azar
experimentalcitadoenlaspáginas147y150)constituyendoelcomponentedeerror.
Esdecir,queunvalorobservadoenlaVD(comolacalificaciónacadémicadeesteejemplo),
eslasumadelosefectosdetodasesasvariables(conocimientos,tiempodeestudio,etc.)quehan
sido manipuladas o controladas por el investigador con intención de averiguar si afectan a la VD y
cómolohacen,máslosefectosdelasvariablesquenohansidomanipuladas:
Valor observado Efectos debidos a los Efectos debidos a los
en la VD
ൌ factores controlados
factores no controlados
Por lo que dado que la observación de toda variable dependiente cuantitativa genera
inevitablemente una variabilidad ( individuos diferentes que tienen puntuaciones distintas)
podemosreformularlaexpresiónanteriorparadecirque,engeneral,lavarianzatotaldeunVDse
descomponesiempreenlosdostérminosaditivosquesevenenelsiguienteesquema:
VARIABILIDAD total
Parte de la variabilidad total Parte de la variabilidad total
observada en la VD
ൌ explicada por los factores o explicada por los factores o
VI manipuladas VI no manipuladas
Como se aprecia, el primero de estos dos términos aditivos que expresa la parte explicada
porlosefectosatribuiblesalosfactoresqueelinvestigadorincluyeenelexperimentoconintención
deestudiarlossecorrespondedirectamenteconelcomponentesistemáticodefinidoporelMLG,y
nos permite deducir cuál es el valor esperable para cada individuo en una VD a partir de su
informaciónparticularenlasVIincluidasenél.
Porsuparte,elsegundodelostérminosqueexpresalapartenoexplicadaporlosfactores
manipulados, es decir que vendría justificado por los efectos de las VI que el investigador no ha
controladoparasuestudio,secorrespondeconelcomponentealeatoriodeerrordedefinidoenel
MLG y, por tanto, refleja la diferencia existente entre los datos empíricos (la realidad) y las
prediccionesquesederivarándelmodelounavezquesehayadeterminadocuáles.
Enconclusión,elMLGestableceque:
Variable dependiente ൌ Componente sistemático Componente aleatorio de error
Parte de la variabilidad total Parte de la variabilidad total
VARIABILIDAD total
ൌ explicada por los factores o explicada por los factores o
observada en la VD
VI manipuladas VI no manipuladas
Valor esperado
DATOS (observados) ൌ por el MODELO ERROR
ElMLGqueacabamosdedescribirseconcretaendoscasosenfuncióndelaintenciónbajola
cualseplantealainvestigaciónycomoconsecuenciaimplicalautilizacióndeunasuotrastécnicasde
análisis estadístico. Estos dos casos son: el modelo estructural explicativo de efectos, y el modelo
predictivoderegresiónlineal.
1.Ͳ El modelo estructural explicativo de efectos (MEEE) se utiliza para determinar si una (o
másVI)producencambiossignificativosenlosvaloresobservadosenlaVD.Esteplanteamiento
seoperativizaenlastécnicasdecontrastedehipótesissobrelasignificatividaddeladiferencia
demedias(fundamentalmentelapruebaTdeStudentyelAnálisisdeVarianza)queveremosa
loslargodelosTemas17y18.
2.Ͳ Elmodelopredictivoderegresiónlineal(MPRL)seutilizacuandosepretendeconstruiruna
ecuaciónmatemáticaqueseacapazdepredecireficazmenteelvalorquedeberíandetenerlos
sujetosenlaVDapartirdelosvaloresopuntuacionesconocidasparaesosmismossujetosen
la(s) VI(s). Se operativiza en las técnicas estadísticas incluidas dentro del llamado Análisis de
RegresiónLinealqueestudiaremosenelTema19.
En el siguiente esquema, se muestran resumidos ambos modelos con la terminología
particularquecadaunoempleaparahablardeladescomposicióndelavarianza.Ademásseincluye
laexpresiónmatemáticageneralconlaqueselesrepresenta:
ModeloLinealGeneral(MLG)
ModeloEstructuralExplicativodeEfectos: ModeloPredictivodeRegresión:
ܑ܇ൌ ૄ હ۹ ઽܑ ܑ܇ൌ ሺ۹ ȉ ܑ ܆Ȁ۹ ሻ ઽܑ
Descomposición de la varianza: Descomposición de la varianza:
V. Total ൌ V. INTERgr. V. INTRAgr. V. Total ൌ V. Asociada V. Residual
( VD ൌ comp.sistematico comp.error ) ( VD ൌ comp.sistematico comp.error )
Enlasexpresionesmatemáticasdeambosmodelos,sepuedenobservartrestérminos:
1.Ͳ Elprimerodeellos(PyE0respectivamente)esunaconstanteparatodoslossujetosdeuna
mismapoblaciónqueexpresalainfluenciaquetienensobrelaVDaspectoscomunesatodos
ellos como pueden ser: el impacto del grupo (es decir la presión social), las características
físicas o biológicas del ser humano, los procedimientos de evaluación o medición
psicológicos,etc…
Perosediferencianporque:
1.Ͳ Paraelmodeloderegresiónla(s)VI(s)debe(n)sertambiéncuantitativa(s),mientrasquepara
el estructural de efectos explicativos deben ser categóricas o estar categorizadas; es decir
queobiensonyavariablesdeorigennominal,obiensondenaturalezacuantitativasperose
han categorizado, como mínimo en dos niveles, en función de las necesidades del objetivo
propuestoenlainvestigación.
2.Ͳ Elmodeloderegresiónexigelinealidadenlarelación(verpáginas260a262)existenteentre
VDycadaVI;mientrasqueelmodelodeefectosno.
3.Ͳ Yporúltimo,elquepodríamosllamarobjetivoespecíficooconcreto:queenelmodelode
regresiónesanalizarlanaturalezadelarelaciónentrelaVDyla(s)VI(s)paraencontraruna
ecuación que sea capaz de predecir eficazmente a la VD, mientras que en el modelo de
efectos lo que se pretende más específicamente es estudiar el posible efecto diferencial
significativodelaVIsobrelaVDparadeterminarlaposiblecausadeloscambiosobservados.
Finalmente, conviene destacar la trascendencia que tiene este MLG en los análisis
estadísticos ya que, según afirman algunos autores que lo han comprobado, más del 80% de las
investigaciones que se publican anualmente en revistas especializadas en Psicología emplean
técnicasestadísticasquetienencomofundamentoalMLG.
A continuación veremos con algo más de detalle las dos concreciones (explicativa y
predictiva)delmismo.
Como hemos venido diciendo, esta aplicación del MLG tiene como objetivo
especifico verificar si la(s) VI(s) elegidas o factores manipulados por el experimentador, producen
diferenciassignificativasenlaVDquesepretendeexplicar.
Para un adecuado estudio de este MEEE, se deben satisfacer una serie de supuestos o
condicionesqueindicaremosacontinuación.Alprocesodecomprobación delcumplimiento(ono)
de los mismos se le denomina diagnóstico y es imprescindible para la correcta utilización de las
diferentestécnicasestadísticasasociadas.Loscitadossupuestossonestos4:
1.ͲNormalidad.LadistribucióndelaVDparacadaunodelosgrupos(osubgrupos)formadosen
funcióndelosdistintosnivelesdefinidosencadaVIdebeseguirelmodeloprobabilísticode
lanormalestándar,cuestiónquetraecomoconsecuencialanormalidadenladistribuciones
deloserroresdelmodelo.Ycomoresultado,tambiénseránormalladistribuciónconjuntade
laspuntuacionesdetodoslossujetos.
2.ͲHomocedasticidad.Lavarianzadelasdistribucionesdeerrorcitadasenelsupuestoanterior
es igual para todos los niveles de VI. Por ello las varianzas observadas en VD para cada
categoríadeVI,nodifierensignificativamenteentresí.
3.ͲIndependencia y aleatoriedad. La puntuación en VD obtenida por cada individuo de la
muestraesindependientedelaobtenidaporlosdemás(tantodesugrupo,comodelresto
degrupos)comoconsecuenciadelaaleatoriedaddeloserrorespresentesenelmodelo.
4.ͲAleatoriedad (de sujetos). La asignación de los sujetos a los diferentes niveles
experimentalesdefinidosporlaVI,estambiénaleatoria.
Eldenominadoprocesodemodeladoestadísticosedesarrolla,enestecaso,en2etapas:
1ª)laespecificacióndelmodelo
y2ª)laevaluacióndelmodelo
queasuvezsesubdividenendiferentespasos.
Acontinuación,etapasypasosseexponenconmásdetalle:
1ªetapa:laespecificacióndelmodelo.
Serealizaen3pasos:
1.1.Ͳ Selección de las variables bajo los criterios de exhaustividad y parsimonia. Para ello se
incluyentodaslasVIrelevantesqueseannecesarias,perodefiniendoelmodeloteórico
mássencilloposibleporeconomíadetiempo,dineroymuestreo.Trasdeterminarcuáles
laVDyla(s)VI(s)queintervienen,sedebeadecuarelniveldemedidadelasmismasalas
necesidadesdelmodelo.
1.2.Ͳ Construcción del modelo propiamente dicho. Se plantea el modelo matemático (con la
ecuacióndelapágina295)quemejorreflejalarelaciónentrelasvariables.
1.3.Ͳ Se realiza el diagnóstico de los supuestos propios del modelo y que hemos explicado
arriba.Lastécnicasestadísticasadecuadasparaestolasestudiaremosposteriormente.
Enelcasoenelquediagnósticorealizadoenelpasoinmediatamenteanteriorseanegativo,
habríaqueregresarhastaelprimerpasoycambiarlasvariablesseleccionadas,einclusoenelpeor
delosescenariosposiblestendríamosqueabandonarlainvestigación.
Perosidichodiagnósticoespositivo,seprosigueconlasegundaetapa.
2ªetapa:laevaluacióndelmodeloserealizamediantelastécnicasestadísticasapropiadasa
casacasoconcreto.Lasprincipalessonlaspruebasdesignificaciónestadística:TdeStudenty
elAnálisisdeVarianza,queseexplicancondetalleenlosTemas17y18.
Asimismo,disponemosdeherramientasestadísticasquenosindicanelgradodeajustedelos
datosempíricosalmodelopropuestoenelpaso2delaprimeaetapa.Estosestadísticosysu
interpretación se presentan en su momento (no se olvide que éste es un Tema teórico,
introductorioygeneral,acercadelMLG).
Como resultado de esta 2ª etapa, si el ajuste es bueno, se procedería a realizar la
interpretación de los resultados y las pertinentes conclusiones finales. En cambio si no hay un
correctoajusteentrelosdatosyelmodeloplanteado,denuevohabríaquevolveralpuntodeinicio
dela1ªetapaparacorregirelmodeloyvolveraespecificarlo.
Para terminar con este apartado, el siguiente esquema presenta de forma breve los
diferentesgruposdetécnicasestadísticasinferencialesincluidasenestemodelo:
ModeloEstructuralExplicativodeEfectos(MEEE)
1factor(VI)con2categorías 1factor(VI)conKcategorías Másde1factor(>1VI)
PruebasTStudent Anovasde1factor
2 VI >2VI
(ysusalternativas (ysusalternativas
noparamétricas) noparamétricas)
Anova Anova
Bifactorial Multifactorial
Más tarde, en los Temas 17 y 18 de detallan dentro de las pruebas T de Student y de los
Anovasde1factorquéopcionesexistenycuálessonsusalternativasnoparamétricas.Porsuparte,
losAnovasbifactorialesymultifactorialespertenecenalastécnicasdeestadísticamultivariadaypor
elloescapandeloscontenidosdeestemanual.
Estasegundaaplicación delMLGtienecomoobjetivoespecíficodeterminar
cuáles son la(s) VI(s) medidas o factores manipulables por el experimentador, que son capaces de
predecireficazmentelosvaloresdelaVDminimizandotodoloqueseaposibleelerrordepronóstico
queinevitablementeexisteentodoprocesopredictivo.
Como ocurría en el anterior caso, para un adecuado estudio de este MPRL, debemos
asegurarnos de que se satisfacen ciertos supuestos o condiciones durante la etapa denominada
diagnóstico y que como sabemos son imprescindibles para la correcta utilización de las diferentes
técnicasestadísticasasociadasaestemodelo.
Enestecaso,loscitadossupuestostambiénson4:
1.ͲLinealidad. Todas las medias de las diferentes distribuciones condicionales (repasar su
definición dada en la página 261) que contienen los valores de la VD asociados a un único
valor de cada VI se encuentran en una misma línea recta (que más tarde en el Tema 19
veremosquesellamarectaderegresión).
2.ͲIndependenciayAleatoriedad.Loserroresdepredicciónasociadosalmodelosonaleatorios,
yporellomismoesrazonablepensarqueparatodovalordeVIsecometeelmismoerrory
portantonocorrelacionan(independencia)nientreellos,niconlaVI.
3.ͲNormalidad. La distribución de los errores de predicción o pronóstico que se cometen se
acomoda al modelo de la distribución normal, por lo que las diferentes distribuciones
condicionalesenVD(paracadavalordeVI)tambiénsedistribuyennormalmente.
4.ͲHomocedasticidad. Como consecuencia del anterior supuesto de independencia, todas las
distribucionesdeerrortienenlamismavarianza,porloquelavarianzadelasdistribuciones
condicionalestambiéneslamisma.
Elprocesodemodeladoestadísticosedesarrollaahoraen3etapas,queson:
1ª)laespecificacióndelmodelo,
2ª)laevaluacióndelmodelo.
y3ª)laestimacióndelosparámetrosdelmodelo
quecomoyavimos,asuvezsesubdividenendiferentespasos.
Acontinuación,etapasypasosseexponenconmásdetalle:
1ªetapa:laespecificacióndelmodelo.
Serealizaen3pasosexactamenteigualqueenelcasodelmodeloexplicativoanterior:
1.1.Ͳ Seleccióndelasvariablesbajoloscriteriosdeexhaustividadyparsimonia,considerando
suadecuaciónalniveldemedidanecesarioenelmodelo.
1.2.Ͳ Construcción del modelo matemático (con la ecuación de la página 295) que refleja la
relaciónentrelasvariables.
1.3.Ͳ Diagnóstico de los supuestos propios del modelo que hemos explicado arriba y cuyas
técnicasestadísticasapropiadastambiénseránestudiadasconposterioridad.
Enelcasodequeestediagnósticoseanegativo,talycomoocurríaenelmodeloanteriorhay
quevolveratrás,einclusosepodríaacabarabandonandolainvestigación.
Obviamente, cuando las conclusiones globales del diagnóstico sean positivas, podemos y
debemos decontinuar con el procedimiento. La diferencia es que en este modelo nos quedan dos
etapasmásynounasolacomoantes.
2ªetapa:laevaluacióndelmodeloserealizadenuevoconlastécnicasestadísticasapropiadas
alcaso.Cabeadelantaraquíyahoraqueson:lasignificatividaddelcoeficientedecorrelación,
elcoeficientededeterminación(conceptoqueyaexplicaremosensumomento),laPruebaT
deStudentsobreelcoeficientederegresiónyelAnálisisdelaVarianzadelaRegresión.Todas
ellasseestudiancondetallealolargodelTema19.
3ªetapa:laestimacióndelosparámetrosdelmodelotienecomointencióndeterminarcuánto
valenloscoeficientes y۹ queposteriormentepermitiránconstruirlaecuaciónconlaque
predecirlosvaloresqueseesperanenlaVD.
Estaestimación,basadaenelprocesoinferencial,sellevaráacabotantodeformapuntuala
partir de los valores de los estadísticos estimadores adecuados, como de forma intervalar
construyendolosintervalosconfidencialesdecadaparámetro.
Comoresultadodeesta3ªyúltimaetapa,sólosielajusteesbueno,seprocederíaarealizar
laconstruccióndelaecuaciónespecíficadeprediccióndelaVDyalarealizarlainterpretacióndelos
resultados.Asimismo,estaríamosenlasituaciónóptimaparautilizardichaecuaciónconelobjetivo
derealizarprediccionesindividualesdeunaVDajustándonosalperfilpersonaldecadaindividuo.
Denuevohayquedecirqueporsupuesto,comoenelmodeloanterior,sinohayuncorrecto
ajusteentrelosdatosyelmodeloteóricoplanteadohabríaquevolveralpuntodeinicio(1ªetapa)
paracorregirloyvolveraempezar,odescartarlaposibilidaddepredecirestaVD.
Y para terminar el apartado y el Tema, el siguiente esquema presenta abreviadamente las
diferentesdetécnicasdeanálisisestadísticoincluidasenestemodelo:
ModeloPredictivodeRegresión(MPR)
RelaciónLineal Otrostiposderelaciones
1VI >1VI
RegresiónLineal RegresiónLineal Regresión Regresión Otros
Curvilínea modelos
Simple Múltiple Logística
(Polinómica)
Tem
ma 17
7
CON
NCREECIÓ N DE
EL M ODE
ELO
EXP
PLICA
ATIV O DE
E EFE
ECTOOS:
RUEB AS T DE STU DENT
PR
17.1.ͲTTécnicasparraelcontrasttedelasignificatividade
entredosmedias
17.2.ͲLLaspruebasTdeStuden
nt
17.3.ͲA
Alternativasnoparaméttricas
Tras lo expuesto en el Tema anterior, y siguiendo el camino más lógico, a
continuaciónsevanapresentarlastécnicasdelaEstadísticaInferencialque:
Ͳ analizan el rendimiento de los sujetos en una VD cuantitativa (indistintamente medida en
escaladeintervalooderazón);
Ͳ clasificandoaestosindividuosenfuncióndeunaVIquetienesolamente2categorías;
Ͳ y que tienen como objetivo específico: estudiar el posible efecto que produce diferencias
estadísticamentesignificativasenlaVDentrelascategoríasestablecidasendichaVI.
Porello,elcontrastedehipótesisgenéricoparaestegrupodepruebasestablece:
Ͳ:noexistendiferenciassignificativasentrelas2mediasdebidasalefectodelaVI
ͳǣexistendiferenciassignificativasentrelas2mediasdebidasalefectodelfactor.
Ahora bien, como habitualmente la intención del investigador será la de demostrar la
existenciadetalefecto,lomásnormalesqueestecontrasteseplanteeenunadirecciónconcreta,es
deciren1cola.
Así,encoladerechadiría:
Ͳ:laVDnoaumentasignificativamentedebidoalefectodelaVI
ͳǣlosvaloresdeVDaumentansignificativamentedebidoalefectodelfactor.
mientrasqueencolaizquierdasería:
Ͳ:laVDnodisminuyesignificativamentedebidoalefectodelaVI
ͳǣlosvaloresdeVDdisminuyensignificativamentedebidoalefectodelfactor.
LastécnicasqueformanpartedeesteMEEEcuandolaVIsólotiene2niveles,sedividenen
dosgrupos:
> Paramétricas:PruebasTdeStudent(paramuestrasindependientesyrelacionadas)
> Noparamétricas:TestdeManͲWhitneyyTestdeWilcoxon.
que se eligen en función de una serie de condiciones que afectan a la muestra empleada y a las
variablesVDyVI.Acontinuaciónsedetallan.
1.Ͳ Porloqueserefierealamuestratotaldecasos:
Ͳ siéstacontiene>30yesaleatoria(insesgada),sesatisfacelaprimeracondiciónqueseprecisa
parallegaralasituaciónmásóptimaparautilizarlasTdeStudent;
Ͳ sicumplealmenoslacondiciónde>30,aunquenosehayanelegidoalazarpodríamosseguir
utilizandolaspruebasTStudent;
Ͳ perosiel<30,entonceslomásadecuadoseríaemplearunaalternativadelasnoparamétricas.
2.Ͳ PorloquerespectaalaVD(cuantitativa,noseolvide):
Es deseable que se distribuya ajustándose al modelo de una normal, cuestión que se
comprobaráconlayacomentadapruebadebondaddeajustedeKolmogorovͲSmirnov(descrita
enpágina233).DenuevoestaseríalasituaciónóptimaparaelusodelaspruebasTdeStudent.
Se ha dicho “deseable”, no obligatorio; y ello se debe a que está demostrado que la
ausenciadelanormalidadenlaVDnosueleserunmotivoquealteredeformanotableelvalor
delaǦyporellomuyraramenteafectaalatomadedecisiones.
LoquesesuelehacerenaquelloscasosenquelaVDnosigueelmodelonormalesque
si las condiciones anteriores acerca de la muestra lo permiten, se emplea en primer lugar la
pruebaTdeStudentadecuaday,posteriormente,secomparansusresultados(elvalordeǦ
especialmente) con la alternativa no paramétrica concreta. Y si, como es lo más común, los
valoresdeestasdeambastécnicassonsimilares,sedesprecialaausenciadenormalidadyse
mantieneTdeStudentcomopruebaadecuada.
Este es un buen momento para comentar que las pruebas no paramétricas que aquí
aparecen (MannͲWhitney y Wilcoxon) fueron ideadas en sus orígenes para VD con nivel métrico
ordinal.Portantosisedieseestecaso,pococomúnenPsicología,estastécnicasseríanlaspreferidas
pordelantedelasTdeStudent.
3.Ͳ Yfinalmente,lacondiciónvinculadaalaVIeslaquesirveparadeterminarlapruebaespecífica
másadecuada.Así:
Ͳ Sisus2categoríasimplicanquelosindividuosquecomponenlas2submuestrasdefinidaspor
ellassonsujetosdistintos,estamosanteelcasodemuestrasindependientes.
Entonceslapruebaadecuadaserá:
>laTdeStudentsisehancumplidotodoslosrequisitosanteriores;
>eltestnoparamétricodeMannͲWhitneyenloscasoscomentadosanteriormente;
Ͳ En cambio, si las 2 categorías de la VI obligan a que se trabaje con individuos vinculados por
algunadelascircunstanciasdescritasenlapágina270(mismaspersonas,relacionessanguíneas,
osujetosigualadosexperimentalmente),estaremosenelcasodemuestrasrelacionadas.
Yentonceslapruebaadecuadaserá:
>laTdeStudentsisehancumplidotodoslosrequisitosanteriores;
>eltestnoparamétricodeWilcoxonenloscasoscomentadosanteriormente;
Enresumen:
¿Restode
SI
2M.I. condiciones? TdeStudent
NO MannͲWhitney
¿Restode
2M.R. SI TdeStudent
condiciones?
NO Wilcoxon
Estas técnicas paramétricas fueron ideadas por Gosset para posibilitar el
contraste de hipótesissobrelasignificacióndeladiferencia entre2medias,aúnel casodequese
tuviesenmuestrasdetamañopequeñoysedesconocieseelvalordelavarianzapoblacionaldelaVD
medida.Alrespectodesuorigen,losyacitadosArthuryElaineAaronpublicanotrocuriosocuadro
ensulibro“Estadísticaparapsicología”(2001)quesereproduceacontinuación:
Dadoelcontextoenelquenosencontramos,supongoquenoseráningunasorpresapara
el lector el hecho de que estas técnicas se centren en determinar si existe, o no, una diferencia
estadísticamente significativa entre las medias (halladas en VD) por dos grupos de sujetos con
distintonivelenunaVIquepensamosqueejerceunefectodecambiosobrelaVD.
PortantoelcontrasteestadísticoparalaPruebaTpodríaser,engeneralyadoscolas:
Ͳ:ρଵ ൌ ρଶ olasmediasdelaVDnodifierensignificativamenteentrelascategoríasdelaVI
ͳ:ρଵ ് ρଶ olasmediasdelaVDdifierensignificativamenteentrelascategoríasdelaVI
Sinembargo,noesexactamenteasí.Yaseexplicó(enpáginas266Ͳ267)yrevíseloellector
si lo necesita, que la estrategia de las pruebas paramétricas consiste en definir a un parámetro
denominadomediadelasdiferenciasqueequivalealaanteriordiferenciaentrelasdosmedias.Por
ello,laformulacióngeneralyadoscolases:
Ͳ:ρଵ െ ρଶ ൌ Ͳ
ͳ: ρଵ െ ρଶ ് Ͳ
demaneraquelamediadesudistribuciónmuestrales0ytodalatareaconsisteendeterminarcuál
eselestadísticodecontrastecorrespondientealadiferenciaobservadaenlamuestra.
Traslocontenidoenelcuadrodelapáginaanterior,esobvioqueestaspruebasrecibensu
nombre porque el modelo de probabilidad que se emplea para hallar la significación de dicho
estadísticodecontrasteeselyaconocidomodelo“”(repasarsuspropiedadesenpáginas171Ͳ172).
En teoría el modelo debería de haber sido el N(0;1), pero como por lo general se desconocen las
varianzaspoblacionalesnosepodíautilizar.ÉstefueunodelosproblemasqueresolvióGossetcon
su modelo “” de probabilidades. Además, como quiera que a partir de 30 g.l. ambos modelos de
probabilidad son casi idénticos, emplear esta “dz de Student aún con muestras grandes genera
prácticamenteresultadosidénticos.
Deestaprueba,tenemosdosversionescomosededuceporloexplicadoenvarioslugares
de las páginas anteriores como por ejemplo en el esquema de la 303. A continuación se exponen
cadaunadeellas,ayudándonosdeunejemploresueltocomoesnormadeestemanual.
17.2.1.- Prueba T para muestras independientes
Recuperando y resumiendo lo ya expuesto, esta versión de la Prueba T (de
Student)seutilizarácuandosecumplanlassiguientescondiciones:
1) laVD,cuantitativa,sedistribuyenormalmentetraslacomprobaciónestadísticapertinente;
2) laVItiene2categoríasquepermitenelempleodemuestrasdesujetosdistintosentresí;
3) lamuestratotalesmayora30casosy,siesposible,sehaseleccionadoaleatoriamente;
4) lahipótesiscientíficaestéenunciadaentérminosdelasignificacióndelefectodiferencialque
ejercelaVI(elfactor)sobreelrendimiento(lamedia)delosindividuosenlaVD.
El contraste estadístico de hipótesis, sigue el formato general ya conocido y se puede
enunciaren1colacuandoseesperanloscambiosdelaVDenunsentidodeterminado.Aunquecon
estacuestiónhayquetenercuidado,puestoqueelprogramaSPSSnosofrecelosresultadossiempre
en2colas.Peroesto,comotodolodemás,loveremosmejorenlossiguientesejemplos.
Ejemplo30
Dentro del contexto
c de una investig gación sobre personas maayores de 60 0 años
que padecenn Alzheimerr en diferentees estadios de d evolución n, disponemoos de los datoos de una muestra
m
aleatoria dee 239 personnas que han sido atendiddas por este motivo m en Centros
C de Salud de Casttilla y
León. Todoos ellos han realizado vaarias pruebas psicométriicas. En estee momento nnos planteam mos la
hipótesis dee que no exxistirán difeerencias signnificativas en ntre sexos en e las puntuuaciones que han
obtenido enn el Test Minni-Mental dee Folstein (M MMSE) en el e que cuantoo menor sea la puntuació ón (en
una escala entre 0 y 300) mayor es el estado dee deterioro mental m de la persona (dessde el valor 23 se
puede pensaar en la preseencia de una demencia).
Portanto,deleenunciadoan nteriorsededucequelaVDsonlasp puntuacionessdelTestMM MSEy
la VI es el sexo
s de los enfermos dee Alzheimer (obviamente con 2 niveeles: varón/m mujer) por lo que
dentro de la muestra total vamos a considerarr que existen n 2 submuesstras que so on independiientes
entresíya queestossu ujetosnotieenennadaquelesempaareje.Elobjeetivodeinveestigaciónen neste
caso, planteea una exceepción de la costumbre puesto que se busca probar que n no hay difere
encias
significativaas, es decir que no hay efecto de la VI (sexo) sobre la VD D (el test M
MMSE). Por ello
e la
hipótesis científica sería algo así coomo: “no exxisten diferen ncias significcativas entree las medias en el
testMiniͲM Mentaldehom mbresymujeeresdiagnossticadosdeA Alzheimerenlapoblación ndeCͲL”.
Estaahipótesisseecorrespond de,entoncess,conlaͲd delcontrasteeestadístico,quesería:
Ͳ:ρୗȀୟ୰ െ ρୗȀ୳୨ ൌ Ͳonohaydifere
n enciassignifiicativas
ͳ: ρୗȀୟ୰ െ ρୗȀ୳୨ ് Ͳosíhaydiferen
s nciassignificcativas;
endoscolasportanto.
Enffuncióndettodoesto,paarecequelo omásadecu uadoseráem mplearunap pruebaT(deeM.I.)
para resolvver este conttraste. Solo nos falta veerificar el aju
uste de la VD
V a la norm malidad. Paraa ello,
empleamosselTestKͲSeexplicadoen nelTema13,,yalquesellegabaconlarutadeSP PSSͲ15:
ANALIZZARÖPRUEB BASNOPARA AMÉTRICASÖ ÖKͲSDE1M MUESTRAosubotón
rápido:
Com modichapru uebayaseco onoce,melimitoainserrtarycomen ntarlatablad deresultadoosque
seobtienecconlosdatossdeestamu uestra:
Porlotanto,vamosconellaa.LarutadelSPSSͲ15parraejecutarlaeslasiguien
nte:
ANALIZARÖCOMPARA ÖPRUEBATPARAMUEST
ARMEDIASÖ NDIENTESosubotón:
TRASINDEPEN
En el
e cuadro dee diálogo qu
ue se abre y que se inclu
uye a contin
nuación, se sselecciona a la VD
(testMMSEE)ysetrasladdaalacasilladeContrasstarvariablees.DespuésssemarcalaV VI(sexo)yse
elleva
denominadaVariabledeagrupación..Alhaceresto,traselno
alacasillad ombredelavariableapaarecen
dosinterrogantes(talycomoseveenlaimageninferiordelaizquierda);esoquieredecirqueSPSS
está esperando que le digamos cuáles son los códigos numéricos asignados en la definición de la
variablequesehizoensumomentoenlahojaVistadeVariables.Estacuestiónseresuelvepicando
enelbotón Definirgrupos… queabreelsubcuadrodediálogoquesevedebajoaladerecha.Yloque
seestácomentandoimplicaquesepodríadarelcasodequeestuviésemosempleandoestatécnica
paraanalizardelefectode2nivelesconcretosdentrodeunaVIqueendefinicióntienemásdeesas
doscategoríasinvolucradasenelcontraste.Desdeluegoestenoesnuestrocaso,puestoqueenel
sexo(laVI)nopuedehabermásde2nivelesyporlógicahabránrecibidoloscódigos1y2.Además
comoenesteejemploelcontrastesehaformuladoenformabilateralelordendeestoscódigosno
tiene trascendencia ninguna. Por tanto, en el citado subcuadro seescriben los valores 1 y 2 en las
casillasdecadagrupoysesalecon Continuar .
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Test de ESTADO Se han asumido
,000 ,985 -,761 237 ,448 -,61430 ,80769 -2,20546 ,97686
MINI-MENTAL varianzas iguales
(puntuación total) No se han
asumido -,761 232,907 ,447 -,61430 ,80707 -2,20439 ,97579
varianzas iguales
Laprimeraesunatabladedescriptivosdondevemosquelas128mujereshanobtenidouna
media de 19,69 (con desviación típica 6,26) y que los 111 varones tienen una media igual a 20,30
(conunad.t.6,19).Asimismodichatablacontieneloserrorestípicosdelasrespectivasdistribuciones
muestrales.Ladiferenciaobservadaentreambasmediaes0,62(envaloresabsolutos)ysepuedever
enlatablainferiordondediceDiferenciademedias.Asuladoaparecetambiénsuerrortípico.
Estaasegundataablacontieneelainformaccióndelapruebaensí.YYsupongoqueloprimerroque
noshabrállamadolaatenciónesq quedeformaautomática,elprogram maharealizzadolapruebade
Levene quee verifica si los datos de d ambas muestras
m cummplen la con ndición de hhomocedasticidad
(igualdad entre varianzzas) estableccida por el MLG
M (y comentada en el e Tema 16 aanterior). Po or esa
razónenestasegundattabladeresu ultadoshayddospartes:laadelaizquieerdaconestaapruebaylaadela
derechacon nlapruebaTTensí.Yadeemásdentrodeestaparttedelatablaaseapreciaqueaparece endos
conjuntosd deresultadoss;siellectorrsefijaenlaalíneasuperriordiceseh hanasumido ovarianzasigguales
y en la infeerior dice lo mismo en negativo
n (no
o se han…). De esta man nera, dependiendo de lo que
ocurracon lacomprobaacióndelah homocedastiicidadenel Levene,sep procederáa tomarunou uotro
conjuntodeeresultados..
Vammosaconcreetarloquehaaocurridoennuestroeje emplo.
EnllapruebadeeLeveneseh haobtenidounestadístiicodecontraste ൌ,000 0cuyaǦ= =,985
(>,050)nos permiteaceeptarsuͲd deigualdad entrevarian nzasyconclu uirqueambaassubpoblacciones
cumplenlacondicióndeehomocedasticidad.
Porestacausa,losdatosdeelapruebaTTquevamosainterpretarsonlosqueeencontram mosen
laprimeralíneadelataabla(laqued dicelode“seehanasumid dovarianzassiguales”).Enella,como oyase
dijo antes tenemos
t el valor del estimador difeerencia de medias
m (0,6
614) junto a su estadístiico de
contraste“=0,761”co onsusgradosdelibertad dysuǦ(,,448)bilateral.
De manera quee la conclusión estadísticca a la que se llega es: “con una ǦǦ=,448>,0050 no
podemosto omarladecissiónderech hazarla Ͳp
porloqueesstamosendiisposicióndeeadmitirqueesila
mediadela asdiferencia aspuedeser 0,entoncessnoexisten diferenciasssignificativassentrelasm medias
deambosg grupos”confiirmandolaeexpectativad delinvestigaddor.
Ytrrasella,elaborarunacon nclusiónparaamostraren nlostextosccientíficossimmilaraesta:“Una
vezcomprobadaslasco ondicionesdeenormalidad d(ൌ,126)yhomocedasticidad(ൌ,9 985)sehaellegido
laPruebaT T paracontra astarlahipóttesis.Losvarronesobtuvieeronunamediade20,30 0puntos(d.t.6,19)
eneltestM MMSE,mientrrasquelasm mujeresalcan nzaronunam mediade19,,69puntos(d d.t.6,26).Co
onuna
>,05estaddiferencianooesestadístiicamentesiggnificativa(=ݐ0,761;gl==237;ൌ,4488)”.
Ejemplo31
Un investiggador piensaa que un tip po de educación autoritaaria utilizad da con
niños menoores de 10 añños provocarrá que cuanddo esos niños sean adoleescentes mannifiesten un mayor m
nivel de aggresividad. Para ello seleecciona al azzar a 146 fam milias de cieerta ciudad ccon hijos en n edad
adolescentee; mediante un u cuestionarrio ad-hoc y les clasificaa según el método que haan seguido para p la
educación de d sus hijos ene dos grupoos: educaciónn autoritaria (50) y educcación permisiva/relajadaa (53);
el resto de lal muestra noo pudo ser claramente
c enncuadrada en n alguno de estose gruposs, por lo que se les
descarta. Díías después se s aplica a uno
u de sus hij ijos (en edad d adolescentee) un cuestionario que mide su
nivel de agrresividad.
PortantodefinimoscomoV VDalaspun ntuacionesdeltestquem midelaagreesividadycomoVI
al tipo de educación
e (aautoritaria vss permisiva//relajada), po or lo que se definen dos submuestrras de
sujetos no relacionadoss entre sí. Visto
V el objettivo, la hipóttesis científicca establecee que: “el nivvel de
agresividad d manifestad do en el teest por los adolescentes con una a educación autoritaria a será
significativa amentesupeerioralnivelm mostradopo orlosquehanrecibidoed ducaciónperrmisivaͲrelaja ada”.
AG
GRESIVIDAD Vistos los resultados del
d test KͲS,,
(puntuación
total) con un na Ǧൌ,0 000<,050 no podemoss
N 103
Pará
ámetros normales a Media 9,02 aceptar la Ͳ de ajuste a la normalidad..
Desviación tíípica
1,163 Portannto,segúnesstamuestra,,concluimoss
Diferrencias más Absoluta ,247
extre
emas Positiva
que lal VD pu untuaciones del testt
,200
Negativa -,247 agresivvidad no se ddistribuye no
ormalmentee
Z de
e Kolmogorov-Smirnov 2,507
Sig. asintót. (bilateral) ,000 enlapooblación.
a. La distribución de contraste es la Norm
mal.
Prue
eba de muestras ind
dependientes
Pru
ueba de Levene
para
a la igualdad de
varianzas Prueba T para
p la igualdad de
e medias
95%% Intervalo de
connfianza para la
Diferencia E
Error típ. de diferencia
F Sig. t gl Sig. (bilateral)) de medias la
a diferencia Inferrior Superior
AGRES SIVIDAD Se hann asumido
10
0,700 ,001 3,191 101 ,002
2 ,701 ,220 ,
,265 1,136
(puntua
ación total) varianz
zas iguales
No se han
h
asumiddo varianzas 3,235 86,0
008 ,002
2 ,701 ,217 ,
,270 1,131
iguales
s
Enlatablladedescrip
ptivos,seve quelos50aadolescentessquehanreccibidounaeducacióndee
tipoaautoritariohhanobtenido oenlaescaladeagresivvidadunameediade9,38 8puntos(con ndesviación
n
típicaa0,80)mienttrasquelosquehanten nidounaedu ucaciónmás permisivahaantenidoen nagresividad
d
unamediade8,68puntos(cond.t.1,34).Ladiferenciaentreambasmediases0,70ylacuestiónessi
llegaaserunadiferenciasignificativa.
EnlapruebadeLevenesehaobservadounestadísticodecontraste ൌ10,70quetieneuna
Ǧ=,001<,050quenonospermiteaceptarsuͲdeigualdadentrevarianzas.Portantoconcluimos
quenosecumplelacondicióndehomocedasticidadentrelassubpoblaciones.
Porestarazón,enlapartedelatablacorrespondientealaPruebaTdebemosdeutilizarel
conjunto de resultados de la línea donde dice “no se han asumido varianzas iguales”. En ella,
encontramos el estadístico de contraste “=3,24” con sus grados de libertad y su Ǧ (,002)
bilateral.Yahoraescuandohayquetenercuidado,puestoqueelcontrasteerade1cola.Anteesta
situación,hayquedividirelvalordelaǦporlamitad;esdecirqueenestecaso:,002/2=,001.
Visto todo lo anterior, la conclusión estadística a la que hemos llegado es: “siendo la
pͲsig=,001<,050podemostomarladecisiónderechazodelaͲporloqueestamosendisposiciónde
admitirquesilamediadelasdiferenciasnopuedeser0entoncesesquelamediadelosadolescentes
coneducaciónautoritariaessignificativamentemayorquelamediadelossujetosconunaeducación
máspermisiva”confirmandolahipótesisformuladaporelinvestigador.Enelextremofinaldeesta
misma línea de la tabla se observa que con una confianza del 95% se ha estimado un para la
diferenciaentre0,27y1,13puntosdelaescaladeagresividad.
Con lo cual ya tenemos la información suficiente para elaborar la comunicación de este
resultadoenuntextocientífico,queseríaaproximadamentecomoesta:“Sehacomprobadoqueno
se cumplían ni la condición de normalidad (ൌ,000) ni la de igualdad de varianzas (p=,001). Los
adolescentes que habían recibido una educación autoritaria puntuaban más (ൌ9,38) que los que
habían recibido una educación de tipo más permisivo (ൌ8,68). Según la prueba T, con p<,05 esta
diferenciaharesultadoserestadísticamentesignificativa(=ݐ3,24;gl=86;<,001;95%:0,27;1,13)”
Me gustaría que os fijarais que en muchos casos, cuando en la revista no se emplean símbolos
estadísticos(comoeldela ഥ)seemplealaletrapararepresentarla.
Noobstantecomoyaquedódichoantes,estaconclusióndeberíadesercorroboradaporla
alternativa no paramétrica de esta prueba T para descartar que la ausencia de normalidad tenga
algúntipodeefectomodificadorsobrelosresultadosdelanálisisrealizado.Aunquemásadelantese
presentaeltestMannͲWhitneyconestosmismosdatos(elresultadoseencuentraenlapágina316),
quierodestacarqueesmuyextrañoqueconmuestrastangrandescomolaquetenemos(=103en
total)hayacontradicciónentreambaspruebas.
Sinduda,podríamoshacermásejemplosyalestudiantesiemprelepareceríanpocos.Perosí
quequedaunacuestiónimportanteporcomentar.Obsérveselaimageninsertadadebajo.
En el subcuadro de diálogo que se abre cuando
pulsamos en el botón Definir grupos… hay una opción muy
interesante: Punto de corte. Esto se emplea cuando la VI es
unavariabledeorigencuantitativo(porejemplo:laedad)yse
deseabuscarunvalordecortequeestablezcadosgruposde
sujetosendichaVI.
Deestamanera,sepuedecomprobarsisedetectandiferenciassignificativasenunaVDentre
losgruposasíestablecidosenlaVI.Ysinolahay,sepuedeircambiandodepuntodecortehasta
encontrarelqueseaidóneo.
17..2.2.- Pru
ueba T para
a muestras
s relacionadas
Estassegundaversióndelaté écnicaTde Studentsed diferenciade elaanteriorr
sólo enquelaem mplearemoscuandodesseamosconttrastarlosreesultadosen nlaVDobtenidosporlo o
queeestadísticamentedenominamosmueestrasrelacio onadas.
Yaseexpplicóqueesttasituación sepodíapreesentaren3 3casos(página270)de loscualesell
más común es aquel en quee los mismos sujetos so
on utilizados en dos situ
uaciones expperimentaless
distin
ntasentrelasquesemodificaelniveeldepresenciadelaVI. Yenparticu ulardentroddeestecaso,,
segurramenteelm másfrecuentteeseldeloosdiseñosprreͲpost(tambiénllamado osantesͲdesspués)enloss
que la
l medición de la VD quue se hace en
e primer lu
ugar se utilizzará como m
medida de control de laa
segunndamediciónqueesdon ndeseesperraquelaVIh
hayaejercido oalgúnefecctosignificatiivo.Porestaa
razónntambiénseesueleconocceraestavariantecomo:PruebaTparadiseñospareados.
Entonces,lascondicio onesparasucorrectautiilizaciónson:
1)
1 quelaVD
D,cuantitativva,sedistribuuyanormalm mentetrassuucomprobacciónestadística;
2
2) quelaVI tenga2cattegoríasque nosobligue enatrabajarrconalgunodeloscasosenquelass
muestrassdesujetoseestánrelacio onadasentre esí;
3)
3 quelamuuestraseam mayora30caasosy,siesp
posible,sehaayaseleccion
nadoaleatorriamente;
4
4) yquela hipótesiscieentíficaseennuncieentéérminosdelaasignificació
óndelefectoodiferenciall
queejerccelaVI(elfactor)sobreeelrendimiento(lamedia)delosindivviduosenlaV
VD.
Aquí tam
mbién podem
mos decir qu ótesis, sigue el formato
ue el contraaste estadísttico de hipó o
generalyaconocidoyquesepuedeformularen1colacuandoseeesperanlosscambiosde elaVDenunn
sentid
dodeterminnado.Yvamo
osyaconlosejemplos.
Ejemplo32
Se deesea demosttrar estadístiicamente qué la ingestaa de alcoholl incrementaa
signifficativamentte el tiempo de reacciónn ante estím mulos visualees. Para elloo se diseñad do una tareaa
virtuaal de conduucción en unn simuladorr en la cuall el conducttor después de 4 minuttos de estarr
conduuciendo tienne que realizzar inesperaddamente unaa maniobra repentina r dee frenado paara evitar unn
choquue frontal. ConC objeto dee eliminar laas posibles diferencias
d inndividuales sse decide trab bajar con unn
únicoo grupo de sujetos.
s Se consigue
c unaa muestra aleeatoria de 60 conductorres de amboss sexos, conn
edadees entre 21 y 40 años y con más de 2 años de carn né de conduccir. En primeer lugar se les presenta laa
tarea de conducciión al final de d la cual tiennen que realiizar la manioobra que evitta el choque y se mide ell
tiemppo que tardann (en segunddos) en pisar el freno. A continuación
c n, se le invitaa a que bebann 3 cervezass
en el plazo de meedia hora sin que sepan quue van a ser evaluados dee nuevo. Y ppor último see les enfrentaa
a unaa tarea de connducción sem mejante pero distinta de la l anterior, all final de la ccual de nuev vo tienen quee
frenaar para evitar el accidentee y se mide cuuánto tiempo o tardan ahorra en reaccioonar.
Por lo exxplicado se deduce
d que la VD es evidentementee el tiempo d de reacción (TR) ante ell
estím
muloquereq quieredeellosunarespuestaeficaz (lafrenada))ylaVIeslaaingestade ealcohol,en n
función de la cuaal hemos creeado dos sittuaciones disstintas: la medida pre (q que emplearremos como o
contrrol)ylamed didapost(qu ueemplearemoscomom medidadeleefectodeltraatamiento). Alutilizarall
mismmogrupodessujetosenam mbasmediciiones,estam mosanteunccasodemuestrasrelacionadas.
Seggúnelobjetivvo,lahipótessisquequeremosprobaresque:“lamediadelTTRobservado oenla
tareaaumeentasignifica ativamenteccuandolossu ujetoshanto omadoalcohholaunquen
noseaenuna
atasa
elevada”.Porelloelcon ntrasteestaddísticoseforrmularáen1cola:
Ͳ: onosignificcativamentemayor;
: ρୖȀୗ୧୬ୟ୪ୡ୭୦୦୭୪ െ ρୖȀେ୭୬ୟୟ୪ୡ୭୦୭୪ Ͳo
ͳ:
: ρୖȀୗ୧୬ୟ୪ୡ୭୦୦୭୪ െ ρୖȀେ୭୬ୟୟ୪ୡ୭୦୭୪ Ͳo
osignificativamentema ayor.
Com
moenlapruebaTdeM.I.elbotón Opciones…
O pe
ermitecambiarelcoeficientedeconfianza
para la estiimación inteervalar de la diferencia. Si se desea mantener el
e habitual 9
95%, simplem
mente
salimosdelmenúcon Aceptar
A paraqqueSPSSnosentreguelaassiguientesstablasdereesultados:
Estadísticos de
e muestras relac
cionadas
Lad medidasdelaaVDconsussd.t.ysuserrores
dedescriptivvos,contieneelasmedias deambasm
típicos.Enn
nuestroejem
mploelTRhaasidomayorenlamedidapostͲingesstadealcohool.
Diferencias relacionadas
95% Intervalo de
confianza para la
Desviación Error típ. de diferencia
Media típ. la media Inferior Superior t gl Sig. (bilateral)
Par 1 TR-Pre (sin alcohol)
-3,750 1,257 ,174 -4,091 -3,409 -21,505 51 ,000
- TR-Post (con alcohol)
Ylasegundaeslatabladelapruebacomotal.Ellectorsehabráfijadoqueaquínosesomete
a comprobación la condición de homocedasticidad. Ello se debe a que estamos trabajando con los
mismossujetosporloqueestaigualdaddevariabilidadesinherenteaestasituación.
Enlapruebaensí,elestadísticodecontraste“”deStudenttieneasociadaunaǦdela
quedecimosquees<,000enunacola(ésteeselresultadodedividirporlamitadelvalor,000dedos
colas);comoestadeerroresmenorqueelniveldesignificacióndel,05podemosrechazarlaͲy
llegar a la conclusión estadística: “con Ǧ<,000<,050 se puede tomar la decisión de rechazo de
hipótesisnulaporloquepodemosadmitirquelamediadelTRessignificativamentemayorcuando
lossujetostomanalcohol”confirmandolahipótesisdepartidadelinvestigador.Enlamismatablase
puedenvercuálesseránloslímitesconfidencialesdelal95%;elsignonotienetrascendencia.
La forma de comunicar esto como conclusión científica sería aproximadamente como esta:
“Tras probar la condición de normalidad (>,05), la prueba T para datos pareados nos permite
afirmarcon <,05quelosindividuoscuandohabíantomadoalcoholtuvieronuntiempodereacción
(M=12,88segundos)significativamentesuperioralqueteníancuandonolohabíantomado(M=9,13
segundos);(=ݐ21,505;gl=51;<,000;95%:3,41segundos;4,09segundos)”.
ComoyasecomentóaliniciodeesteTema,existensituacionesenlasquelas
pruebasTdeStudentnosonlasmásindicadas,oalmenospodríanperderpartedesupotencia.Se
suele decir que por el hecho de ser técnicas paramétricas son muy exigentes en cuanto a la
verificación de las condiciones que nos permiten su uso y que por tanto son muy sensibles ante
cualquierincumplimientodelasmismaspudiendo,incluso,modificarladecisiónqueelinvestigador
tomaenelcontraste.
Para estos casos disponemos de test alternativos de tipo noͲparamétrico que tienen la
ventaja de que no necesitan ningún requerimiento especial para su utilización, pero que tienen la
grandesventajadequesonmásconservadores,esdecirqueresultamásdifícillograrelobjetivode
rechazar la hipótesis nula y se tiende a aceptarla debido a que los valores de las Ǧ son más
elevados(esdefinitiva,quetenemosmayorprobabilidadexactadecometererrortipo).
Loscasosindicaadosparautiilizarestastéécnicasalternativasson:
uandolaVDssolamenteseemideanivelmétricoordinal(númeerossinunidaddemedid
1.Ͳ cu da);
2.Ͳ cu
uandoseincu umplegraveementeelsup puestodeno ormalidad;
3.Ͳ y especialmennte,cuandollasmuestrassutilizadasn noalcanzanlasuficiente representatividad
y//o son muyy pequeñas en tamaño o (según cieertos estudioos parece q
que su uso sería
obbligatoriocuandotengam mosmenosd de6individuosporgrupo o).
De hecho, com mo ya quedóó dicho en página 303,, estas técn
nicas no parramétricas fueron
originalmen nte creadas por sus au utores para ser utilizad
das con VD medidas een escala orrdinal.
Posteriormeentesecom mprobóqueeestaspruebaas,parauno osmismosdatosindepen ndientementedel
cumplimien ones que requieren las T de Studen
nto o no de las condicio nt, arrojaban resultadoss muy
similaresauunqueconp probabilidadeesdeerrormmáselevadas.Delacom mparacióndeeestosresulltados
sededuceeelconcepto depotencia delapruebasnoͲparaméétricas(que sepresentóenla
aͲeficienciad
página 1866). En la literatura especializada consta que see ha demosttrado empíricamente qu ue las
alternativassnoparamétricasdelas PruebasTtienenpoten nciaselevadaas(másdel990%)conresspecto
aloscontraastesdeStud dentinclusoeenmuestrasspequeñas.
17.3.1.- El test de e Mann-Wh hitney
La denominnada Prueba U de Mann nͲWhitney es
e la alternaativa más po
otente
paraelconttrasteTeneelcasodem
muestrasindeependientes.Comoeshaabitual,paraasuempleo nose
exigeningunacondición nmásque:
Ͳ laVD
Dvengaexpreesadaennúm meros(yaseeanrangosordinales,ovaloresconunidaddeme edida)
Ͳ yqueelaVItenga2categoríassquepermitaanladefiniciiónde2submuestrasind dependiente es.
Paraconocerla,n
nadamejorq
queunejemp
plo.
Ejemplo33
La propietarria de una guuardería, quee es Psicólogga, está convvencida de qu ue los
niños de 2--3 años ya muestran
m unaa mayor tenddencia hacia los juegos que q implicann deporte co on una
actitud muccho más partticipativa y competitiva
c que la niñass, quienes muuestran en caambio una actitud a
mucho máss indiferente hacia ese tipo de juegoos. Utiliza un u registro sistemático eestandarizado o para
medir el grrado de indifferencia haccia los juegoos que impliccan deporte y evalúa coon él, durantte una
semana, a loos 7 niños y a las 9 niñass de esa edadd que tiene in nscritos en suu propio centrro.
Seggún esto la VD
V que medimos es el grado
g de acttitud de indiferencia haccia las actividades
queseacerrcanalosdeeportes;variiablequeaunqueseha medidomed dianteunreegistrosistem mático
puedeque noalcanceeelsuficiente niveldemeedidacomop paraemplearunapruebaTquedánd dosea
nivelordinaal,cuestiónq queyaesun napistaquepodríaindiccarquevam mosanecesittarunapruebano
paramétricaa.LaVIeselsexo,enlaq queobviameentehaydossnivelesqueedefinenlasdosmuestraaspor
supuestoin ndependienteesentresísaalvoqueniño osyniñasde eambosgruposestuviessenemparen ntados
consanguíneamente.Elreducidotamañodeesttasmuestrass(7y9)ylaeevidentefalttadealeatorriedad
que se da en el hecho os individuos que tiene en su Centro sin
o de que la investigadorra tome a lo
posibilidaddecontarcongrupoamplioparahacerposteriormenteunmuestreoaleatorio,hacenya
prácticamenteobligatorioelusodeunapruebanoͲparamétricacomoes,enestecaso,ladeMannͲ
Whitney.
Apartirdelobjetivoindicadoenelenunciadoanteriorlahipótesiscientíficaqueformulamos,
afirmaque:“elgradodeindiferenciahacialosjuegosqueimplicandeporteserámenorenlosniños
que enlaniñas”.Esto eslomismoquedecirquelosniñostienenmayortendenciaajugaraestos
juegosquelasniñas,perosedebedeenunciarasíporquelaVDmidegradodeindiferencia,nogrado
deatracción.
En técnicas no paramétricas como esta, la hipótesis nula del contraste estadístico no se
puederepresentarutilizandolossímbolosP(quesonparámetros),sinoquesedebedeexpresarde
formaliteral(esdecir,comountexto);esosí,siguiendolaestrategiahabitual,esdecir:negandola
existenciadeladiferenciaqueacabamosdeplantear.Portanto:Ͳoelgradodeindiferenciahacia
losjuegos…noserásignificativamentemenorenlasniñasqueenlosniños.
LarutadeSPSSͲ15pararealizarestapruebaes:
ANALIZARÖPRUEBASNOPARAMÉTRICASÖ2MUESTRASINDEPENDIENTES
Elcuadrodediálogoesmuysemejantealde
las Pruebas T de Student. Seleccionamos la VD y la
trasladamos a la casilla de Contrastar variables.
Seleccionamos a la VI y la llevamos a la casilla de
Variabledeagrupación.Debajodeella,igualqueen
la Prueba T, encontramos el botón Definir grupos…
encuyosubcuadrodediálogoindicamoslosvalores
numéricosasignadosalascategoríasdedichaVI.El
resultado de todas estas acciones se puede ver en
las imágenes incluidas al lado. El botón Opciones…
del cuadro de diálogo principal abre un subcuadro
donde aparece una opción de cálculo de los
Descriptivos. Pero, mucho cuidado porque estos no
son los estadísticos de la VD en cada submuestra
definidaporVI,sinoquenoscalculaestadísticosde
toda la muestra global; por lo que no nos da la
informaciónquenecesitamos.
En la imagen superior de estas tres, también se aprecia que hay varias técnicas no
paramétricasaplicablesaestecaso.SPSSyatraedeserieactivadalapruebaUdeMͲW.Demanera
queterminandoeltrabajoconunclicen Aceptar ,elprogramanosdevuelvelassiguientestablasde
resultados:
Estadísticos de contrasteb
generartabblasmerameentedescripttivasdeVDeen In
ndiferencia hacia
a juegos deportivo
os
Sexo del Hijo
S Media N Desv. típ.
t
funciónde lascategoríaasdeunaVI(ANALIZAR Ö V
Varón 6,86 7 2,2268
COMPARARMEDIASÖMEDIAS)seh haobtenidola M
Mujer 8,22 9 1,9922
T
Total 7,63 16 2,1125
tablaadjunttaallado.
Eneellasecomp prueba,comosedijoarrriba,quelos niñostienen nunamediaamenorque elade
lasniñasen
nlaescaladeeindiferencia.Sinembarrgoyasabem mosquenoeesunadifereenciasignificcativa.
Por todo ello,
e llegamoos a la sigu
uiente conclu
usión que constituye
c laa comunicacción científica de
resultados: “En la pru
ueba que evvalúa la indiiferencia ha
acia los jueggos que imp
plican activiidades
deportivasllasniñaspreesentanunamedia(8,22))mayorquelosniños(6,86);sinemb bargocon>,05la
>
noesestadístticamentesignificativa(deMannͲW
diferencian Whitney=20,00;ͳ=7;ʹ=9;Ǧ=,12 26)”.
Ejemplo3
31.b
En el ejempplo 31, de laa Prueba T para muestrass independieentes, se obtu uvo la
siguiente coonclusión esttadística: “sieendo la Ǧ
ൌǡͲͲͳ൏ǡͲͷͲͲ podemos toomar la decissión de rechaazo de
la H0 por lo que estaamos en dispposición de admitir quee… …la meedia de los adolescentees con
educación autoritaria
a ess significativvamente mayyor que la meedia de los sujetos
s con uuna educación más
permisiva”.. Pero,recorrdemosque laVDincum mplíagravementeelsupu uestodenorrmalidad(= =,000).
Vamosacomprobarqueestonoafeectabaalaconclusiónan nterior,usandolaalternaativadeMͲW W.
Esoobvio,porunnladoquelaashipótesis sonlasmism
mas,yporottroquelafoormaderealizarla
pruebaeseexactamenteelamismaqueseacaba deverenelejemploan nterior.Poreello,directam
mente
incluyolosrresultadosdeestaaltern nativanoparramétricaconaquellosdatos:
E
Estadísticos a
de contraste
c En latablaadju
untasepueddeverqueellvalor
AGRESIVIDAD delaǦ enMͲW(,00 03en1cola)escasielm
mismo
(puntuación total)
U de Mann n-Whitney 931,000 queseobtuuvoenlaPru uebaT(,001
1);demanerraque
W de Wilcoxon 2362,000
Z -2,768
estopruebaquelafalttadenormalidaddelaV VDno
Sig. asintó
ót. (bilateral) ,006 tenía conssecuencias en
e la tomaa de la de ecisión
a. Varia
able de agrupació
ón: TIPO DE EDUCACIÓN
estadística.
17..3.2.- El test
t de Wilc
coxon
Por su
s parte, la prueba T ded rangos de d Wilcoxon n es la alternativa máss
poten nteparaelcontrasteTdeStudentpaaramuestrassrelacionadaas.Suempleeosimplemen nterequieree
que:
Ͳ laVDvengaaexpresadaennúmeross(yaseanran ngosordinales,ovaloressconunidaddemedida)
Ͳ yquelaVI tenga2cateegoríasque nosobliguen natrabajar con2submu uestrasrelaccionadas(en n
algunodellostrescasosconocidos)).
Operativaamente,hayyquerecordarqueeste tipodediseñosimplica queenlabaasededatoss
(tipoSPSSocualq quierotra)nosevaaverr1VDy1VI;;sino2medicionesdelaaVDrealizadasbienaloss
mism mossujetos(eenunpre/po ost)obienaaparejasdesujetosvincu uladosentreesíporlarazzónquesea..
Elobjjetivo,compparaestasdo osmedidasdelaVDespe erandoencon ntrarquelaV VIquesemo odificaentree
una y otra med dición, produzca diferen ncias significativas en los valores de dicha VD. V Esto ess
importante,porq queavecesccuestadefinircorrectame entealasvaariablesparacrearlabasededatosyy
si no se prepara adecuadam mente, no haay forma de e realizar la prueba estaadística apro opiada. Estaa
mism ma cuestión afecta a la anterior
a prueba T de Sttudent para M.R., pero allí no se hizo mención n
porqu ue parecía muy
m claro qu ue el ejempllo establecíaa observar laa VD en 2 siituaciones. Llegado
L estee
punto onoqueríad dejarpasarmmástiempossinrepasare esto,deahíeelcomentario o.
Segurameente la form ma más fácil de enseñar todo ello o y a la pru
ueba de Wiilcoxon seráá
medianteunejem mplo;vamosconéldeinmediato.
Ejemplo34
Una psicóloga/tra
p abajadora soccial de ciertoo hospital quee lleva un añ ño asistiendoo
con niños/as
n asm
máticos/as y a sus respecttivas familiass, está segura de que el cconocimiento que tienenn
los padres del ennfermo sobree el asma es notablemente mayor deespués de quue sus hijos/aas reciban ell
miento y segguimiento méédico, que cuuando se les detectó la enfermedad.
tratam e Como tiene en su poderr
un cuuestionario que
q se les apllicó el primeer día que accudieron al hospital,
h deciide volver a pasárselo enn
este momento.
m Laa muestra se compone dee 12 familias..
Portantoo,laVDesellconocimien ntodelospaadressobreeelasmaque padecensusshijos.LaVII
eseltratamiento o,enfuncióndelcualsed defineunapprimeramediciónpreviaalmismoyu unasegundaa
medición un año o después dee estar siend
do tratados.. Como se trrata de un m
mismo grupo o de padress
(anteesͲdespués)n nosencontraamosconun ndiseñode muestrasrelacionadas,yycomoesta muestrano o
esaleeatoriayadeemásespequ ueña,lomássadecuadoe esemplearelTestdeWillcoxon.
Lahipóteesisqueseplantealainvvestigadorae esque:“elggradodecon nocimientod delospadress
acerccadelasma serásignificativamente mayordespu uésdeunañ ñodetratam mientoqueeelquetenían n
antess de comenzzar el mismo”. Como ocurre
o en la anterior técnica noͲparamétrica, ese imposiblee
repreesentarestad dísticamenteeestahipóteesismediante elossímbolo osdelosparrámetrosme ediaP,porlo
o
quesseredactaenformadeu untextoqueenieguelae existenciadeelasdiferencciassignificaativasquesee
planttean;esdecir:Ͳoelggradodeconocimiento… noserásign nificativamen ntemayortrraselañodee
tratamientoqueyyahatransccurrido.
Paralaejecucióndeestetest,larutadeSPSSͲ15pararealizarestapruebaes:
ANALIZARÖPRUEBASNOPARAMÉTRICASÖ2MUESTRASRELACIONADAS
El cuadro de diálogo que se nos abre, y la
forma de trabajo es idéntica a la que vimos en la
prueba T de M.R. (página 312). Por lo que,
emparejamoslasdosmedidasdelaVD(conocimiento
del asma, pre y postͲtratamiento) y llevamos a este
pardevariablesalacasilladeladerechadenominada
Contrastarpares.Aquísíqueelbotón Opciones… nos
permite pedir los Descriptivos que necesitamos: las
mediasdeVDencadamedidarealizadaenfunciónde
laVI.
Hechoestoypulsandoen Aceptar ,SPSSnosentregalossiguientesresultados:
Estadísticos de contraste b
Estadísticos descriptivos
Conocimiento de los padres sobre
Desviación el asma (DESPUES del trat.) -
N Media típica Conocimiento de los padres sobre
Conocimiento de los padres sobre el asma (ANTES del trat.)
12 44,67 8,585
el asma (ANTES del trat.) Z -2,673
Conocimiento de los padres sobre Sig. asintót. (bilateral)
12 52,25 4,454 ,008
el asma (DESPUES del trat.)
b. Prueba de los rangos con signo de Wilcoxon
Enlatabladelaizquierdaseobservaquelamediaquelospadres/madresdelospacientes
hanobtenidoenlapruebadeconocimientotrasunañodetratamientoesmayorquelamediaque
teníanantesdecomenzarconelmismo.
Enladeladerecha,encontramosunaǦendoscolasquedivididaporlamitadvale:,004
porloqueesmenoralnivelcrítico,050ynosllevaalasiguienteconclusiónestadística:“conuna Ǧ
ൌ,004<,050estamosendisposiciónderechazarlahipótesisnulayconcluirqueefectivamentelos
padrespuntúanenlaescaladeconocimientoacercadelaenfermedaddesushijossignificativamente
másaltotrasunañodetratamiento”.
Desde la cual, la comunicación en textos científicos de esta conclusión es semejante a
cualquieradelasanteriores,ydiríaaproximadamente:“Elniveldeconocimientossobreelasmaque
tienenlospadresymadresdehijosasmáticosdespuésdequeestosllevenunañodetratamientoes
superior (M=52,25) que al inicio de dicho tratamiento (M=44,67). Con una <,05: la diferencia es
estadísticamentesignificativa(paraladeWilcoxon=2,673;=12;Ǧൌǡ004)”.
Conesto,podemosdarporterminadoesteTemayadentrarnosyaenlatécnicaestadística
que, sin duda, es la más utilizada en el campo de la investigación empírica y la que con más
frecuencia aparece en los artículos científicos: el Análisis de la Varianza (abreviadamente: ANOVA).
Técnica,delaquemegustaríaadelantarya,queesunacontinuacióndelasPruebasTdeStudentque
protagonizaronesteTema.
Tem
ma 18
8
CON
NCREECIÓ N DE
EL M ODE
ELO
EXP
PLICA
ATIV O DE
E EFE
ECTO
OS:
AN
NOV
VA
18.1.ͲEElAnálisisde
eVarianza(ANOVA
A )
18.2.ͲA
Anovade1ffactordeefe
ectospúblico
os
18.3.ͲA
Anovademe
edidasrepettidasen1factor
18.4.ͲA
Alternativasnoparaméttricas
En el Tema anterior referente a las técnicas T de Student y sus alternativas
noͲparamétricashemosestudiadolosdiseñosmássimplesyclásicosenlainvestigaciónenciencias
comolaPsicología:aquellosenlosqueseforman2grupos,queademásenmuchoscasossonuno
experimentalyotrodecontrol,conlaintencióndecompararlos.Sinembargo,esfrecuentequeenla
experimentaciónconsereshumanoslalimitacióndelestudiosolamenteadosgruposseasimplificar
demasiadoelfenómenoquesepretendeinvestigar,porloqueesnecesariotrabajarconunnúmero
mayor de niveles o categorías de la VI. Estamos, entonces, ante las denominadas técnicas para el
análisisdelasignificacióndelasdiferenciasentrepoblaciones(siendo>2porsupuesto).
No obstante es imprescindible resaltar que hasta un diseño con muestras no llegamos
solamente utilizando más de dos niveles de una única VI (diseños unifactoriales), sino también
mediantelacombinacióndelascategoríasdefinidasendosomásvariablesindependientes(diseños
bifactorialesomultifactoriales,segúnelcaso).Ahorabien,lastécnicasestadísticasadecuadaspara
efectuar estos análisis escapan del contenido de este manual, por lo que nos centraremos
exclusivamenteenlosdiseñoscon1solaVIconKcategorías.Apartirdeestemomento,entonces,se
vaausareltérminoVIensingularperotodoloquesedigaacercadeella,sepuedeextenderala
existenciadedosomásvariablesindependientes.
Téngaseencuentaqueseguimosdentrodelcontextodelmodeloestructuralexplicativode
efectos (MEEE). Sin ninguna duda, la técnica estadística inferencial más importante dentro de este
campo y una de las más utilizadas en investigación, es el denominado Análisis de la Varianza,
abreviadamenteAnovaquevienedelassiglaseninglésdeAnalysisofVariance.Algunosautoreshan
propuesto castellanizar este nombre breve y decir Anva e incluso Andeva en lugar de Anova, pero
conmuypocoéxito.
Inmediatamente debemos de advertir que a pesar de lo que su nombre parece indicar,
estamosanteunatécnicaparamétricadestinadaelcontrastedehipótesisacercadelaexistencia,o
no, de diferencias significativas entre las medias (P) de las subpoblaciones implicadas en la
investigaciónenfuncióndelosnivelesdefinidosenlaVIaquien,porcierto,enAnovasiempresela
denominacomo:factor.
En consecuencia, podemos decir que el contraste de hipótesis de todo Anova se plantea
siempreconelsiguienteformatogeneral:
Ͳ:ρଵ ൌ ρଶ ൌ ρଷ ൌ ڮൌ ρ ൌ ρ
ͳ:noͲ
dondecadaunadeestashipótesissiempreexpresan:
Ͳ: quenoexistendiferenciassignificativasentrelasmediasdelassubpoblaciones,queson
iguales entre sí e iguales a la media poblacional total (P). Luego las diferencias observadas
entre las medias estimadoras se deben exclusivamente el azar. Y en consecuencia la VI no
produceningúnefectosignificativodecambiosobrelaVD.
ͳ: queexistealmenosunparámetroPsignificativamentedistintodelosdemás.Estoes,quelas
diferenciasobservadasestánjustificadasporlaexistenciadecorrelaciónentrelaVIylaVD.
Y,porestarazón,elfactorejerceunefectosignificativodecambiosobrelaVD.
LaconclusióndelaexistenciadelefectodiferencialdelaVIsobrelaVD,portanto,requiere
quenuestrosdatosnospermitanrechazarlaͲparalocual,comosiempre,vamosanecesitarquela
Ǧdelestadísticodecontrasteadecuadoseamenorallímitemáximodel,05.
Siendoentoncesunatécnicasobremedias,¿dedóndeprocedeladenominacióndeanálisis
dela:varianza?Puesbien,larespuestadespuésdelateoríapresentadaenelTema16(verpáginas
292a295)deberíaserobvia,sedebeaquelametodologíadetrabajodeestatécnicaestábasadaen
elMLGdedescomposicióndelavarianza.Comoserecordará,elMLGeslafundamentaciónteórica
delosMEEEdondeseincluyenalosAnova.
Antes de comenzar con el estudio más detallado del Anova, debemos de comentar que el
Análisis de Varianza en realidad no es una técnica única, sino que se trata de toda una familia de
técnicasdistintas(o modelosdeAnovadistintos)quese clasificanatendiendoala combinaciónde
estostrescriterios:
1) elnúmerodefactoresutilizadosporelinvestigador,
2) eltipodefactor,omásconcretamentelaformaenlaqueelinvestigadoreligealosniveles
ocategoríasdelmismo,
y3)laformadealeatorizacióndelossujetos15quecomponenlamuestra.
> En función del primer criterio, simplemente se designa al Anova indicando el número de
variablesindependientesqueseanalizandentrodelmodelo.
Así:con1VI=Anovade1factor;con2VI=Anovade2factores(obifactorial),con3VI=Anova
de3factores(multifactorial);etc…Evidentemente,enestemanualsólosetratanlascuestiones
relacionadasconelAnovade1únicofactor.
> Utilizandoelsegundocriterionosencontramoscon3tiposdeAnova:deefectosfijos(EF),de
efectosaleatorios(EA),ymixto:
a) Enelprimerodeellos(EF),seutilizansolamentelosnivelesdelaVIquealinvestigador
leinteresaestudiarylasinferenciasseestablecenexclusivamenteparaestosniveles;
b) Enelsegundocaso(EA)ydebidoaqueelfactorcuentaconungrannúmerodecategorías
posibles,seutilizaunamuestradenivelestomadosaleatoriamentedeentretodoslos
existentesenlaVI,peroconlaintenciónderealizarlasinferenciasconrespectoatodos
losnivelesexistentesenelfactor;
c) Eneltercercasosecombinanlosdosanterioresutilizando,alavez,factoresdeefectos
fijos(FEF)yfactoresdeefectosaleatorios(FEA).
15
DenominamosAleatorización,alprocesoporelcuallossujetos(lasunidadesexperimentales)sonasignadosalazaracadaunodelos
niveles(otratamientos)delfactor,detalformaquetodostenganlamismaprobabilidadderecibirundeterminadotratamiento.
> Porúltimoysegúneltercercriteriodisponemosdedostipos:elcompletamentealeatorizado
(CA)yeldebloqueo(B).
a) Enelprimero(losdiseñosCA),laaleatorizaciónseefectúasobrecadaunodelossujetos;
esdecir,desdelamuestrainicial(total)desujetosseasignanalazarlosindividuosunoa
uno a cada uno de los niveles de la VI. De esta manera se pretende conseguir que las
variables exógenas estén aleatoriamente repartidas para poder atribuir las diferencias
significativas(siesquelashay)solamentealostratamientosexperimentales.
b) el segundo caso (los diseños B), se emplea cuando se ha sospechado que existe una
variableextrañaocontaminadora(revisarconceptoenpáginas66Ͳ68)quepuedealterar
losposiblesefectosdelaVIydistorsionarlasconclusiones,porloquedecidimosejercer
sobreellauncontrolexperimentalqueintentaeliminarsuposibleefectocontaminador,
modificando la forma de aleatorización. Para ello se forman bloques, o grupos, de
sujetossimilares(homogéneos)enlavariableextraña(quepasaadenominarseentonces
VariabledeBloqueo),demaneraqueunsujetodecadabloqueesasignadoalazaraun
determinado nivel del factor, tarea que se repite tantas veces como bloques se hayan
creado. El caso extremo de bloqueo, es aquel en que cada bloque está formado por un
únicosujetoqueseutilizasucesivamenteencadaunadelassituacionesexperimentales
variando en ellas los nivel de la VI, por lo que se le conoce como Anova de medidas
repetidasoIntrasujeto.
La combinación de todos estos criterios da como resultado un número casi infinito de
posibles técnicas, todas ellas distintas en algún aspecto, pero bajo la misma órbita del Anova. El
cuadro que aparece a continuación contiene a las que podríamos denominar como las técnicas
básicasdeAnova:
Criteriosdeclasificación ModelosdeANOVA
1VI Anovade1factor
Nºde Ͳmodelointeractivo
2VI Anovade2factores:
factores Ͳmodeloaditivo
>2VI Anovafactorial(de
factores)
Elegidos(fijados) Anovadeefectosfijos(modelo)
Eleccióndelos
Aleatorios Anovadeefectosaleatorios(modelo)
nivelesdeVI
Ambos Anovamixto(modelo)
Completa Anovacompletamentealeatorizado
Aleatorización Anovadebloqueo(odebloques)
Enbloques
Anovademedidasrepetidas
Deestos,enelpresentemanualsolamenteabordaremoselestudiodedos:
9 elAnovade1factordeefectosfijoscompletamentealeatorizado(1FEFCA),
9 elAnovademedidasrepetidasen1factor(1FEFMR).
Yconellos,vamosapresentarasusrespectivasalternativasnoparamétricas:
9 eltestdeKruskalͲWallis,
9 eltestdeFriedman.
A continuación y antes de estudiar con detalle cada uno de estos dos modelos de Anova,
vamosadedicarunespacioalaexplicacióndelcómoatravésdelestudiodeladescomposicióndela
varianza, es decir calculando valores de varianzas, podemos llegar a tomar decisiones y sacar
conclusionessobrelasdiferenciasentremedias.
18.1.1.- La lógica de los ANOVA
Quizálamejormaneradeenfocaresteepígrafeseapartiendodeunejemplo
queademáscorrespondeconelcasomássimpledeAnova,queeselde1FEFCA.
Supongamos que un equipo multiprofesional de psicólogos, médicos y farmacéuticos, está
interesado en el estudio del efecto de un nuevo fármaco (el factor) sobre la ansiedad ante
situacionesnuevas(laVD).Paracomprobarlodisponemosdeunamuestratotalcon48participantes,
aquejadosdelapatologíaencuestiónyadecuadamenterepresentativosdelapoblación.Decidimos
administrar diariamente 3 dosis distintas del fármaco (5 mgrs, 10 mgrs y 20 mgrs) durante un
determinadotiempoyformarungrupodecontrolalqueselevaaadministrarunplacebo.Portanto
hemosdefinidounfactordeefectosfijos(laVI)con4nivelesovalores.Aleatoriamenteasignamosa
cadaunodelossujetosdelamuestratotalaunodeestosniveles,formandoasí4submuestrasde12
sujetos cada una (en lo que se denomina un diseño equilibrado). Al finalizar el tiempo
preestablecido, se mide el nivel de ansiedad (la VD) de todos los sujetos con el instrumento
psicométricoadecuado(untest),resultandounatabladedatosconesteaspecto:
VeamosahoracómofuncionalalógicadelAnova.
Paraelloestudiaremoslavariabilidadqueseobservaentrelaspuntuacionesrecogidas.
Si comparamos entre sí las puntuaciones de los 12 sujetos del grupo de control veremos
diferenciasentreellas(unavariabilidad)queestaríanexplicadasporlaspeculiaridadesdecada
persona(sexo,edad,trabajo,responsabilidades,...)quesonfactoresnoincluidoseneldiseño
deestainvestigación.Lomismoocurresirepetimosestaobservaciónconalgunodelosgrupos
que han recibido alguna de las tres dosis del fármaco: encontramos variabilidad puesto que
haydiferenciasindividualesquenoestánexplicadasporladosispuestoquetodoslossujetos
del mismo grupo han recibido la misma dosis, sino que estarían explicadas por las otras
variablesnocontroladasomanipuladasporelinvestigador.Éstaesladenominadavariabilidad
intragrupos(esdecir:dentrodecadagrupo),términoqueyaaparecíacuandosepresentóel
MLG(verpágina295).Tambiénselaconocecomovariabilidaddelerror.
Encambio,sicomparamosunsujetodeungrupo(porejemploelX 2)coneldeotro
nuevo la existencia de una variabilidad que además de estar explicada por las diferencias
individuales,estaráexplicadaporelniveldelfármacoquehanrecibidocadaunodeellosyque
ahoraesdistinto.Esdecirqueaquíacabamosdeincluirelefectodelfactorcontroladoenla
investigación.Éstaesentonces,lallamadavariabilidadintergrupos(oentrelosgrupos)vista
en la descomposición de la varianza del MLG y que representa el posible efecto del factor
sobrelaVD.
Endefinitiva,almedirlaVDenlamuestratotaldecasossepresentaunavariabilidad(total)
quesedescomponeendostérminosaditivostalycomovimosenelMLG:
VARIABILIDAD total Parte de la variabilidad total Parte de la variabilidad total
ൌ
observada en la VD explicada por el factor explicada por las VI no manipuladas
Var.INTERgrupo Var.delERROR
Yaquíestáelfondodelacuestión.Enlamedidaenqueestavariabilidadinter(entreͲgrupos)
seaelevada,lasdiferenciasentrelaspuntuacionesdeunossujetosyotrosserángrandesyporello
entreunosgruposyotrostambiénseobservarángrandesdiferenciasy,comoconsecuenciafinal,las
diferenciasentresusmediasrespectivastambiénloserán.
De esta forma tan simple hemos dado con el fundamento lógico de la técnica de Anova:
cuantomayorsealavariabilidadintergrupomayorserálaprobabilidaddequelasmediasdelos
nivelesdefinidospresentendiferenciassignificativasentresí.Estaeslarazónporlaqueobservando
variabilidades,sepuedenextraerconclusionesacercadelasdiferenciasentremedias.
Operativamente y en función de lo que acabamos de exponer, necesitamos calcular la
cuantíadelavariabilidadintereintragruposconsusrespectivosestimadoresinsesgados.Éstos,se
denominan:MediaCuadráticaIntergrupoparalaparteexplicadaporelfactoryMediaCuadrática
Intragrupo para la parte que se deja en manos del azar experimental (también se la llama Media
Cuadrática Residual, o simplemente Media Cuadrática del Error). A pesar de que sus nombres
puedendespistar,ambosestimadoressonenrealidadcuasiͲvarianzas.
PosteriormentesóloenelcasodequelaM.C.Intergruposeasignificativamentemayorque
laM.C.Intragrupo(ResidualodelError),estaremosendisposiciónderechazarlaͲentremedias,
afirmandolaexistenciadeunefectodiferencialsignificativodelfactorsobrelaVD.
Todo esto implica que el contraste estadístico antes indicado, en realidad es totalmente
equivalenteauncontrasteentrelavarianzaintergrupoyladelerror:
Ͳ:ρଵ ൌ ρଶ ൌ ρଷ ൌ ڮൌ ρ ൌ ρoͲ:ɐଶ୍ୖ୰Ǥ ɐଶୖୖୖ
ͳ:noͲ ͳ:ɐଶ୍ୖ୰Ǥ ɐଶୖୖୖ
o
Enfuncióndeestaúltimaformadeexpresarelcontrastesehaconstruidounestadísticode
contraste para la toma de decisión cuyo valor se obtiene del cociente entre las cuasivarianzas
estimadorasdeestasvariabilidades: ୍ୖ Τୖୖୖ . Dichococienteesunvalordelmodelo de
distribucióndeprobabilidadesdefinidoporFisherͲSnedecoryquesepresentóenlaspáginas172a
174dentrodelTema9(yqueahoraconvendríarepasar).LaǦcorrespondienteaesteestadístico
eslaqueusaremosparatomarladecisiónsobrelaͲydesdeellallegaralaconclusiónfinalacerca
delposibleefectodiferencialdelfactorqueexplicaríalasdiferenciasentrelasmediasobtenidasenla
VDobservada.
Tras el estudio del funcionamiento lógico de cualquier Anova ya podemos
afrontarelaprendizajedetalladodecadaunodeellos.Elprimerodeelloses,precisamente,elAnova
de1factordeefectosfijoscompletamentealeatorizado(1FEFCA)queutilizábamosdeejemploenel
apartadoanteriorparaunamejorcomprensióndelalógicadeestastécnicas.Porestarazónvamosa
aprovechar,dentrodeunmomento,esemismoejemplo.
Pero antes, es indispensable que quede constancia de las condiciones que deben de
satisfacerseparaemplearadecuadamenteestatécnicade1FEFCA.Sonlassiguientes:
1. Elmuestreoy/olaasignacióndelossujetosalosnivelesdelfactordebeseraleatorio.
Estacondiciónesmuyimportantepuestodecumplirseayudaadarvalidezalasconclusionesfinales
quesepuedanextraerdelainvestigación.Noobstante,enocasionesesdifícildecumplir.Sóloenel
casodequelamuestraseasuficientementegrande,sepodríaomitir.Portantoenmuestraspequeñas
(menosde6casosporgrupo)esimprescindiblequesecumpla.
2. LaKsubmuestrasdefinidasporelfactordebenserindependientesentresí.
3. LaVD,porsupuesto,debesercuantitativa.
4. EsconvenientequelaVDseacomodealmodelonormal.
Siempre que el desvío de la normalidad sea leve, no afectará a los resultados de Anova. Pero en el
casodequeseincumplagrandementeestacondición,esnecesariocorroborarlosresultadosconsu
alternativanoparamétrica(KruskalͲWallis).
modeloestru
Elm uctural,mateemático,de esteAnovad
de1FEFCA trasloexpliicadoenlas bases
teóricasexp
puestasenelTema16,seerá:
ܑ܇ൌ ૄ હ۹ ઽܑ o ܛܖۯǤ ۳ ܜܛൌ ૄ હܕ܉ܜ܉ܚ܂
ܗܜܖ܍ܑܕ ઽܑ
Ejemplo35
Se desea coomprobar la eficacia de un determinnado tratamiiento reducto or del
nivel de annsiedad-estaddo ante situaaciones nuevvas de personas que paddecen este tiipo de trasto orno y
averiguar cuuál, de las utilizadas,
u ess la dosis máás adecuada. Se trabaja con una muestra de 48 casos,
divididos all azar en unn grupo de control y en tres con dife ferentes dosiss del fármacco empleado en el
tratamiento.
Obvviamente la VD son laas puntuaciones del te est que mide la ansieedadͲestado ante
situaciones nuevas,en elqueuna menorpuntuaciónindiccamenosnivvelmanifiesttodeansied dad.El
factoresel tratamiento oadministrad do,VIquecu
uentacon4 categorías(unplaceboyy3dosis:de e5,10
y 20 mgrs respectivam mente). El ob bjetivo general será detterminar si el
e fármaco p produce el efecto
e
significativo
odeseado(reeducirlaanssiedad)yentalcasohallarcuálesladosismásadecuada.Po orello,
la hipótesiss científica se
s enuncia afirmando
a ue existirán diferencias significativaas en la ansiiedad,
qu
producidas porelefecto odeltratam
miento.Porsu upartelahip pótesisnula,,encualquieeradesusfo ormas,
se traduce como que el tratamien nto administtrado no prroduce un efecto
e difereencial significativo
sobrelaanssiedadͲestad do.
Sireepasamoslo oexplicadosobreelmod deloestructu uraldeefecto os(páginas2297Ͳ298)verremos
d aplicar el Anova en sí,
que antes de s debemos de pasar por una fase previa de d diagnóstico ded los
supuestosb básicosdelm modelo,queenestecaso ofundamenttalmenteson n:independeencia,norma alidad
yhomoceda asticidad.
Vayyamosdetallaadamenteco onello.
A)EElsupuestod
deindependdencia,segaarantizaconlaasignación naleatoriad
delossujetossalos
gruposexpeerimentales.Cuestiónésstaquecomp petealinvesstigador.Enn
nuestroejemmploseindiccaque
asísehaheecho,demanneraqueadmmitimosqueesecumple la1ªcondiciión.Porotraaparte,aunq quees
muypocofrecuente,seepuedehaceerunacomprrobaciónesttadísticautilizandountestnoͲparamétrico
denominadoPruebade eRachasqueecontrastalaahipótesisdequesilaso
observacioneesdelaVDssiguen
unasecuenciaaleatoriaasedebeaquesonindep pendientese entresí(AͲesaceptarlacondición).
B)LanormalidaddelavariabledependientesecompruebatalycomoeshabitualconelTest
de bondad de ajuste de KolmogorovͲSmirnov que puede ir acompañado o no de algún gráfico.
Puestoqueestoesalgoqueyaseconoce,debajosolamenteseincluyenlosresultadoscomentados
paralosdatosdeesteejemplo:
Los puntos del gráfico PP se concentran
perfectamente en torno a la diagonal, por lo que se
deduce que hay bastantes posibilidades de que la
distribuciónseanormal.Noobstante,donderealmente
tenemosunainformaciónsólidaenlaqueapoyarnoses
enlapruebaKͲS,enlacualelestadísticodecontraste
(0,509)tieneunaǦൌ,958queesevidentemente
muchomayorqueellímitede,05porloquepodemos
aceptarlahipótesisnuladenormalidadyconcluirque
secumpleesta2ªcondición.
Ansiedad-estado
ante situaciones
nuevas
N 48
Parámetros normales Media 17,75
Desviación típica
5,655
Z de Kolmogorov-Smirnov ,509
Sig. asintót. (bilateral) ,958
Se han realizado bastantes estudios acerca del efecto que tiene el incumplimiento de este
supuestosobrelosresultadosylasconclusionesqueseextraendelAnova.Ysehaobservadoquesi
el grado de incumplimiento es leve apenas tiene ninguna trascendencia. Si esto ocurre además en
muestras suficientemente grandes, nos permite despreciar este problema. En cambio, cuando los
datospresentenunelevadoelgradodealejamientodelmodelodelanormal,nopodríamosconfiar
enlosresultadosdeAnovapuestoquepodríanestaralterados.Paraestecaso,disponemosdevarias
opciones, desde utilizar otras pruebas estadísticas como la alternativa no paramétrica de KruskalͲ
Wallis, hasta realizar transformaciones matemáticas de los datos de la VD (como por ejemplo:
convertirlosvaloresdirectosenlogaritmos,oelevarlosaunapotencia)pararecuperarelajusteala
normal.
Algunos autores, defienden además que el supuesto de normalidad de la VD no solo debe
comprobarse a nivel global o univariado (todos los sujetos juntos en una sola muestra total) tal y
comohemoshecho,sinoquetambiéndebeverificarsedeformabivariada,estoesparacadaunade
lassubmuestrasquesedefinenenfuncióndelosnivelesdelfactor(enestacaso4).Personalmentey
pormiexperiencia,nomeparecequeseaimprescindiblerealizartalcomprobaciónparaasegurarnos
dequeescorrectoelusodeesteAnovade1FEFCA;peronodejodeadmitirqueesunapostura
prudente.
Resumiendo:
o silaVDcumpleelsupuesto:elusodelAnovaeslegal;
o siseincumplelevemente(Ǧ<,05peroaún>,01):secontinúatranquilamenteconelAnova;
osi se incumple gravemente (Ǧ<,01): se debería de usar una alternativa (KurskalͲWallis, o
unatransformaciónmatemáticadelaVD).
Enelcuadrodediálogoprincipalqueseabreyqueseincluyedebajo,seseleccionaalaVDy
setrasladaalacasillaDependientes(comoseaprecia,sepodríanmeterjuntasmásde1VD);después
semarcalaVIysellevaalacasillaFactor(aquísólosepuedenintroducirdiferentesVIde1en1).
A continuación, se pulsa en el botón Opciones… y en el subcuadro de diálogo que se abre
(insertadoarribaaladerecha)seactivan:losDescriptivos,laPruebadehomogeneidaddevarianzas
que corresponde con el Levene ya comentado en la página anterior durante el diagnóstico, y las
pruebasrobustasdeBrownͲForsytheydeWelch;asimismosepuedeañadirunGráficodelasmedias
quenosayudeenlainterpretacióndelosresultados.Saliendodeahícon Continuar yterminandocon
AceptarelSPSSnosdevuelvelossiguientesresultados:
Descriptivos
ANOVA
Pruebas robustas de igualdad de las medias
Ansiedad-estado ante situaciones nuevas
Ansiedad-estado ante situaciones nuevas
Suma de Media a
cuadrados gl cuadrática F Sig. Estadístico gl1 gl2 Sig.
Inter-grupos 923,167 3 307,722 23,351 ,000 Welch 22,092 3 24,413 ,000
Intra-grupos 579,833 44 13,178 Brown-Forsythe 23,351 3 43,413 ,000
Total 1503,000 47 a. Distribuidos en F asintóticamente.
La primera es la tabla de los descriptivos, en ella además de los valores de las medias
estimadorasdelosparámetrosPimplicadosenelcontraste(queestánsombreadas)esinteresante
observartodalainformaciónquenosaporta;enespeciallosdelosPencuestiónconun95%de
confianza. A su lado se encuentra la gráfica resultante de los valores de estas medias, en ella se
apreciacómoelniveldeansiedadͲestado(VD)enlacategoríaplaceboquecorrespondealossujetos
que no reciben fármaco es elevada ( ഥ=22,75) y cómo el mayor descenso del nivel de ansiedad se
correspondeconladosisde5mgrs( ഥ=11,50)queeslamáspequeñaporcierto.
Vistoenlafasedediagnósticoelcumplimientodelacondicióndehomocedasticidad,latabla
delaspruebasrobustassehaincluidoparaqueellectorveatodoloquehemospedidoalejecutarla
función del SPSS, pero no la vamos a utilizar para nada. Por tanto, la significación de la diferencia
comentadaenelpárrafoanteriorydelrestodelasdiferenciassededucedelatabladeFuentesde
Variación del Anova que SPSS denomina simplemente: ANOVA. En ella, además de otros datos,
encontramoselestadísticodecontraste (quesedistribuyecon3y44g.l.)cuyovalores23,35yque
nospermitellegaralasiguienteconclusiónestadística:“conuna Ǧ=,000<,050podemosrechazar
Ͳ demaneraquenuestrosdatosaportanlaevidenciaestadísticadelaexistenciadealgúntipode
tratamiento que difiere significativamente de los demás”, o lo que es lo mismo que alguno de los
tratamientoscontribuyeavariarelgradodeansiedadͲestadomanifestadaantesituacionesnuevas,
porloquelaspuntuacioneseneltestsonsignificativamentedistintasenalgunodelosgrupos.
Desdeelgráfico,seintuyequelasdiferenciassignificativasqueestamosencontradopodrían
indicarnosqueelmejortratamientoeselquehaaplicadoladosisde5mgsdelfármaco.Peroconlo
quehemoshechonobasta.LadecisiónderechazodeͲanterior,sólonosdicequeexistealmenos
1 media que es significativamente distinta de las demás, pero no nos dice cuál es. Es decir que
sabemosqueexistendiferenciassignificativasperoaúnnosabemosexactamenteentrequégrupos
(onivelesdelfactor)sedandichasdiferencias.
Enotraspalabras,quedebemosdedetectarquémediaomedias(delas4quesecontrastan)
porsersignificativamentedistintasdelasdemáshanprovocadoladecisiónderechazodeͲquese
acabadetomarenelAnova.
ParaellodisponemosdeunastécnicasestadísticasqueacompañanycompletantodoAnálisis
de Varianza y que se denominan Técnicas de Contrastes Múltiples a Posteriori o también
simplementeContrastesPostͲhocdebidoaqueelinvestigadornolasplanificapreviamente,sinoque
las aborda después de que sabe (tras la decisión tomada en el Anova) que existen diferencias
significativas.
En la literatura especializada se refiere que se han construido una buen número de ellas
conocidas, en su mayoría, por el nombre de su autor (por ejemplo: Bonferroni, Scheffe, Tukey,
Duncan,Dunnett,etc…)yqueaúnseestádiscutiendosobrecuáleslamásadecuada.
De todas ellas las más utilizadas, cuando se ha probado el cumplimiento del supuesto de
homocedasticidadcomoennuestroejemplo,son:
1Ͳ ElTestdeScheffe:quesepuedeutilizarindistintamenteconsubgruposquetenganonoel
mismo número de sujetos. Tiene la ventaja de que es la prueba más resistente al
incumplimiento de los supuestos del Anova. Y además admite tanto comparaciones de los
grupos de 2 en 2 (comparaciones binarias) como también contrastes múltiples con
combinacioneslinealesdevariosgrupos.
2.ͲLapruebaDMS(DiferenciaMínimaSignificativa)deStudent,conocidatambiénporlassiglas
en inglés LSD: que puede realizarse con grupos de igual o de distinto tamaño y que es la
menosconservadoradetodas(esdecirlaquemayornúmerodediferenciassignificativases
capazadedetectar).
3Ͳ ElTestdeDunnett:queexigetambiénquelosgrupostenganelmismonúmerodesujetos,
yqueseprefierecuandosecomparaungrupodecontrolconvariosgruposexperimentales.
Según esto, para nuestros datos serían aconsejables y/o posibles cualquiera de los tres
contrastespostͲhoccitadosarriba.Antesdeexplicarcómoejecutarlos,convienedecirqueenelcaso
dequenosehubiesecumplidoelsupuestodehomocedasticidad,tendríamosqueutilizarotrotesta
posteriori;elmáspotentedetodoseseldescritoporGamesͲHowell.
Ahora ya sí, seguimos con el ejemplo. Aunque no se ha dicho antes, en realidad los
contrastesaposteriorisehanpedidoalavezqueelrestodecálculoyyaestánhechosaunqueaún
nosehayanpresentado.Enelcuadrodediálogoprincipalinsertadoenlapágina329,sepuedever
unbotónllamado PostͲhoc… ,alclicarsobreélseabrióelsubcuadroqueseincluyedetrás:
Enélapareceunlargolistadodepruebasa
posteriori. Como se aceptó la homocedasticidad,
marcamosDMS(tambiénpodíamospedirScheffe)y
puestoquehayungrupodecontrol(eldelplacebo,
que es la Primera categoría del factor) marcamos
Dunnett. Por cierto que para éste test, podemos
pedirlaǦen1óen2colas;alladoseapreciará
que en este caso hemos señalado que sea en cola
izquierda, (activando la casilla: <Control ) dado que
esperamosqueelfármacoreduzcalaansiedad.
LosresultadosqueSPSSgenerójuntoalosanterioresqueyahemoscomentado,fueron:
Comparaciones múltiples
ComenzamosporcomentarlapruebaaposteriorideDunnettqueestáenlaparteinferiorde
la tabla. Se aprecia claramente cómo se ha comparado (en cola izquierda) la diferencia entre cada
dosisyelplacebo(grupodecontrol)porellolasdiferenciasentrelasmediasrespectivastienensigno
negativo(lasmediasenansiedaddelasdosiseranmenoresquelamediadelgrupoplacebo).Enla
columnadelasignificación,secompruebaquehaydiferenciasignificativa(Ǧ=,000)cuandosehan
administradolasdosisde5yde10mrgs,porloquesededucequeellasreducenlaansiedadͲestado
de estos pacientes; pero esto no ocurre cuando se empleó la dosis de 20mgrs cuya diferencia no
llegaasersignificativa(Ǧ=,220)apesardequelamediadeesegruposeamenor.Demomento,
conestosabemosquehay2dosiseficaces:lade5yla10mgrs,¿perocuáleslamejordeellas?
Esta cuestión nos la ha resuelto la prueba DMS. Ella ha comparado a todos los grupos con
todos.Dehecho,estanreiterativoysistemáticoenelcálculoqueharealizadocadacontrasteentre
grupos 2 veces. Analizando los resultados concretos, en la primera casilla de la parte de la tabla
correspondienteaDMS,secomparaalplaceboconlas3dosis;ahívemosquelasǦobtenidasson
casi iguales a las de Dunnett por lo que corrobora lo que ya hemos concluido. En la 2ª casilla, se
compara a la dosis de 5 mgrs con el resto de grupos (por ello, está repetido el contraste con el
placeboqueyaestabahechoarriba);perolodestacableaquíesqueestadosispresentadiferencia
significativatantoconlade10mgrs(Ǧ=,005)comoconlade20mgrs(Ǧ=,000)demaneraque
ahorayatenemoslaevidenciadequeladosisde5mgrsessignificativamentemejor.
El resto de la tabla ofrece comparaciones de grupos que ya no tienen demasiado interés,
unas por repetidas y otras por innecesarias. Lo que sí que es importante es que en el extremo
derecho de la tabla están los al 95% de las diferencias entre cada pareja de grupos. Ahí por
ejemplo,podemosverqueladosis5mgrsreducelaansiedadͲestadoconrespectoalplaceboenuna
cantidadestimadaentre8,26y14,24puntos;oqueladiferenciaentreusarestadosisylade10mgrs
(querecuérdesequetambiéneraeficaz)estáentre1,43y7,40puntosmenosafavordeladosisde
5mgrsclaro.
Enlaspublicacionescientíficashaymuydiversasformasdecomunicarlasconclusionesdelos
resultadosdeunAnova,einclusoenocasionesdependedelosgustosdelcomitécientíficoquedirige
larevistaopublicación;peroengeneral,laexpresiónessemejantealasqueescribíamosenelcaso
de las anteriores Pruebas T de Student. En todo caso lo que siempre va a ser imprescindible es
indicarelvalordelestadísticodecontraste consusgradosdelibertadysuǦ.Además,cuando
existaunefectosignificativotambiénhayquereferirloocurridoconloscontrastespostͲhoc.
Para nuestro ejemplo, se podría redactar una conclusión final semejante a la que sigue:
“Analizadoelposibleefectodeltratamientofarmacológicoadministradosobreelgradodeansiedad
estadoantessituacionesnuevas,sedeterminócon <,05queéstelograbareducirsignificativamente
los niveles de ansiedad observados en el grupo de control (Anova: (3 y 44 gl)= 23,35; =,000. KͲS:
ൌ,958. Levene: ൌ,838). Los contrastes postͲhoc de Dunnett y DMS determinaron que la dosis de
5mgrs (ܺത=11,50) era la más eficaz de todas las utilizadas (p<,05) para la reducción del nivel de
ansiedadobservadoenelgrupoplacebo(95%:8,26;14,24)”.Éstaseríalacomunicaciónmásbreve
que podríamos presentar; a partir de ella, se puede añadir todo lo que se considere interesante
sobrelasdiferenciasentreotrasdosisentresíyconrespectoalgrupodecontrol.
MerecelapenaquedediquemosunosminutosacomentarelotrotestpostͲhoccitadoenla
listadelapágina330yaqueesunadelasmásutilizadasenPsicologíayademásaportaunanovedad
conrespectoalasanteriores.Entonces,sisehubieseutilizadolapruebadeScheffeactivandopara
elloestaopciónenelsubcuadrodediálogoqueseincluyóenlapáginaanterior,habríamosobtenido
lassiguientestablasderesultados:
Comparaciones múltiples
La de la izquierda ofrece valores semejantes a los del test DMS (ver página anterior). He
sombreado aquellos que estaban comentados antes. Se ratifican todas las conclusiones hechas
antes,perosepuedecomprobarquelasǦson,engeneral,mayoresquelasobtenidasantes.Esta
cuestiónnosindicaqueestapruebaesmásconservadoraquelasotras.Portanto,porunladotiene
ladesventajadequepuedequelecuesteencontrardiferenciassignificativasentrealgunosparesde
grupos,peroencambiotienelaventajadequelasquesalensignificativasconScheffe,lovanaser
conunaseguridadcasiplena(vamos,conunaaltaprobabilidaddecerteza).
La interesante novedad que aporta esta prueba aparece en la tabla de resultados que se
insertaaladerecha.LasconclusionesqueyahemostomadoenlaspruebaspostͲhocanterioresnos
vanayudaraentendermejorlainterpretacióndeestatabla.Asíqueteniéndolasenmente,vamosa
ver en qué nos ayuda esta nueva prueba: a partir de las medias observadas en los grupos, se
establecen combinaciones de grupos tales que, entre unos subconjuntos y otros hay diferencias
significativas(siemprecon<,05)mientrasqueentrelosgruposincluidosenunamismacombinación
nuncahaydiferenciasignificativa(Ǧ>,05).
Así,ennuestroejemplo,Scheffehaestablecido3combinacionesconlos4gruposdefinidos
originalmenteenelfactor.Comoseapreciael1ersubconjuntosóloseincluyealadosisde5mgrsque
tienediferenciasignificativa(<,05)conrespectoalosdemás;ellosedebe,comoyasabemosporlos
otrostest,aqueesladosismáseficazreduciendolaansiedadͲestado.El2ºsubconjuntoincluyesólo
a la dosis de 10 mgrs y ello se debe al hecho ya concluido de que esta dosis es significativamente
eficaz,peromenosquelade5mgrs.Yfinalmente,la3ªcombinaciónuneenunmismosubconjunto
alasdosisde20mgrsyalplacebo;estoquieredecirporunladoqueentreestosgruposnoexiste
unadiferenciaqueseasignificativa(>,05)porloquedalomismousarladosis20queelplacebo,y
por otro lado que entre ambos grupos y el resto de subconjuntos existen diferencias significativas
(<,05).Comoveis,noesquelapruebanosdigacosasdiferentesalasyaconcluidasantes,sinoque
nosofreceunaformadiferentedeverlo.
Para ir terminando, ¡al fin!, todo este proceso metodológico asociado al Anova nos resta
comentaramododeconclusiónglobalquedetodoloanteriorsededucequeelmodeloexplicativo
planteado (ܛܖۯǤ ۳ ܜܛൌ ૄ હ ܗܜܖ܍ܑܕ܉ܜ܉ܚ܂ ઽܑ ) y que estamos evaluando: “es significativo y por tanto
permiteexplicarloscambiosobservadosenlaansiedadͲestadoantesituacionesnuevasapartirdel
efectodeltratamientoadministrado”.
Noobstante,pararematarlaevaluación,aúnpodemosestimarelgradodeajusteentrelos
datosobservadosyelmodeloplanteadoutilizandoparaellolostérminosdeladescomposicióndela
varianza.EstoesalgoqueSPSSnohacepornosotros,asíquesilonecesitamosdeberemosderealizar
loscálculosmanualmente.DesdelatabladeresultadosdeAnova(página329),sabemosque:
SCTOTAL = SCINTER + SCERROR
1503,000 = 923,167 + 579,833
y con estos valores podemos hallar un indicador estadístico del grado de ajuste del modelo a los
datos, denominado coeficiente Eta2, que nos indica la proporción (o porcentaje) de los cambios
observadosenlaVDqueestánexplicadosporelfactor,yqueseobtienemediantelaexpresión:
܁۱۷ܚ܍ܜܖ ୍୬୲ୣ୰ ͻʹ͵ǡͳ
ࣁ ൌ queennuestroejemplovale: ࣁ ൌ ൌ ൌǡ
܁۱ܔ܉ܜܗ܂ ୭୲ୟ୪ ͳͷ͵ͲǡͲͲͲ
delquesepuededecirqueesunvalorelevado(yaquesurangoestáentre0y1)indicadordeun
buen ajuste y que se interpreta como que: “el 61,4% de las diferencias existentes en la ansiedad
manifestadaantesituacionesnuevaspuedenserexplicadasporelefectodiferencialdelfactortipode
tratamiento”.AlgunosautoresafirmanqueEta2estambiénunbueníndiceparavalorareltamaño
delefectodelfactorsobrelaVDylodenominancoeficientededeterminación.
Comoyasedijoanteriormente(página322)elAnovadeMedidasRepetidas
(AnovaMR)eselcasoextremodeundiseñoparaelbloqueodelposibleefectodevariablesextrañas
(diseños de bloquesaleatorios)yaque seutiliza cuandounmismogrupodesujetospasaporlas
condicionesexperimentalesquesederivandelosnivelesdelaVI,quienahorapasaadenominarse
factorintrasujetos.Estamos,portanto,anteunaextensióndelapruebaTdeStudentparamuestras
relacionadas,queemplearemoscuandodispongamosdemásdedosnivelesenelfactor.
Sindudaelcasomáscomúndeestetipodefactorintrasujetosesaquelenelqueseevalúaa
unúnicogrupodesujetosenunamismaVDalolargodesituacionesconsecutivaseneltiempo,en
lascualessevamodificandoalaVI;porejemplo,valorarla“credibilidadpolítica”delPresidentedel
Gobierno(queseríalaVD):aldíasiguientedeganarlaselecciones,alcumplirunañodemandato,a
losdosañosydurantelacampañaelectoralpreviaalaspróximaselecciones(aunqueesteejemplo
cuenta con la dificultad añadida de conseguir encuestar a las mismas personas en esos cuatro
momentostemporalestandispares).
Laventajadeestetipodediseños(MR)frentealoscompletamentealeatorizados(CA)ode
muestras independientes como el que acabamos de estudiar en el apartado anterior, es que
necesitamos muchos menos sujetos y que se eliminan las posibles variaciones debidas a las
diferencias individuales entre grupos (que allí eran de sujetos distintos y ahora contienen a los
mismossujetos).
Como desventaja, cabe citar, que debemos de estar atentos para evitar algunos efectos
atribuiblesalusodelosmismosindividuos,comoson:
Ͳ elefectodelaprendizajedelatareadebidoalarepeticióndelamismaquepuedehacerque
lossujetosmejorensurendimientoenlaVDsimplementeporqueaprendenconlapráctica;
Ͳ y el efecto de arrastre que se presenta cuando no se tiene la precaución de asegurarnos de
quehafinalizadocompletamentelapresentacióndeunacondiciónexperimentalcuandoseda
inicioalasiguiente.
Ambospuedenpresentarsejuntosoporseparado,onopresentarse.Perosilohacenynose
evitanpuedencontaminarsignificativamentelosvaloresdelaVDalterandolosresultadosdelAnova.
Como todos los demás, el Anova MR se basa en la descomposición de la varianza total
observadaenlaVDsegúnelMLG.Enestecasoelmodelomatemáticoalqueseajustaestetipode
diseñosdeAnova,describealaVDcomolasumadecuatrocomponentes:
ܑ܇ൌ ૄ હ۹ ܑ۾ ઽܑ
dondealostérminosyaconocidos(laconstante ૄ,elefectodelfactorહ۹ yelerror ઽܑ )seañadeel
componente ܑ۾querepresentaelposibleefectodelasdiferenciasentrelossujetosquecomponenla
muestradetrabajosobrelosvaloresdelaVD.
Basándoseenestaexpresión,elcontrasteestadísticosueleaparecerformuladodelaforma:
Ͳ:Ƚ ൌ ͲonoexisteunefectosignificativoquemodifiquealaVD
ͳ:Ƚ ് ͲoelfactorejerceunefectodiferencialsignificativosobrelaVD.
Perotambiénseríainteresanteplantearseesteotrocontrasteestadísticoacercadelaposible
existenciadediferenciassignificativasentrelossujetosdelgrupoquesehautilizado:
Ͳ:୧ ൌ ͲonoexisteunefectosignificativoquemodifiquealaVD
ͳ:୧ ് Ͳo las características de las personas ejercen un efecto diferencial significativo
sobrelaVD.
Las condiciones que deben de satisfacerse para elegir con rigor este Anova de MR en 1
factor,sonlassiguientes:
1. Elmuestreodelgrupoaestudiarbajotodaslassituacionesdefinidasporlosnivelesdelfactor
intrasujetos,debeseraleatorio.
2. Losindividuosdeestegrupodebenserindependientesentresí.
3. LaVD,unavezmás,debesercuantitativa.
4. EsconvenientequelaVDseacomodealmodelonormal.
ComoenelanteriormodelodeAnova,siemprequeeldesvíodelanormalidadsealeve,noafectaráa
los resultados. Pero en el caso de que se incumpla grandemente esta condición, es necesario
corroborarlosresultadosconsualternativanoparamétrica(Friedman).
Además,durantelafasedediagnósticopreviosedebendecomprobarlossupuestosteóricos
de:independencia,normalidadyesfericidad.Acontinuaciónseexplicanconmásdetalle,aunquese
dejalaparteprácticaparaelejemploresueltoqueseincluyemástarde:
A) El supuesto de independencia entre los sujetos que componen la muestra nos permite
afirmarquelapuntuaciónqueobtienecadaindividuoenundeterminadotratamiento,nodepende
de las puntuaciones de los demás sujetos en ese mismo tratamiento. Esta condición queda
suficientementegarantizadasielmuestroserealizaconrigurosaaleatoriedad.Noobstante,también
podríaemplearselayacitadaPruebadeRachasparacontrastarla.
B)ElsupuestodenormalidaddelaVDimplicaalaspoblacionesdefinidasporlosniveles,
o tratamientos, del factor intrasujetos. Como viene siendo habitual, esta condición se verificará
utilizandolatécnicadebondaddeajustealanormalidaddeKolmogorovͲSmirnovparacadaunode
los conjuntos de datos de la VD quienes en la base de datos de SPSS aparecen como K medidas
diferentes(variables= columnas) delaVD. TambiénpuedeacompañarsealtestKͲS conalgún
gráficocomolosPPyacomentadosenotrosmomentos.
C)Yfinalmente,elsupuestodeesfericidadessemejantealdehomocedasticidaddelanterior
Anova de muestras independientes. Veamos: si el posible efecto de las diferenciales individuales
sobre la VD ( ) ܑ۾es independiente del efecto del factor intrasujetos (હ۹ ) y del efecto del error del
modelo(ઽܑ ),entonceslasvarianzasdelaspoblacionesdefinidasporelfactorsonigualesyademás
lasvarianzasdetodaslasposiblesdiferenciasentreesosniveles(tomadosde2en2)tambiénson
iguales. Esto, traducido a terminología matemática, implica que se va a obtener una matriz de
varianzasͲcovarianzascircular,esdeciresférica,ydeahíelnombredelsupuesto.
Para verificar su cumplimiento disponemos de varios métodos estadísticos, de entre los
cualessindudaelmásutilizadoeslaRazóndeVerosimilitudWdeMauchly,enlacualelestadístico
decontraste(quetieneunaequivalenciaconun ɖଶ )hadellevarasociadaunaǦ>,05paraque
podamosadmitirelcumplimientodelaͲquesostieneelsupuestodeesfericidad.
Ejemplo36
Dentro del campo de los Processos Psicológgicos Básicoos, se diseñ ña un
experimentoo en el que ses pretende evaluar
e cómoo cambia la percepción relativa
r del ttiempo en fu
unción
de la tarea que se está realizando. Para
P ello se elige a una muestra aleaatoria de 14 sujetos de ambos
a
sexos, hommogénea en edad
e y en nivvel educativvo y cultural. De forma consecutiva,, se les prop pone 4
tareas que se
s desarrollann durante 100 minutos cadda una con descansos
d dee 5 minutos, sin que tenggan un
reloj a la vista
v ni ninggún otro indiicador del tiiempo trascu urrido. La applicación se realiza de forma
individual. En
E la primerra tarea deben de estar loos 10 minutoss con los ojoos cerrados escuchando música
m
p todos: ell tema tituladdo “Ese amiggo del alma”” de Lito Vitaale que dura ese tiempo); en la
(la misma para
segunda tarrea, estarán los 10m esccribiendo coonstantemente la letra “A A” en un hooja en blancco que
contiene unna serie de casillas al efecto;
e en la tercera tarrea, utilizaráán el tiempoo en escribiir una
redacción soobre lo que les
l gustaría hacer
h la próxxima noche que
q salgan a divertirse;
d y en la última tarea,
permanecerrán todo el tiiempo a solaas, en silencioo y con los ojos
o cerradoss. Al términoo de cada tarrea, se
les preguntaa cuánto tiem
mpo (en minuutos) creen que
q ha transcu urrido mientrras realizabaan la misma.
Dessde el punto o de vista metodológicco, las variaables implicaadas en el objetivo de e esta
investigació ón,son:lapeercepcióndeeltiempotranscurrido(V VD)yeltipoddetareacom moVIdefiniddacon
los 4 nivelees citados en
n el texto dee arriba. Estta VI se convierte en un
n factor intrasujetos dessde el
momentoeenqueseutilizaalamissmamuestraade14sujettosparatod daslastareass.Encambio opara
permitirsu análisisestaadísticomedianteAnovaMR,esnecesarioqued definamosen nlabasede datos
deSPSSa4 4variablescu uantitativas correspondientesalosvvalores(enm minutos)de laVDtiempoque
lossujetosh hanpercibid do,encadau unadelasco ondicionesexxperimentaleesdescritasporlaVI;esdecir:
TPentarearelajante,TPentaream monótona,TP Pentareaen ntretenidayTPentareaaburrida.
Encconsecuenciaa,elmodelo oestructuraldeefectosq quevamosaanalizarserááelsiguiente e:
܉܍ܚ܉܂۾܂
܂ ൌ ૄ હ ܉܍ܚ܉܂ܗܘܑ܂ ܛܗܜ܍ܒܝ܁۾ ઽܑ
y, durante la fase de diagnóstico
d sabremos sii podemos utilizar
u correectamente eel Anova MR
R para
evaluarlo.V
Veámosloparaesteelejeemplo:
1.Ͳ Enprimer lugarsepueedeafirmarq queelsupueestodeindep
pendenciaseeverificadesdeel
momentoeenquelos14
4sujetosutiliizadossehanelegidoale
eatoriamentee.
2.Ͳ La condició ón de norm
malidad se ha
h sometido
o a contraste con el cconocido tesst KͲS
obteniendooelsiguienteeresultado:
Prue
eba de Kolmogorrov-Smirnov para
a una muestra
TP en TP en T en tarea
TP TP en
T
tarea tarea entretenida/
e t
tarea
relajante monótona divertida ab
burrida
N 14
4 14 14 14
Parámetros no
ormales Meddia 8,86
6 11,07 6,93 14,93
Dessviación típica
,949
9 1,207 ,917 2,093
Z de Kolmogorrov-Smirnov ,758
8 ,777 ,918 ,585
Sig. asintót. (biilateral) ,613
3 ,581 ,368 ,883
Vienndo la tabla anterior, see puede afirrmar que se cumple el supuesto
s en cuestión, ya
y que
todoslosvaaloresdeǦ(queestánsombreados)paralas4 4medicionesdelaVDso onmayoresaal,05.
3.Ͳ Y finalmennte, la condicción de esfeericidad (la iggualdad de varianzas y covarianzas,, tal y
comoseexxplicóantes) sehasomeetidoacontrrastemedian ntelaPrueba adeMauchlly.Estatécn nicase
ejecutaautomáticamen ntedentrodeelmenúparaaelAnovaM MR,peroparraseguirlaunidadtemátticase
haextraídodeallíelressultadoobtenidoysecom mentaaquíe enestemom mento:
Prue
eba de esfericida
ad de Mauchly
Medida
a: TP
W de Chi-ccuadrado
Efecto intra-sujetos Mauchly
M aprox. gl Significación
n
Tarea ,525 7,551 5 ,184
4
sinnecesidaddedarmuchosdetallesmás,quesehanseñaladolas4medidasquetenemosdelaVD
(correspondientes a los 4 niveles del factor intrasujetos) y que se han traslado a la casilla
denominadaVariablesintraͲsujetos.
Estadísticos descriptivos
En primer lugar (al pie de la página anterior) tenemos los descriptivos, con las medias
estimadorasdelosparámetrosimplicadosenelcontrastedehipótesis.Juntoaellos,elgráficoque
representaadichamedias.Ellectoryasehabráfijadoenquelamenorpercepcióndetiempo(TP)se
haproducidoenlatareaentretenida ( ഥ=6,93min.)ylamayorenlatareaaburrida( ഥ=14,93min.).
Queestasdiferenciasseansignificativasonoyqueesténexplicadasporeltipodetarea(elfactor)es
loqueestáencontrasteenestapruebaestadística.
El número de tablas de resultados generadas por la técnica es tan abundante que es
preferible ir incluyéndolas y comentándolas poco a poco. La primera es la que SPSS denomina
PruebasdelosefectosintraͲsujetos:
Pruebas de efectos intra-sujetos.
Medida: TP
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
Tarea Esfericidad asumida 495,339 3 165,113 85,391 ,000 ,868
(Intergrupos) Greenhouse-Geisser 495,339 2,200 225,181 85,391 ,000 ,868
Huynh-Feldt 495,339 2,666 185,780 85,391 ,000 ,868
Límite-inferior 495,339 1,000 495,339 85,391 ,000 ,868
Error Esfericidad asumida 75,411 39 1,934
Greenhouse-Geisser 75,411 28,597 2,637
Huynh-Feldt 75,411 34,661 2,176
Límite-inferior 75,411 13,000 5,801
ÉstaesequivalentealatabladeFuentesdeVariacióndelAnovade1FEFCA(verpágina329)
porloquecontieneelestadísticodecontraste sonsuǦ.Comoseobservaráarriba,elcálculode
este índice se ha realizado por varios procedimientos, pero todos ellos convergen en el mismo
resultado ( =85,391). ¿Cuál citamos?... en realidad daría lo mismo, pero como antes en la fase de
diagnóstico se aceptó el cumplimiento del supuesto de esfericidad, precisamente éste es el
estadísticomásadecuado(eldelalíneaquediceEsfericidadasumida).Elrestodevalorescontenidos
en la tabla (en las líneas encabezadas como GreenhouseͲGeisser, HuynhͲFeldt y Límite inferior) son
diferentes correcciones del estadístico que acabamos de citar y la coincidencia en sus resultados
finalesnosindicaqueelcumplimientoonodelacondicióndeesfericidadnohabríatenidoninguna
trascendencia.Entodocaso,puestoque“lasǦson,000<,050podemosrechazarlahipótesisnula
del contraste planteado (en la página 337) y admitir que existen diferencias significativa en el TP
debidasalefectodefactortipodetarearealizada”.Asimismo,enesatabladeresultadosapareceel
valor del coeficiente de determinación Eta2 (,868) que nos indica que el 86,8% de la variabilidad
observadaenelTPestaríaexplicadaporeltipodetarea,cuestiónquenosindicaungrantamañodel
efectoyunmuybuenajustedelosdatosempíricosalmodeloteóricoplanteado.
Estepuedeserunbuenmomentoparaadvertirquesinosehubiesecumplidolacondición
de esfericidad, habría que sustituir todos los índices de la tabla anterior por los estadísticos de los
denominadoscontrastesmultivariadosqueaparecenenlasiguientetabladeSPSS:
Contrastes multivariados
Eta al
Gl de la Gl del cuadrado
Efecto Valor F hipótesis error Significación parcial
Tarea Traza de Pillai ,933 50,756 3,000 11,000 ,000 ,933
Lambda de Wilks ,067 50,756 3,000 11,000 ,000 ,933
Traza de Hotelling 13,843 50,756 3,000 11,000 ,000 ,933
Raíz mayor de Roy 13,843 50,756 3,000 11,000 ,000 ,933
Incluye a 4 procedimientos (la T de Pillai, la T de Hotelling, etc…) con diferentes bases y
procesosmatemáticosquenosofrecenvaloresdeestadísticosdecontrastejuntoasusequivalencias
en deSnedecorysusrespectivasǦ,quenospermitiríancontrastarlamismahipótesisanterior
acercadelasignificatividaddelefectodelfactor(eltipodetarea)sobrelavariablemedida(TP)yque
se interpretan de la manera que viene siendo habitual. Por cierto, que como puede observarse en
estecaso(yenrealidad,enlainmensamayoríadeloscasos)estos4métodosofrecenresultadosque
acaban siendo totalmente iguales: misma equivalencia en (50,756) y misma Ǧ (,000). En esta
tablatambiénseindicaelvalordeEta2segúnestasituación.Ahorabien,ennuestroejemplocomoes
lógico, estoscontrastes multivariados no son necesarios ya que contamos con el cumplimiento del
supuestodeesfericidad.
Unavezquehemoscomprobadolasignificatividaddelefectodelfactorintrasujetossobrela
variable medida, y de la misma manera que hacíamos en el anterior Anova de 1 FEF, debemos de
comparar cada grupo con todos los demás mediante una técnica de contraste a posteriori para
detectar concretamente entre qué niveles del factor se encuentran las diferencias significativas
detectadas.EnlaterminologíadelAnovaMRestoscontrastesnosedenominanpostͲhoccomolos
delAnovaanterior,sinoqueseconocencomocomparacionesmúltiplesporparesyestoesloque
SPSSharealizadocuandoantesactivamoslaopcióndeCompararlosefectosprincipales(conDMS)
citadaenlapágina338.Losresultadoshansido:
Comparaciones por pares
Medida: TP
Intervalo de
confianza al 95 %
Diferencia para la diferencia
(I) (J) entre medias Límite Límite
Tarea Tarea (I-J) Error típ. Significación inferior superior
1 2 -2,214 ,471 ,000 -3,232 -1,197
3 1,929 ,322 ,000 1,232 2,625
4 -6,071 ,588 ,000 -7,342 -4,801
2 1 2,214 ,471 ,000 1,197 3,232
3 4,143 ,430 ,000 3,213 5,073
4 -3,857 ,619 ,000 -5,194 -2,520
3 1 -1,929 ,322 ,000 -2,625 -1,232
2 -4,143 ,430 ,000 -5,073 -3,213
4 -8,000 ,646 ,000 -9,396 -6,604
4 1 6,071 ,588 ,000 4,801 7,342
2 3,857 ,619 ,000 2,520 5,194
3 8,000 ,646 ,000 6,604 9,396
Lapruebaalestilodelasanteriorescomparaatodoslosgruposcontodoslosgrupos,porlo
quecadaparaparecerepetido2veces.Enlatabladearribaseobservaquetodaslascomparaciones
binarias posibles entre los tipos de tareas presentan diferencias estadísticamente significativas con
unaǦ=,000porloquetodaslasmediasdifierensignificativamenteentresí.
Llegados a este punto, tenemos suficiente información como para elaborar una conclusión
para una publicación científica, más o menos en estos términos: “Con <,05 el tipo de tarea que
realizan los sujetos afecta significativamente a la percepción del tiempo que tienen los mismos
(AnovaͲMR: (3;39)=85,391; =,000). Mientras realizan una tarea aburrida los sujetos perciben más
largo el tiempo (M=14,93min por 10min); seguidamente la realización de una tarea monótona
también produce una mayor percepción del tiempo (M=11,07min por 10min). En cambio la
realización de una tarea relajante (M=8,86min) y la de una tarea divertida (M=6,93) hacen que la
percepcióndeltiemposeamenor.Todaslasdiferenciasfueronestadísticamentesignificativas(DMS
porpares,contodaslasǦ=,000).Eltamañodelefectoobservadohasidomuyelevado(,868)”.
No obstante, aún nos queda una última cuestión para terminar. Y es que, siempre que el
efectoseasignificativotalycomoacabamosdeconcluir,estatécnicanospermiteanalizartambién
quétipoderelaciónexisteentreelfactorintrasujetosylaVD.Estosehamostradoenlatablaque
SPSSdenominaPruebasdeloscontrastesintrasujetosqueseincluyedebajo:
Pruebas de contrastes intra-sujetos
Medida: TP
Suma de Eta al
cuadrados Media cuadrado
Fuente Tarea tipo III gl cuadrática F Significación parcial
Tarea Lineal 138,604 1 138,604 69,714 ,000 ,843
Cuadrático 117,161 1 117,161 56,225 ,000 ,812
Cúbico 239,575 1 239,575 138,575 ,000 ,914
Error Lineal 25,846 13 1,988
Cuadrático 27,089 13 2,084
Cúbico 22,475 13 1,729
En ella se observa que han realizado tantos contrastes sobre el tipo de asociación posible
entrelasvariables,comonivelespresentaelfactormenos1(ennuestroejemplo: ͳ= 41 = 3;por
tantoserealizanloscontrastes:lineal,cuadráticoycúbico).
Las respectivas hipótesis nulas de cada uno de ellos establecen que entre VD y factor: no
existerelaciónlinealsignificativa,noexisterelacióncuadráticasignificativa,yquenoexisterelación
cúbicasignificativa,respectivamente.
Comosiempre,valoresdeestadísticosdecontraste conǦ<,05permitenrechazarͲy
afirmarlaexistenciaderelaciónqueesloquepretendemosencontrar.Aunquenoeselmomentode
ahondar en esto, yase comentó en el Tema 14 (página 263) que además de las relaciones de tipo
linealentredosvariables,existenotrostiposderelación.Así,tantolasrelacionescuadráticascomo
lascúbicasqueaquíaparecensondetipocurvilíneo.
Con nuestros datos, en los tres contrastes hemos obtenido Ǧ=,000 por lo que son
admisibles los tres tipos de asociación hipotéticamente planteados. En una situación como ésta, la
solución que suele presentar mejor ajuste es la de mayor grado, como así ocurre esta vez y tal y
como nos indica el coeficiente Eta2 que presenta el mayor valor de los tres (,914) para la relación
cúbica.Noobstante,lassolucionesmásparsimoniosassonsiemprelasmásfácilesdeinterpretary
como quiera que la relación lineal también es significativa (=,000) y tiene un buen ajuste
(Eta2=,843), podríamos perfectamente establecer que éste es el tipo de relación existente entre el
factor y la VD. En todo caso, la decisión final sobre la forma en que se asocian las variables
dependerásiempredelashipótesisteóricasestablecidasinicialmenteporpartedelinvestigador.Sin
embargo,paraqueestacuestiónacercadeltipoderelaciónentrevariablestengaplenosentido,es
necesarioquelascategoríasdelfactorintrasujetossiganunordendeterminado,cosaqueennuestro
ejemplonoocurre.Enconsecuencia,esteúltimoanálisisnosepuedeaplicarenesteejemplo.
EsperoquetrastodoloexpuestoalolargodelaspáginasdeesteTemayunavezllegadosa
estepunto,ellectorsehayahechounabuenaimpresióndeloútileimportantequepuedenllegara
ser las técnicas de la familia del Anova. No se olvide, además, que sólo se han presentado los dos
Anovasmássimplesqueexistenyque,trasellos,disponemosdeunnúmerocasiinfinitodevariantes
destinadasalestudiomultivariadodeladescomposicióndelavarianzadeunaVDcuantitativa.Dadas
laslógicaslimitacionesdetiempoyespacio,esteextensocampo,habráqueabordarlodesdeotros
manuales.
SabemosquetodoAnovarequieredelcumplimientodevariascondicionesya
reiteradamente citadas, puesto que de lo contrario podrían perder parte de su potencia. El
incumplimientodedichossupuestospuedellegarponerenseriopeligrolasconclusionesalasqueha
llegadoelinvestigador.Porestarazón,disponemosdetestalternativosdetiponoͲparamétricoque
no necesitan la verificación de ninguna condición especial para su utilización, pero que tienen la
desventaja de que son más conservadores tal y como ya se comentaba cuando se presentaron las
alternativasalasPruebasTdeStudent.
En este apartado se aborda brevemente el estudio de las dos alternativas noͲparamétricas
más potentes que existen para los Anovas de 1 factor de efectos fijos y de medidas repetidas que
hemosvistoenlosapartadosanteriores.Ellasson:KruskalͲWallisyFriedmanrespectivamente.
De hecho, aunque estas técnicas fueron originalmente creadas por sus autores para ser
utilizadasconVDmedidasenescalaordinalsehacomprobadoempíricamentequetienennivelesde
potenciaͲeficienciamuyelevadosconrespectoalosAnova.
Los casos de los que podríamos decir que son los más indicados para utilizar estos test
alternativossonmuysimilaresaloscitadoscuandoseexpusieronlasvariantesalasTdeStudent:
1.Ͳ cuandolaVDsolamentesemideanivelmétricoordinal(númerossinunidaddemedida);
2.Ͳ cuandoseincumplegravementeelsupuestodenormalidaddeestaVD;
3.Ͳ cuando a la muestra de sujetos utilizada no alcanza la suficiente representatividad y/o es
muypequeñaentamaño(menosde6individuosporgrupo).
Porotrolado,tambiénesjustorecordarqueotrarazónporlaquepodríamosllegarautilizar
estaspruebasesquenosecumpliesencondicionesespecíficasdecadaunodelosAnovascomolas
dehomocedasticidadyesfericidadexplicadasensumomento.
Acontinuaciónsepresentanambastécnicasconmásdetalle.
18.4.1.- El test de Kruskal-Wallis
El test H de KruskalͲWallis (abreviadamente KͲW) es la alternativa más
potentealAnovade1factordeefectosfijosparadiseñoscompletamentealeatorizadosenmuestras
independientes. Se trata de una extensión de la prueba de MannͲWhitney ya descrita para dos
muestras(enpáginas314a316).
Lasúnicascondicionesqueseprecisanparasuusosonque:
Ͳ laVDestéexpresadaennúmeros(yaseanrangosordinalesovaloresconunidaddemedida);
Ͳ yquelaVItengacategoríasquepermitanladefinicióndemásde2submuestrasdesujetos
independientesentresí.
La hipótesis nula establece, como es habitual, la igualdad entre los promedios de esos
gruposqueestándefinidosporlosnivelesdelaVI.
Paracono
ocerla,como
oentodaslasanteriores,,vayamosco
onunejemplloresuelto.
Ejemplo37
Dentrro del conteexto de los estudios sobbre condicioonamiento y aprendizajee
animaal, se ha utilizado
u a un grupo de d 12 ratass que han sido asignaddas a tres condicioness
experrimentales distintas.
d El objetivo
o es comprobar
c si
s el tipo de incentivo em mpleado (co omida, agua,,
sexo)) afecta a suu conducta de d aprendizaaje. Tras el tiempo de privación
p addecuado a caada caso, see
introdduce a todass las ratas, de d una en una,u en un mismo
m laberiinto. Se connsidera como o medida dee
rendimiento el núúmero de inteentos que neecesitan paraa completar el e laberinto y llegar a la salida
s dondee
se encuentra el inncentivo del que q habían siido privadas.
PortantoolaVDquem medimoses lacapacidad ddeaprendiizajedelasrratas,mientrrasquelaVII
es ell tipo de prrivación a laa que han sido sometidas todas ellas y que se les presenta como o
recommpensa(con nlostresniveelesindicado osarriba).Laaprincipalraazónquehacceaconsejab bleelusodell
testd
deKͲWesqu uelamuestrraempleada esmuypequeña,demaaneraquesó ólosedisponnede4ratass
porccadagrupo.A Asimismo,nilamuestra fuealeatoria,nihaycon nstanciadeq quelasratasshayansido o
asignadasalazaracadaunad delas3cond dicionesexpe erimentales.
La hipóteesis científicaa que establecemos predice que: “h habrá diferen
ncias significcativas en ell
aprenndizajeenfu uncióndeltip podeprivaciión/premioeempleado”;q queestadísticamentese econtrastaráá
partieendo de unaa hipótesis nula que niegue la exisstencia de estas
e ncias, es deccir: Ͳ o ell
diferen
númeerodeintenttosnecesario osparaenco ontrarlasaliidadellaberrintonodifieeresignificatiivamenteen n
funcióóndeltipod depremio.
LarutadeenavegaciónndelSPSSͲ15
5pararealizaarestetestees:
ANA ALIZARÖPR
RUEBASNOPARAMÉTRICA ASÖKMUESTRASINDEPENDIENTES
Enelcuadrodediálo ogocorrespo ondiente,se
marca a la VD y se traslada a la casilla Contrastar
variables mientrras que el factor (VI) se lleva a
able de ag
Varia grupación. Bajo esta casilla, se
encueentra el bottón Definir rango…
r que al pulsarlo
abre el subcuadrro que se in
nserta más abajo;
a en él
debemosdeindiccarloscódiggosnumérico osMínimoy
Máxiimo que hem mos asignado a los niveles de la VI
que deseamos
d coontrastar (enn nuestro ejjemplo, hay
3categoríasnum meradasdel1 1al3,porellloesoeslo
quessehaanotad docomosevveenlaimaggen).Sesale
deah
híclicandoen n Continuar .
Ynohay nadamásq quehacer,seeterminalaejecuciónd
delapruebacon Aceptarr ySPSSnoss
muesstralassiguieentestablasderesultado os:
Estadís
sticos de contraste a,b
Rangos
s
LaprimeracontieneunrangopromedioparacadagrupodelaVIdelestiloaloqueyasevio
eneltestdeMannͲWhitney;aunquenosonmediasaritméticasdelaVDestospromediosseleende
forma semejante. Ya se dijo que cuando el rango promedio es menor, la media de los valores
directosdelaVDtambiénserámenor.Porloqueennuestrocaso,sededucedeeserangopromedio
que las ratas privadas deagua son lasque mensos intentos necesitan para aprender el laberinto y
quelasprivadasdecomidasonlasquemásintentosrealizan.
La otra tabla, a la derecha, contiene el estadístico de contraste de KruskalͲWallis que se
distribuyecomoun ɖଶ conͳgl(enestecaso:2)ysusignificación.Segúnella,llegaremosaesta
conclusión estadística: “con una Ǧ=,007<,050 podemos rechazar la Ͳ por lo que encontramos
evidencias estadísticas que nos permitan afirmar que existen diferencias significativas en el
aprendizajedelasratasexplicadasporeltipodeprivación/premioempleadoconellas”.
La prueba KͲW no nos proporciona los descriptivos de las muestras. Para conocer
exactamenteelvalordecadaunadelasmediasdelos3gruposnecesitamosusarlafuncióndeSPSS:
ANALIZARÖCOMPARARMEDIASÖMEDIAS
El resultado nos indica, al igual que los Informe
anteriores rangos promedio, que la privación Núm. de intentos
que mejor aprendizaje genera (menor número Tipo de recompensa Media N Desv. típ.
Comida 12,00 4 1,633
ഥ
deintentos)esladeagua(=3,50)ylapeorlade Agua 3,50 4 1,291
comida (ഥ=12 intentos). Sabemos que existen Sexo 7,00 4 ,816
Total 7,50 12 3,826
diferencias significativas, sí pero ¿entre qué
gruposconcretos?
El inconveniente de este test de KͲW es que no dispone de algo parecido a los contrastes
postͲhocdelAnovaquenospermitacomparar2a2atodoslosgruposylaconclusiónanteriorno
especificaentrecuálesdelos3grupossehanpresentadolasdiferenciasquesonsignificativas.
Para resolver esta cuestión no tenemos más remedio que acudir a la prueba U de MannͲ
Whitney (de 2 muestras independientes) y realizar tantas comparaciones binarias como sean
necesarias,queennuestrocasoson3:comidavsagua;comidavssexo;yaguavssexo.Estoimplica
quetenemosqueejecutarlaconocidaruta:
ANALIZARÖPRUEBASNOPARAMÉTRICASÖ2MUESTRASINDEPENDIENTES
Y en el cuadro de diálogo principal, una vez
llevadas las variables a sus casillas correspondientes,
haciendo un clic en el botón Definir grupos… iremos
combinandoloscódigosdelos3grupos:1y2;1y3;y
finalmente 2 y 3. Lo malo es que para hacer esto
tenemos que entrar 3 veces en el menú indicado y
realizar una única combinación de 2 grupos en cada
entrada.
AcontinuaciónseincluyenlastablasdesignificacióngeneradasporeltestMͲWencadauno
delos3contrastes:
Por su
s parte el Test de Friedman es la alternativva noͲparam métrica máss
nteparaelA
poten AnovaͲMR.Po ortantorequiereundise
eñointrasujeetosconKmmuestrasrelacionadas.
D
Denuevo,la súnicascondicionesqueeseexigenpparasuusosonque:
Ͳ laVDestéeexpresadaennúmeros(yyaseanranggosordinalessovaloresco onunidadde emedida);
Ͳ y que la VI
V tenga categorías,
c e función de
en d las cualees se definen
n que los grupos estánn
relacionado osentresí;eenlamisma líneaqueelAnovaMR, lasituación máshabituaalesaquellaa
enquesed disponede11únicogrupo uosquepasaporlasco
odeindividu ondicionesde elaVI.
La hipóteesis nula esttablece, com
mo es habituual, la iguald os promedios de esos
dad entre lo
grupo
osqueestánndefinidospo queimplicalaaausenciadeefectosob
orlosnivelesdelaVIyq brelaVD.
Paracono
oceraltestd osdemássepresentaun
deFriedman,,comoconlo nejemploressuelto.
Ejemplo38
Una psicóloga
p escolar, está convencida de
d que la cappacidad de raazonamientoo
abstraacto evoluciiona significativamente ene los niñoss entre los 7 y 9 años dde edad. Com mo no tienee
accesso a una grann muestra, selecciona
s a una muestraa homogéneaa de 10 niñoos de 7 añoss del colegioo
donde trabaja y lesl mide el constructo citado
c con ell test adecuaado. Repite esta medidaa, en los doss
cursoos siguientess, cuando loos niños hann cumplido los 8 y loss 9 años. D Durante este periodo dee
obserrvación 3 niñños de este grrupo de estuddio cambian de colegio.
La VD serán las puntuaciones observadas en el test que mide el constructo teórico
razonamiento abstracto. La VI es la edad; tener 7, 8 ó 9 años se ha considerado como 3 niveles o
categoríasdeedad.PuestoquelossujetosalosqueselesmidelaVDsonlosmismosenesastres
edades,estamosanteuncasodemedidasrepetidas(esdecir,demuestrasrelacionadas).Lasrazones
porlaqueespreferiblelapruebanoparamétricadeFriedmanenlugardelAnovaMR,son:quela
muestraesmuypequeña(quedan=7paraelanálisis,despuésdelamarchade3delosquehabía
inicialmente)ysuprocedencianoaleatorianogarantizasuficientementelarepresentatividaddela
poblacióninfantilentre7y9años.
La hipótesis científica será que “entre los 7 y los 9 años de edad, los niños presentan un
desarrollomadurativoquelespermitemejorarsurendimientoenlapruebaquemidesucapacidadde
razonamientoabstracto”;ysecontrastaráenfrentándolaaunahipótesisnulaquelaniegueactuando
conlaestrategiahabitualdelaEstadísticaInferencial.PortantodichaͲdirá:“noexistendiferencias
significativasenelrendimientoquelosniñosobtieneneneltestdeRAquerealizanenesasedades”.
Antes de seguir, quizá sea conveniente volver a recordar que en este tipo de diseños de
medidasrepetidas,laformaderecogidadedatosdebedefinirmedidasdelaVD(3enestecaso),
unaparacadaunodelosnivelesdefinidosenlaVI.Esdecirqueenlabasededatosnoseve1VDy
1VI,sinovecesalaVD.
Yahorayasí,altestdeFriedmansellegaenSPSSͲ15siguiendolaruta:
ANALIZARÖPRUEBASNOPARAMÉTRICASÖKMUESTRASRELACIONADAS
En el cuadro de diálogo correspondiente, se
marcan las 3 mediciones de VD y se trasladan a la
casilla Contrastar Variables. En el cuadro de diálogo
adjunto se puede apreciar que ya viene marcada de
serie la opción Tipo de Prueba: Friedman. Y lo único
que nos queda por ejecutar, es picar en el botón
Estadísticos… para pedir que el programa nos calcule
los Descriptivos de las mediciones de la VD.
Cerrandoestesubcuadrocon Continuar yterminando
la tarea con Aceptar en el cuadro principal, SPSS nos
entregalosresultadosqueaparecenjustodebajo:
Desviación N 7
N Media típica Chi-cuadrado 8,857
Razonamiento abstracto (7 años) 7 75,86 8,395 gl 2
Razonamiento abstracto (8 años) 7 79,43 6,241 Sig. asintót. ,012
Razonamiento abstracto (9 años) 7 80,71 7,566
a. Prueba de Friedman
La primera es la tabla de estadísticos descriptivos, donde las medias de cada medida nos
indican que parece que efectivamente el rendimiento en la prueba de razonamiento abstracto va
aumentandocadaaño.Sieseesuncambiosignificativoono,losabremoscuandoveamoseltestde
Friedman; en él, el estadístico de contraste es un ɖଶ cuya Ǧ nos confirma la significatividad de
dichasdiferencias.Portantolaconclusiónestadísticaalaquellegamoses:“conunapͲsig=,012<,050
podemosrechazarla Ͳplanteadayenconsecuenciaadmitirqueenteesos3nivelesdeedadexiste
algunadiferenciasignificativaenlapruebaquemiderazonamientoabstracto”.
El problema que se nos plantea ahora es, que como ya sucedía en la técnica de KͲW de
muestrasindependientes,FriedmannotienealgoparecidoaloscontrastesmúltiplesdelAnovaMR.
Por lo que aún no sabemos si esas diferencias halladas se dan entre todos los niveles de edad. La
únicaformaderesolveresto,esprocedercomoantes;esdecirqueusaremoseltestdeWilcoxonde
dos muestras relacionadas para emparejar de 2 en 2 a todas las combinaciones posibles a los
nivelesdelaVI.
RecordemosquelarutadeSPSSͲ15paraWilcoxones
ANALIZARÖPRUEBASNOPARAMÉTRICASÖ2MUESTRASRELACIONADAS
Y en el cuadro de diálogo principal,
emparejamos a las 3 medidas de dos en dos: RA a
los 7 con RA a los 8, etc… llevando cada par de
variables a la casilla Contrastar pares. Conviene
repasarcómoseformabacadapar(enpágina312).
La prueba de Wilcoxon ya viene activada por el
programa,porloquesimplementenosquedapulsar
en Aceptar para obtener la tabla de resultados que
seinsertadebajo:
Estadísticos de contrasteb
Rápidamentesehabrápodidocomprobarqueladiferenciaentreelrazonamientoabstractoa
los 7 y a los 8 años es significativa (Ǧ=,034/2=,017 en 1 cola) y que también lo es entre el
resultadoalos7añosconrespectoalrendimientoenlapruebaalos9años(Ǧ=,017/2=,008en1
cola).Estounidoalosdescriptivosqueyateníamosdeantes,nosllevaalaconclusióndequeelnivel
derazonamientoesmenor(ഥ =75,86)alos7añosquealos8yquealos9.
La comparación entre los resultados de los 8 y los 9 años siembra dudas. Si planteamos el
contraste a 2 colas, no llegaríamos a tener una diferencia significativa (Ǧ=,088>,050). Sin
embargo,aldecantarnosporuncontrasteunidireccionalsegúnelobjetivoperseguido,ladivisiónde
laǦporlamitadsíquenospermiterechazarlaͲdeigualdad(Ǧ=,088/2=,044<,050).Hayque
tenercuidadoconcasoscomoeste.Ladecisiónmásadecuadaeslaquetomamosa1solacola,pero
seríarelativamentefácilcaereneldespistedenodividiralaprobabilidadporlamitadyequivocarse
portanto.
Laformadecomunicarresultadoscomoestosenunapublicacióncientíficarequiereelaborar
unaconclusióndeestiloaesta:“elrendimientomedioenlapruebaderazonamientoabstractodelos
niñosalos9años(M=80,71)fuemayorqueelpresentadocuandotenían8años(M=79,42)yelque
tuvieronalos7años(M=75,86).Conp<,05sepuedeadmitirqueestasdiferenciashanresultadoser
estadísticamentesignificativas(߯ ଶ deFriedman(2gl)=8,86;=,012).Alcompararlasedadesdeforma
binaria,todaslasdiferenciastambiénresultaronsignificativas(testdeWilcoxon:pч,044),demanera
que se han encontrado evidencias que apoyan la creencia de que la capacidad de razonamiento
abstractoinfantilsedesarrollaevolutivamenteentrelos7ylos9añosdeedad”.
No obstante, también es cierto que el reducido tamaño de esta muestra (=7) no permite
que conclusiones como la anterior tengan excesivo poder de generalización hacia la población
objetivodelainvestigación.Porloqueestasconclusionessiemprehayquetomarlasconlaprudencia
quemerecen.Aprovechoestemomento,paracomentarqueéstaesunabuenaformadeplanearun
estudiopilotoqueconuncostemínimo(entiempo,esfuerzoydinero)nosaporteunaguíadepor
dónde pueden ir las cosas. Algo tan simple como lo expuesto en este ejemplo y tan breve en el
análisis estadístico como el que se ha ejecutado, nos puede servir para determinar el interés que
puede tener embarcarse en una investigación a mayor escala donde se extraigan muestras mucho
mayores en tamaño que representen adecuadamente a la población objetivo. En definitiva, que
“mini”Ͳinvestigacionescomoéstaqueseresuelvencontestnoparamétricossonunabuenafuente
deinformaciónparaeldiseñodeposterioresinvestigacionesquetenganunmayorrigorcientífico.
Tem
ma 19
9
CON
NCREECIÓ
ÓN DEL
D
MO
ODE
ELO PRE DICT
TIVO
O:
CORR
RELAC
CIÓN Y REGRESIÓ
ÓN LINEAL
19.1.ͲP
Preámbulo
19.2.ͲEElcoeficientedecorrelacióndePearrson
19.3.ͲR
Regresiónlin
nealsimple
19.1.- Preámbulo
Haquedadoparaelúltimotemadeestemanualelestudiodelacorrelacióny
la regresión lineal por cuestiones meramente didácticas; por tanto no debe pensarse que estas
técnicastienenmenosimportanciaquelasanteriores,nimuchomenos.
De hecho vamos a enfrentarnos a continuación con una aplicación del MLG que es
tremendamenteútilenlaEstadísticaaplicadaalaPsicologíayaotrascienciasvinculadasalestudio
de la persona, por lo que tiene de método predictivo. Es decir que estamos ante unas técnicas
estadísticas que nos permitirán predecir la conducta humana antes de que pueda ser observada,
tareaquelosprofesionalesrelacionadosconelserhumanohemostenido,desdesiempre,comouno
denuestrosmásanheladosobjetivos.
Enlaprimeramitaddeltemasepresentaelmétodoestadísticomásconocidoparaelcálculo
delvalordeunacorrelación(sifuesenecesario,antesdeellopuedequeellectornecesiterepasarel
conceptodecorrelaciónvistoenlaspáginas260a264delTema14)quefueideadoporPearson.
Posteriormenteenlasegundaparte,noscentraremosenelestudiodelaherramientapara
realizar la predicción propiamente dicha, que es lo que se denomina en terminología estadística:
EcuacióndeRegresiónyqueeslaaplicaciónprácticamásconocidadelMLGenesteámbitodelMP.
El término regresión fue introducido por Galton en la segunda mitad del siglo XIX cuando
inspiradoenlasinvestigacionesdeDarwinrealizabaestudiosacercadelacargagenéticaqueloshijos
heredandesuspadres.Laspalabrashijosypadresestánutilizadosengéneroneutro,yaadvertíenla
presentación de este libro que quería huir de expresiones políticamente correctas como
padres/madresohijos/as…aunqueenalgúnmomentoanteriorlasheacabadousando.
Concretamente comparando las estaturas de padres e hijos en más de 1000 grupos
familiares,observó:quelospadresqueeranaltosomuyaltosporlogeneralhabíantenidohijosque
alllegaralaedadadultanohabíansidotanaltoscomoellos,mientrasquelospadresbajosomuy
bajos habían tenido mayoritariamente hijos que les superaban en altura. Es decir, dicho de otra
maneraquelasestaturasdeloshijos“regresaban”hacialamediapoblacional:
EstaturaPadres
EstaturaHijos
P
Desde los valores observados en esos 1000 grupos familiares fue capaz de establecer una
fórmula matemática que predecía cuál debería ser la estatura que tendría un hijo en edad adulta,
conociendoladesuspadres:Ǥ ሺ
ሻ ൌ ͺͷ ͲǡͷͲ ȉ Ǥ ሺ
ሻ.Yestoesaloquellamó“Leyde
laRegresiónUniversal”consideradocomoelorigendelasactualesecuacionesderegresión.
Pero para conseguir llegar hasta una expresión como la anterior, el punto de partida tiene
que ser necesariamente la observación conjunta de los valores de 2 variables de naturaleza
cuantitativa.Dichoestudio,seafrontaen2etapas:
1ª)determinarsiexistealgúntipoderelaciónqueasocielosvaloresdeambasvariables;
y2ª)establecer,siesposible,unmodelodeprediccióndeunadeellasenfuncióndelaotra.
La terminología empleada en los contextos de estas técnicas estadísticas, denomina como
variablepredichaovariablecriterioalomismoquehemosvenidorepresentandocomoVDentodos
losTemasanterioresdeesteCapítulo5.AsimismoaloquehastaaquísehallamadoVIofactor,sele
sueledenominarahoracomovariablepredictora,factorpredictorosimplementepredictor.
Enesaprimeraetapa,talycomoyaseexpusoenlapágina261,secomienzaporrealizaruna
representacióngráficadelaspuntuacionesdeambasvariablesparaestudiarcuáleselaspectodela
nubedepuntosgenerada.Estasgráficasseconocencomodiagramadedispersiónyyaenlacitada
página261aparecíandosejemplosqueservíanparaexplicarlaaparienciadelasrelacioneslineales:
directaseinversas.Enestetipodegráficos,lavariablepredichavendrásiempresimbolizadacon
porqueexistelacostumbrederepresentarlaenelejedeordenadasmientrasquealpredictorsele
simbolizacondebidoaqueocupaelejedeabscisas.
Acontinuaciónseañadennuevosdetallesqueayudaránallectoraunamejorcomprensión
sobrelaformadeambostiposderelacioneslineales:
Imagínese que sobre el área del gráfico
se trazan dos líneas a la altura de las medias Ͳ;+ +;+
respectivas de e . Esto divide a la nube de
Ͳ;Ͳ +;Ͳ
puntos en los cuatro cuadrantes tal y como se
indicaenlafiguradeallado.
Larelaciónlinealdirecta(indicadaporla
línea diagonal creciente) se reconoce cuando la
mayoría de valores de que son mayores a su
media (ഥ ) se corresponden con valores de
también mayores a la suya (ഥ ); mientras que a
ഥ le corresponden valores de ൏
valores de <
ഥ
también. Esto implica que generalmente ambas
variables modifican sus valores en el mismo
sentido. Por eso la mayoría de los puntos de la
nubeestánenloscuadrantes:+;+yͲ;Ͳ
La relación lineal inversa (la diagonal
decreciente) se reconoce cuando la mayoría de
valores de mayores a su media ( ഥ) se
corresponden con valores de menores a la
suya; mientras que a valores de ൏ ഥ le
corresponden valores de ഥ. Esto implica que
generalmente ambas variables modifican sus
valores en sentidos contrarios. Por eso la
mayoría de los puntos de la nube están en los
cuadrantes:+;ͲyͲ;+
ElestudiodeestaconcrecióndelMLGexigequelasvariablesmantengan,entresí,relaciones
detipolinealcomolasqueseacabandecomentar.PorelloenelpresenteTemafinaldellibronose
vaahacerreferenciaaotrostiposderelación,niaotrosmétodospredictivos.
Una vez establecida la asociación entre las variables, en la 2ª etapa citada en la página
anterior,losmodelospredictivosseconstruyenconociendolatendenciaexistenteentreloscambios
observados en la VD (la que se va a pronosticar) que están vinculados a variaciones que se han
introducidoenlaVI(elfactorpredictorconocido).Dichatendenciasiemprevaapresentarunacierta
constancia y eso es lo que nos permite establecer una expresión matemática (del estilo a la que
encontróGalton)conlaqueharemoslasprediccionesdelaVD.
Todoestohaquedadoexpuestoamuygrandesrasgos.Acontinuaciónseahondamuchomás
profundamenteenello,alolargodetodoloquerestadeTema.
En primer lugar su valor viene acompañado del producto de las unidades de medida de
ambas variables; lo que obviamente genera un claro y muy frecuente problema comparativo en
cuanto el investigador desee cotejar covarianzas calculadas con pares de variables que tienen
distintasunidadesdemedida.
Yensegundolugarnosencontramosconunproblemadeíndoleinterpretativoacercadela
magnituddelacovariabilidadoasociaciónobservadaentrelasvariables:mientrasqueseconoceque
lacovarianzamínima(oausencia de covariación)esiguala cerocomoseindicóantes,el límitede
covarianzamáximaesdesconocidodadoquevaríaparacadacasoenfuncióndelaescalademedida
y,denuevo,delaunidaddemedidadeambasvariables.
LasoluciónparaambasdeficienciasfueloquepropusoPearsonyconsisteenestandarizarla
covarianza.Esdecircrearuníndiceestadístico:
a) queseaadimensional(sinunidaddemedida)yqueportantosuvalorseaindependientedel
métododepuntuaciónuobservaciónutilizadoparacadavariable;
b) yqueposeaunaescaladevaloresconlímitesconocidosyconstantes,talesquesusignificado
einterpretaciónseauniversal.
Elresultadodeestaestandarización(esdecir:lacovarianzaestandarizada)precisamentees
elíndiceestadísticoqueseconoceconelnombredeCoeficientedeCorrelacióndePearson:
De él se suele decir que consigue el objetivo de expresar el grado de asociación lineal
concomitante(existente)entredosvariablescuantitativas.Estoes,quecuantificalatendenciadelos
puntosdeunanube,representadaenundiagramadedispersión,adisponersealineadamenteoal
menos en proximidad a una línea recta virtual ubicada entre los ejes X e Y (con excepción de
cualquierrectahorizontalovertical).
Estaúltimaideaimplicaquecuantomayorseaesatendenciaoproximidaddelospuntosde
lanubehacialarectavirtual,mayorseráelvalornuméricodeesteíndiceestadístico.Lamáxima
covarianza posible para cada caso, indicaría entonces que todos los puntos de la nube se habrían
ubicadoformandoexactamenteunalínearecta.Cuantitativamenteesacovarianzamáxima(seacual
seasuvalor)equivaleaunvalordelcoeficientedePearson(estandarizado)igualalaunidad(1).
Ahorabien, comoquieraquehaydostiposdetendencialinealyqueellosemuestraenel
signodelacovarianza,elcoeficientedecorrelacióndePearsontambiénmantieneesesigno(+ó)
comounaformadeexpresarlatendenciadirectaoinversadelarelaciónentrelasvariables.
Deestadoscuestionesanterioressededucequeelrangocompletodevaloresposiblesdeun
coeficientedePearsonestácomprendidoentre:1y+1;aunqueenloreferentealamagnituddela
asociaciónelrangoestáentre:0y1(omitiendoelsigno).
Enconsecuencia:
1ª) Lascotascitadas:1y+1,sonlímitesteóricos,esdecirqueenlaprácticarealnuncasevana
alcanzar. Se denominan respectivamente: correlación perfecta negativa (=1) y correlación
perfecta positiva (=+1). El término correlación “perfecta” equivale a decir que existe una
función lineal constante entre las variables; algo que es imposible en las CC.HH. El término
“perfecta negativa” expresa que dicha función lineal constante es de tipo inversamente
proporcional;mientrasqueeltérmino“perfectapositiva”,encambio,indicaqueesunafunción
directamenteproporcional.
2ª) La ausencia de correlación (=0; porque no hay covarianza) se denomina correlación nula y
aunquesuexistenciaesposible,noesnadafácilqueaparezcaendatosreales.
ConesostrespuntosclaveenlaescaladelcoeficientedePearson,seinfierequecuantomás
cerca se está de las cotas extremas: 1 y +1, más intenso es el grado de asociación entre las
variables;porelcontrariocuantomáscercanosencontremosdelpunto0menorserálamagnitudde
larelaciónexistente:
Relacióninversade Relacióndirectade
Ausencia
granmagnitud granmagnitud
decorrelación
1 0 +1
DeloanteriorsededucequelainterpretacióndeuncoeficientedecorrelacióndePearson,
sedebehacernecesariamenteatendiendoadosaspectosdistintos:laintensidadyelsentido.
La intensidad hace referencia a la magnitud de la asociación, es decir al grado de
covarianza observado entre las variables. Para ellose considera a la correlación en términos
absolutos y de ahí que: Ͳ d ȁȁ d ͳ donde a mayor valor de coeficiente, mayor grado de
relación.Estacuestiónsepuedeobservarperfectamenteenlasnubesdepuntos,puestoque
elcontorno desu perímetrosevaestrechandoaproximándose hacialalínearectaamedida
que se incrementa el valor de la intensidad de la relación (tiende a 1); y al contrario se
ensancha(seinflacomounglobo)amedidaquelaintensidaddisminuye(tiendea0).
El sentido hace referencia a la forma de la asociación que se descubrió entre las
variables.En concretocuandoelcoeficienteespositivo,decimosquelarelaciónesdirecta y
queloscambiosobservadosenlasvariablesseproducenenelmismosentido(vergráficodela
página351).Ycuandoelcoeficienteesnegativo,decimosquelarelaciónesinversayquelos
cambiosobservadosenlasvariablesseproducenensentidosopuestos(verelotrográficode
lamismapágina351).
Laspropiedadesqueverificaestaherramienta,sonlassiguientes:
1ª)Losvaloresdeestaescalaqueseacabadepresentarverificanpropiedadesmétricasordinales.
Por tanto dichos valores no admiten operadores aritméticos y solamente permiten hablar de
“mayor”o“menor”gradodecorrelaciónentrelosatributos.
2ª)ElvalordelcoeficientedePearsonesindependientedeltipodepuntuaciónenqueseexpresaba
a las variables e cuando fue calculado. Es decir que no cambia ante cualquier tipo de
transformaciónlinealquesepuedarealizarconlosvaloresdelasvariables.Asimismotambién
esindependientedeltamañodelamuestraenquesehacalculado.Noobstantehayfactores
queperturbanoalteranelvalorde:
a) Cuantomayorsealavariabilidaddelaspuntuacionesdecualquieradelasvariables(seao
oambas)mayorseráelvalordelaintensidaddelcoeficientedePearson.Estonosignifica
que simplemente incrementando la variabilidad se incremente la cuantía de la correlación,
sino que si no hay suficiente variabilidad entre los sujetos que componen la muestra el
coeficientedisminuyeeinclusopuedeparecernulo(aunquerealmenteexistacorrelación).
b) Laexistenciadecasosdentrodelamuestraquetienenunadeterminadasimilituddemanera
que forman claramente subgrupos diferenciados entre sí en función de otra variable
(generalmentenocontroladaoquepasódesapercibida)produceunvalorfalseadodeque
estaráenunasocasionessobrestimadoyenotrasinfraestimado.
3ª) Y finalmente, un coeficiente de Pearson no indica nunca causalidad, o lo que es lo mismo no
expresaningunarelacióndecausaͲefectoentrelasvariables.Comoyadijimosenladefiniciónel
coeficiente expresa: concomitancia, asociación, vinculación, variación conjunta,... pero nunca
relacionescausales.Porestarazónpodemosafirmarquelacorrelaciónesidénticaenvalora
lacorrelaciónyquedebeserelinvestigadorquien,segúnsusintereses ysihaylugarpara
ello,establezcacuáleslaVIycuáleslaVDencadacaso.
Elestadísticoqueacabamosdedefinir,describeelgradodecorrelaciónobservadoentredos
variablesapartirdelosdatosdeunamuestra,portantoesunestimadordelparámetrocorrelación
poblacional: U (la letra griega: Rho) que expresa el valor del coeficiente de correlación entre esas
mismasdosvariablesenunadeterminadapoblación.Acercadeesteparámetro,comodecualquier
otro, se pueden y se deben de plantear todo tipo de inferencias. Las más interesantes son dos: el
contrastedelasignificatividaddelacorrelaciónylaestimación(intervalar)delamagnituddedicha
asociaciónsóloenaquelloscasosenqueyasehayademostradolasignificación.
Acontinuaciónsedescribenestoscasos.
19.2.1.- Prueba de la significación de un coeficiente de Pearson
YaseadelantabaalpresentarelconceptogeneraldecorrelaciónenelTema
14(verpágina264)queelsimpleazarpuedesercausantedecambiosenlasvariablesquepueden
llevarnosequivocadamentealaconclusióndequelosconstructosestáncorrelacionadascuandoen
realidadnoesasí.Estaesunaideaanálogaalaexpuestacuandoseestudiabalasignificatividadde
las diferencias entre medias: ¿el simple hecho de que dos (o más) medias tengan distinto valor ya
indicaquehayuncambioenlaVD?Sabemosquenoesasí,quetenemosquesometeresadiferencia
acontrasteestadísticoparadeterminarsiessignificativaono,esdecirsienlaspoblacioneshayono
diferencias. Pues lo mismo ocurre con la correlación, el valor de un coeficiente se puede haber
generadoporlaaleatoriedaddelmuestreoyentonces,enlapoblación,noexistetalcorrelación.
Estaeslacuestiónquesesometeacomprobacióneneldenominadocontrastedehipótesis
acercadelasignificatividaddelacorrelación.EnélsepartedeunaͲqueexpresalaindependencia
(laausenciadecorrelación)entrelasvariables;esdecir,comoyaseexpuso:
Ͳ:lasvariablesnocorrelacionanyloqueseobservaenlamuestrasedebealazar;
ͳ: lasvariablescorrelacionansignificativamente(porloqueexistecorrelaciónenlapoblación).
conlaintencióndedemostrar,rechazandodichaͲ,quesíqueexistecorrelación.
Estashipótesis,enelcasodelcoeficientedePearsonseexpresandelasiguienteforma:
Ͳ:ߩ ൌ Ͳ(lahipótesisdeindependencia)
ͳ: ߩ ് Ͳoexistecorrelaciónyelrxyhalladoessignificativo;
dondelahipótesisalternativasepuedeformular,porsupuesto,a1colacuandosetengainformación
teóricasuficienteparaello.
EstecontrasteestotalmentesemejantealquerealizábamosenlastécnicasChiͲcuadradode
independenciaquefueronestudiadasenelapartado15.2perocondiferentetipodedatosdebidoa
lanaturalezadelasvariables.
ontinuaciónsepresentaunnuevoejemploresue
Aco elto.
Ejemplo39
En un estuudio sobre la l capacidad d de perceppción de los sujetos dee una
determinadaa población se han apliicado varias pruebas pssicométricas. Entre ellass se han utillizado
pruebas de memoria
m vissual y auditivva que valoraan la capacid
dad de la perssona en funcción de los acciertos
en una tareaa de recuerdoo. Los investtigadores dessean comprob bar que los resultados
r dee ambos test deben
de mantenerr una relacióón tal que loss sujetos punttúan alto (o bajo)
b en ambbas pruebas a la vez.
AntesdenadaquierocomentarquelatabladeCorrelacionesoriginalquenosentregaSPSS
tieneotroaspecto,conmuchamásinformaciónyademásporduplicado.Perocomoésteeselprimer
contactoquetieneellectorconella,hepreferidolimpiarlaparaqueseamásfácilcentrarlaatención
sobrelainformaciónrelevante.Másadelantesaldráotratabladecorrelacionestalycomolasgenera
SPSSyallíseverácómolasvamosaversiemprequeejecutemosestarutinadetrabajo.
Enlatabladecorrelacionesapareceelanalizado(68),lacovarianzaobservada,elvalordel
coeficientedePearson(,229)ysobretodolaǦdelcontrastedesignificatividad(,030en1cola).
Deesteúltimovalorsededucequelacorrelaciónentrelasvariablesessignificativa(Ǧ<,050)y
portantoqueloobservadonosedebealazar.DelvalordePearson(+,229)sededucequeexisteuna
relaciónlinealdirecta(elsigno+)perodeintensidadleve(elvaloresrelativamentecercano0).Este
valor,porcierto,eslomismoqueenotroscontextoshemosllamadotamañodelefecto,ysiguiendo
lasnormascomentadasenotrolugardeestemanualpodríamosdecirqueestamosanteuntamaño
delefectopequeño.
Para terminar y puesto que, aunque leve, hemos encontrado una correlación significativa
deberíamosdeestimarelvalordelparaelparámetroU.LapenaesqueSPSSnonosfacilitaniesta
información, ni siquiera el valor del error típico de la distribución muestral de Pearson para que
podamos hacerlo rápidamente. Por lo que no tenemos más remedio que hacerlo por nuestros
medios. El procedimiento metodológico más adecuado es bastante complejo, sin embargo se
consigue una buena aproximación (salvo en correlaciones de intensidad muy elevadas: [ሿ >,750)
usandolaecuaciónquesigueparahallarloslímitesconfidencialesal95%:
ܚെ ൬ǡ ૢൗ ൰ ࣋ ܚ ൬ǡ ૢൗ ൰
ξ ܖെ ξ ܖെ
queconnuestrosdatos:
Ͳǡʹʹͻ െ ൬ͳǡͻൗ ൰ ߩ Ͳǡʹʹͻ ൬ͳǡͻൗ ൰ ֜ሾǡ ࣋ ǡ ૢሿ
ξ ξ
nosestimaunintervaloconmuypocaprecisióncomoimaginoquelepareceráevidenteallector.
Para las publicaciones científicas esta análisis se concluye más o menos así: “Al asociar el
rendimientoenlostestdememoriavisualyauditiva,con<,05sehaobservadolaexistenciadeuna
relaciónlinealdirectasignificativadeintensidadleve(n=68;=,229;Ǧ=,030;95%:,003;,429)”.
No quisiera continuar con este apartado sin comentar que si al correlacionar dos variables
cuantitativas mediante Pearson obtenemos un valor de muy próximo a cero y no significativo
(>,05)lomáshabitualesqueindiquequedichasvariablesnocorrelacionan;sí,…peronoconviene
olvidar que es posible que esos valores (de y Ǧ) hayan aparecido porque las variables están
correlacionadas aunque no de forma lineal, y entonces el coeficiente de Pearson no seríael índice
adecuado para estimar dicha relación. Podremos salir de dudas de tal situación simplemente
haciendoundiagramadedispersiónypidiendoaSPSSqueajustelíneasdetipocurvilíneo.
Seguimos.Enlapágina294hablandodelMLGseexponíaquetodaobservacióndeunaVD
cuantitativa genera inevitablemente una variabilidad ( individuos con valores distintos) de forma
quelavarianzatotaldeunaVDsedescomponesiempreenlosdostérminosaditivosindicadosenel
siguienteesquemaquetambiénseincluíaenaquellapágina:
Parte de la variabilidad total
VARIABILIDAD total Parte de la variabilidad total
observada en la VD
ൌ explicada por las variables
explicada por la VI
no manipuladas
ElinterésporelqueahoravuelveaquíesqueelcocienteentrelaparteexplicadaporlaVIy
lavariabilidadtotalenlaVDsecorrespondeconelcoeficientededeterminación(queyaaparecióen
lapágina333):
Que se define ahora como: la proporción (o el
porcentaje, si se multiplica por 100) de la variabilidad
۱۲ ൌ ଶ
୭୲ୟ୪ୢୣ୪ୟୈ observada en la VD criterio (sus cambios) que está
asociadaaloscambiosregistradosenlaVIpredictora.
Yenconsecuencia,esunmagníficoindicadordelgradoenquelosdatosrealesincluidosenla
nubedepuntosseajustanalmodelolineal.Así,porejemplounCDquevalga,800(80%)nosestará
diciendo que el grado de tendencia hacia la linealidad de la nube de puntos representada en su
correspondientediagramadedispersión,esmuyelevado.
El detalle curioso acerca del valor de este coeficiente CD es que su valor equivale
exactamentealcuadradodelvalordelcoeficientedecorrelacióndePearson:۱۲ ൌ ܇܆ܚ
Esta es una cuestión para la que es difícil encontrar una justificación teórica y que sólo se
demuestraporvíapuramentematemática;asíqueporunladoqueellectorsetranquilice,nolevoy
amartirizarconlademostración,peroporotroladolevoyapedirunactodefeparaque“crea”enla
citada igualdad. De hecho, esta es la razón por la que se suele representar al coeficiente de
determinaciónconelsímbolo܀ yasíaparece,porejemplo,enSPSS.
Quizás el lector no se habrá fijado que en el gráfico de la nube de puntos con la recta
ajustada que aparece en la página 357 durante el ejemplo de la correlación entre los test de
memoriavisualyauditiva,estáescritoenletrapequeñita,abajoaladerecha:“ൌͲǡͲͷʹ”,
puesésteeselvalordelCD(vieneeninglés: eslaabreviaturade“square”=cuadrado,asíquedice
“r cuadrado lineal=0,052”). Es fácil comprobar que este valor (0,052) coincide con el cuadrado del
valorqueseestimóparaladePearson:,2292=,052.Ysusignificado:“queel5,2%delasvariaciones
enuntipodememoriaestáasociadoconlasvariacionesenelotrotipo”,nospermiteconcluirqueel
ajuste lineal de los datos con los que se ha estimado la correlación, es bajo. Algo que también
coincidiráconlapercepción“aojo”quetendremosdeestehechoviendolanubedeldiagramade
dispersión de estas variables. Finalmente, decir que por supuesto, esta información entra en total
coherencia con la conclusión que se dio antes donde se afirmaba que el tamaño del efecto (la
intensidaddelarelación)erapequeño.
En el siguiente apartado que comienza enseguida, dedicado al modelo de regresión,
volveremos a encontrarnos con el coeficiente de determinación, aunque con una definición algo
distintaenfocadadesdeotraperspectiva.
conlamediiaaritméticaa,podemosd decir:queesslarectaqueeestámásccercadetodaalanube,essdecir
que es la reecta que meejor la representa, que es
e la recta promedio
p dee la nube, qu
ue es la rectta que
(igual que se hace con la media)) expresa en forma ab breviada la relación
r obsservada entre las
variables.
Dicho esto, segurramente ya no será ninguna
orpresa decir que estaa recta es la que disccurre
so
unniendolasm mediasaritmééticasdetod dasycadaunnade
las distribuciones condicionales ob bservadas en
e la
muestra. En la imagen dee al lado se puede obse
ervar
essta recta traazada aproxximadamentee en la diaggonal
ceentraldelperímetrodelaanubedepu untos.
Unaavezlocalizaadalarecta encuestión tenemosqu ueidentificarlasituándolaenellugaarque
ocupaentreelosejesdecoordenadaasǢ.
Paraellohayqu uerecurriraunaecuació ónquetomam mosprestadadelaGeom metría,setraatade
la ecuación
n de la rectaa en un plan
no de dos dimensiones
d : ܇ൌ ۰ ۰ ȉ ܆dondee ۰ y ۰ so
on las
constantesqueindicanexactamentecuáleslau ubicacióndelarecta.Enconcreto:
> ۰ sedenomminaordenaadaenelorigenointerccepta
ycomosepuedeverenlafiguraadjjunta:eslaaaltura
nquelarecttacortaaleje(eldelaVD)
oelpuntoen
۰ > ۰ se deno
omina coefficiente de regresión y se
۰ corresponde econlapenddientedela recta,esdecirla
0;0 inclinaciónq
quetieneconnrespectoelleje(elde
eVI)
elobjetodepredecirelcriterioͲconducta:rendimientoenexámenesorales(laVD)deotrossujetos
de esta misma población. Así, si un alumno obtiene en el test de extroversión la puntuación =15
(con la que se le diagnostica un grado normalͲalto de extroversión), podemos predecir que su
rendimiento académico en un futuro examen oral será: ൌ ʹǡͷͲ Ͳǡ͵Ͳ ȉ ͳͷ ൌ ૠǡ (un notable).
Puesbienacabamosdevercómolaecuacióndeunarectapermitepredecirunaconducta,esdecir
acabamosdeusarunaecuaciónderegresiónlinealsimple.
En Geometría la ecuación de la recta es un modelo determinista, pero en la Estadística ya
hemos comentado que la ecuación de regresión es un modelo probabilístico. Por ello la forma
generalenqueseescribeunaecuaciónderegresiónes:܇ ൌ ۰ ۰ ȉ ܆dondeapareceelsímbolo܇
enlugardesólo܇porqueconélsepretendeindicarqueelvalorobtenidoenlaVDnoesunvalor
real,sinosolamenteunaestimaciónquenecesariamenteconllevaunerror.
Deesta ,resultadodeunaecuaciónderegresión,podemosdecir:
a) QuesedenominapuntuaciónestimadaopredichaenlaVDparaunvalorconocidoenlaVIy
quehapodidoserobtenidopor1ómássujetosdelamismamuestra.
b) Queeslamediadeladistribucióncondicionaldetodoslosvaloresdequesonposiblespara
unmismovalorde.
Ydadoquecadadistribucióncondicional(comotodaslasdemásqueintervienenenlateoría
deregresión)sigueelmodelodeunanormalcomoconsecuenciadelapropiedaddelinealidad;
tambiénpodemosdeducir:
c) Que es el valor más probable en la VD para todos aquellos sujetos que en la VI tienen un
mismo nivel (esta cuestión está asociada al hecho de que estamos ante un método
probabilístico).
En consecuencia y puesto que la ecuación mínimo cuadrática utilizada reduce todo lo más
posibleelerrorperonoloanula(algoqueessimplementeimposible)debemosdediferenciarentre:
o laecuaciónderegresión,quees:܇ ൌ ۰ ۰ ȉ ܆
o yelmodeloderegresión,quees: ܇ൌ ۰ ۰ ȉ ܆ ઽoloqueeslomismo: ܇ൌ ܇ ઽ
delquesederivaelconceptodeerrordeestimación:ઽ ൌ ܇െ ܇ comoladiferenciaentreelvalor
real(enlaVD)yelvalorestimadoporlaecuaciónderegresión.
Suvalorexacto,paracadapersona,enfuncióndeestadefiniciónnuncapodráserconocido
puestoqueparaellonecesitaríamoselvalorreal܇,yesobvioquesilosupiésemosnoloestaríamos
estimando.Portanto,loquesehaceessustituirloporunaestimaciónprobabilística(unavezmás,¡la
probabilidad!) de cuál puede ser su valor. La estrategia es una aplicación de la metodología de la
estimacióndeparámetrosvistaensumomento.Seespecificaunerrormáximodeestimación:ઽ ܠۻ
quesedefinecomolamáximadiferenciaqueestamosdispuestosaadmitirentreelvalorestimado܇
y el valor real ܇para una determinada probabilidad de acierto (habitualmente el coeficiente de
confianzadel95%).
Apartirdeél,elinvestigadorpuedeydeberealizarunaestimaciónprobabilísticadecuáles
puedenserlaspuntuacionesrealesoverdaderasdelsujeto(s)objetodelpronóstico.Paraello,sevan
a construir intervalos de confianza del mismo modo que en la estimación de parámetros ya
estudiada.Enella,secalculaunintervalodevaloresdentrodelcualpronosticamos(yconfiamos)que
sepuedeencontrarlaverdaderapuntuacióndelsujetoenlaVDconunaaltaprobabilidaddeacierto:
܇ൌ܇ ઽ ܠۻdonde:ઽ ܠۻൌ േǡ ૢ ȉ ܁ઽ y܁ઽ eselerrortípicodeloserroresdeestimación
De esta definición se deduce la importancia de este coeficiente dentro del contexto de la
regresiónyaqueesunmagníficoíndiceestadísticoevaluadordelacapacidadpredictivaquetienela
ecuaciónderegresión.
Elvalordeestecoeficienteestácomprendidoenelrango:Ͳ d ܀ d ͳ ,debidoporunladoa
queesunaproporción(entrelavarianzaqueestáexplicadaporlaVIylavarianzatotaldelaVD)y
porotroladoaque,comosabemos,equivalealcuadradodeuncoeficientedePearson:
Ͳ si=0(correlaciónnula)܀ ൌ0(nohayreduccióndeerrores);
Ͳ si=+1ó=1(correlaciónperfecta)܀ ൌ1(nohayerror).
porellocuantomayorseasuvalormayorserálaproporcióndereduccióndeerrores,esdecirmás
error se deja de cometer con la ecuación, luego nuestros pronósticos son mejores (en sentido de
calidad).Estoeslógicoyaquedesdeelpuntodevistateóricodeladescomposicióndelavarianzase
haconseguidoexplicarmedianteelfactorcontroladounamayorcantidaddevariabilidadobservada
de la VD. Por eso mismo ya dijimos que era un buen indicador del grado de ajuste de los datos
empíricosalmodeloteóricoyestotalmentesemejantealcoeficienteEta2delosAnovas.
19.3.2.- La regresión lineal simple según el MLG
Inspirándoseenloquequedóexplicadocuandoseformulóteóricamenteel
modelo predictivo de regresión lineal dentro del MLG (páginas 299Ͳ300) el proceso metodológico
paraeldesarrollodelaregresiónsimple,vaaconstarde3grandesfases:
1ª)Eldiagnósticodelossupuestosbásicos:
a) denormalidaddeambasvariables,conelconocidotestdeKͲS;
b) delinealidad,estudiandoeldiagramadedispersión.
Comoresultadodeesto,obviamente,sólosieldiagnósticoglobaldeestaprimerafasees
positivo,sepuedeproseguirconelrestodelanálisis.
2ª)Laevaluacióndelasignificaciónestadísticadelmodelo:
a) conunaaplicacióndelanálisisdevarianzallamadaAnovadelaregresión;
b) conpruebasTdeStudentparaloscoeficientes۰ y۰
c) indicandoelcoeficientededeterminacióncomoíndicedebondaddeajuste.
Sólosielmodeloessignificativamenteeficazyposeeunrazonableíndicedeajuste,tiene
sentidocontinuarconlaúltimafase.
3ª)Laestimacióndelosparámetrosdelmodelo:
a) conelcálculopuntualdelosestimadoresquegeneranlaecuaciónderegresión;
b) conlaestimaciónintervalardelosparámetros.
Conlaecuaciónresultante,sepuedeutilizarelmodeloparaelpronósticoespecíficodela
variablecriterioensujetosquepertenezcanalamismapoblacióndedondesehansacado
losdatosdelamuestraquehanpermitidoconstruirlo.
Comoentodaslasocasionesanterioresalolargodeestemanual,lamejormaneradeque
aprendamostodoesteprocesoesatravésdeunejemplo.
Ejemplo40
En una investigación reealizada con n niños y niñas de entree 6 y 14 años, se
pretende enncontrar una ecuación quee sea capaz de d predecir laas conductass agresivas qque en esos niveles
n
de edad se tienen
t con suus compañeroos de juegos y de clase.
El nivel
n de agreesividad con
nductual de los niños de esa población es el cconstructo que
q se
pretendeprredecir;laVDeselnúmerodeconductasmanife estado.Con laintencióndeabreviarrenlo
posible,las potenciales variablesprredictorasno doenelenunciado;sepodránvercu
osehacitad uando
sehagaeleestudiocorreelacionalprevvioalaconstruccióndelmodeloderregresión.
Ycoonél,precisaamentecomenzamos.
Enp primerlugarrsevanarepresentarto odoslosdiaggramasdediispersiónqueseannecesarios
entrelaVDDytodaslas VIquepued denseremp pleadascomo opredictores.Paraello, usamoslam misma
funcióngráfficadelejemmplo39:
GRÁÁFICOSÖGEENERADORDEEGRAFICOS
Lad
diferenciaessqueahora, trasseñalarren
lapestañaG Galeríalaop pciónDisperrsión/Puntossen
vezdeeleggirelgráfico dedispersió ónsimple,seeva
aelegirlaoopcióngráficcaDispersión nMatricial(qque
es la penúlttima de la lista, como se
s aprecia en n la
imagen adjunta) y se arrastra
a al esspacio superrior.
Trasello,seeseleccionan ntodaslasvvariablesqueese
pretendenccorrelacionar(laVDyto odaslasposib bles
VI)ysearraastranalacaasillaenlaparteinferiordel
gráfico,don ndedice¿ma atrizdedispeersión?
Terminando esta acción haaciendo un clic
en Aceptar aparece la tabla
t de dobble entrada que
q
seinsertajuustodebajo:
Enella,lasm
mismasvariaablesqueocupan
lascabeezasdelasffilasestánen nlascolumn nas.Y
en cadaa casilla hayy un diagramma de dispersión
u pareja de variables. La media matriz
entre una m
de la parte
p superiior de la diagonal vacía es
idénticaa a la otra media mattriz de la mitad
m
inferiorrdelamismaadiagonal.C Comoantessseha
editadooelgráficoyysehaañad didounalíneeade
ajuste lineal que nos
n sirva dee referencia para
cada associación. Nu uestra vista aprecia quee hay
de todoo, algunas son claramen nte lineales y en
otroscaasosnopareecequeexisstarelación; pero
sobre todo no se aprecia
a ningu
una relaciónn que
puedasserdeotrotiipo(porejem mplocurvilín
nea).
Acontinu
uación,seprrocedeacalccularloscoe
eficientesde correlación entetodase
esasmismass
variables,aunqueelasquemásnosinteressansonlasqueseobservvenentrelassVDytodasquepueden n
serVI.Siguiendodenuevo,laamismarutaautilizadaen
nelejemploaanterior:
ORRELACIONESÖBIVARIADASosubotónráp
ANALIZARÖCO pido:
enel cuadroded diálogoque seabre,sevvanintroducciendo
todass las variables implicad
das, empezando por la VD y
siguieendoportod daslasVIqu
uepuedenseerpredictoraas,tal
ycom
moseapreciaaenlaimageendeallado o.
e contraste Unilateral para
Se suelee marcar el
obten nerunmayo ornúmerodeesignificacio
ones.Ysetermina
con Aceptar
A .
LoqueSP PSSnosofreccecomoresu ultadoesunatabladedo obleentradaasimilaraladelagráficaa
bles en las filas y en las columnas. Dicha tabla se denomin
anterrior con todaas las variab na matriz de e
corre
elaciones y presenta
p loss coeficientees de correlaación por paartida doblee (es decir y ) en
n
ambaasmitadessuperioreinfferiordelam matriz.Ladiaagonalrepreesentalacorrrelaciónde unavariablee
consigomisma,p porloquesuvalornopueedeserotroquelaunidaad(siempre):
Correlacio
ones
AGRESIVIDAD D
(nº conductass EDAD (años HORAS (al día
a)
agresivas) cumplidos) VIENDO T.V. PESO (en Kg))
AGRES SIVIDAD Corre
elación de Pearson
n 1 ,2844 ,660
0 ,383
(nº conductas Sig. (unilateral)
( ,0000 ,000
0 ,000
vas)
agresiv N 2222 229
9 222
EDAD (años Corre
elación de Pearson
n ,284 1 ,446
6 ,967
dos)
cumplid Sig. (unilateral)
( ,000 ,000
0 ,000
N 222 224
4 223
HORASS (al día) Corre
elación de Pearson
n ,660 ,446
6 1 ,562
VIENDO T.V. Sig. (unilateral)
( ,000 ,000
0 ,000
N
229 224
4 225
ormaenquelasvariablesseasocian,enlapágin
Aleestudiarlafo na366,secreeóeldiagram made
dispersiónm matricialqueeallíseinserrta.Enélseconcluíaque enohabíaningunarazón nparapensaarque
n fuesen dee tipo lineal. En concretto, si observvamos la terrcera casilla de la
había relaciones que no
primerafilaaodelaprimmeracolumn na(laquese quiera)vem moslanubed depuntosdeelarelaciónentre
agresividad y tiempo diario
d viendoo la TV. Dich uerte, pero desde
ha asociación no parecee ser muy fu
luegoloqueeparecebasstanteclaroeessulinealid dad.Portantto,estaprimeracondició ónestáverificcada.
El segundo
s suppuesto, es el
e de normaalidad de am mbas variables. Se comp prueba con el ya
conocidoteestdeKͲSquesehaempleadovariasvecesconantelación.Ellresultadoqueseobtien necon
nuestrosdaatoseselsigu uiente:
Prueba de Kolmogorov-Smirnov para una muestra Como se observa, au unque
AGRESIVIDAD
(nº conductas HORAS (al día) sea poor poco m margen, pod demos
agresivas) VIENDO T.V.
N 2299 235 admitirr que amb bas variablees se
Parámetros norrmales Media 6,41
1 3,22
Desvia
ación típica
ajustan
n al modelo de la norm
mal ya
2,712
2 1,494
que sus
s respecttivas Ǧ son
Z de Kolmogoro ov-Smirnov 1,453
3 1,501
Sig. asintót. (bilateral) ,067
7 ,061 mayoreesalnivellím
mitedel,050
0.
Portantoeldiaagnósticode lascondicio
onesdeutilizzacióndela regresiónlin
neal,esposittivo.Y
enconsecueenciapodemmoscontinuaarconelanálisis.
Enllasegundaffase,vamos aprocederaalaevaluaciióndelmodeelo.ElSPSS tieneunafu
unción
específicap
paraestoquee,además,yyarealizalaeestimacióndelosparámeetrosdelmo
odelo(queessla3ª
etapa).Lógiicamente,essunarutaqu
ueaúnnohaabíamostenidolaoportu unidaddeutilizar:
ANA GRESIÓNÖ LINEALo
ALIZARÖREG osubotónrápido:
Aleentrarsenossabreelcuaadrodediálogoque
se inserta al lado. EnE él, señalamos la VD V y la
trasladamos a la casilla
c Dependiente. Después
señalamos la VI elegid da como mejor
m predicttor y la
trasladamos a la casillaa Independieentes. El lecttor ya se
habráimaginadoqueestepluralessporqueestamisma
funcióneslaqueseusaaenlaregressiónmúltiplee.
Aco ontinuación sepulsaelb botón Estadíssticos… y
enelsubcuadroquese abre(yque estáinsertaadoenla
imagen de abajo) se activan: las Estimacionees y los
Intervalosd deconfianzadeloscoeficcientesdereegresión;
el Ajuste deel modelo y, si se desea, los Descrip
ptivos de
ambas variables. Ceerramos esste subcuadro en
Y de vuelta en el cuadrro principal, aunque
Continuar . Y
quedan mu uchas otras acciones que se podrían hacer,
t sencillo como una regresión
para algo tan r sim
mple no
hay más que sea imprrescindible. Así que se termina
clicando en n Aceptar y el SPSS nos devuelve todas las
tablas de resultados queq se incluye y comentan a
continuació ón,einclusoalgunaotrademenosin nterés.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 731,734 1 731,734 175,645 ,000a
Residual 945,681 227 4,166
Total 1677,415 228
a. Variables predictoras: (Constante), HORAS (al día) VIENDO T.V.
b. Variable dependiente: AGRESIVIDAD (nº conductas agresivas)
Coeficientesa
La primera a la izquierda obviamente contiene los descriptivos (media y d.t.) de cada
variable.Ademásnosindicaqueelanalizadoparaestepardevariablesfuede229casos.
Lasegundafasedelanálisis,ladeevaluaciónlavamosarealizarconinformaciónqueiremos
tomandodetodasycadaunadelrestodelastablasanteriores:
1) ComenzamosconelAnovadelaregresión.
LametodologíadelAnálisisdelavarianzaentroncadirectamenteconladescomposiciónde
lavarianzatotaldelaVDquesehacomentadovariasvecesconanterioridad.Porello,elcontrastede
hipótesis que se plantea está destinado a comprobar si la partede la variabilidad de la VD criterio
que está asociada con la VI predictora es, o no, significativa. Esta es una cuestión fundamental, ya
que de lo contrario estaríamos afirmando que la parte de variabilidad explicada por los errores de
estimación inherentes al modelo sería mayor que la que explica el factor predictor, con lo que en
consecuencianotendríasentidoconstruirelmodelodeprediccióndelaVDdesdeestaVI.
Estadísticamenteestecontrasteseformulaasí:
ଶ ଶ ଶ ଶ
Ͳ:ߪ௦ௗூ ߪா oloqueeslomismoͳ:ߪோ௦× ߪோ௦ௗ௨
ଶ ଶ ଶ ଶ
ͳ:ߪ௦ௗூ ߪா oloqueeslomismoͳ:ߪோ௦× ߪோ௦ௗ௨
yloquenecesitamosparaquepodamosseguirconstruyendoelmodeloesrechazarlaͲ.
Justoestoesloqueocurreconnuestrosdatos.Elestadísticodecontaste =175,645(con1y
227 gl) tiene una Ǧ tal que podemos tomar ladecisión de rechazo de Ͳ y llegar a la siguiente
conclusiónestadística:“conuna Ǧ=,000<,050serechaza ͲloquenospermiteaceptarquelaVI
predictora (tiempo diario viendo la TV) explica una proporción significativa de la varianza de la VD
(conductasagresivas)”.
2) SecontinúaconlaspruebasTdeStudentparaloscoeficientesderegresión.
Cuandoseexplicólaestructuradeunaecuaciónderegresión(páginas362)quedóclaroque
vienedefinidapordosconstantes:۰ (laordenada)y۰ (lapendiente,ocoeficientederegresión).
Loquesesometeahoraacontrasteeslasignificatividaddecadaunodeestosdoscoeficientes.
En primer lugar se comienza por el coeficiente ۰ . La hipótesis específica que se plantea
acercadelmismoestádirigidaaapoyarestadísticamentelaexistencia,ono,entrelasvariablesde
unarelaciónlinealsignificativaconundeterminadosentido.Másenconcreto,sepuedenplantear:
Ͳ encoladerecha: Ͳ:ଵ Ͳ
ͳ:ଵ ͲoexisteunarelaciónlinealdirectaentreVIyVD.
Ͳ encolaizquierda: Ͳ:ଵ Ͳ
ͳ:ଵ ൏ ͲoexisteunarelaciónlinealinversaentreVIyVD.
Porloque,enrealidadsepodríahaberutilizadoestecontrasteenlugartantodeldiagrama
dedispersiónconelqueseestudiabalaposiblelinealidaddelarelación,comoenlugardelaprueba
de la significación sobre el valor de Pearson que se hizo previamente al inicio del análisis de la
regresión.Entodocaso,nuncapuedeentrarenconflictoconloqueyasehaprobadoantes;asíque
tambiénesciertoqueesotraformamásdecorroborarquevamosporbuencamino.
Desdenuestrosdatosestecontrasteseríadecoladerecha:existeunarelacióndirectatalque
amástiempodiarioviendolaTV,mayornúmerodeconductasagresivassemanifiestaneneljuegoy
conloscompañerosdeclase(entrelos6ylos14añosdeedad).Paraestahipótesis,elestadísticode
contrastedeStudentseencuentraenlatablaqueSPSSdenominaCoeficientes.Allíseobservaque
vale 13,253 (con 2=227 gl) y su Ǧ nos lleva a la conclusión estadística: “con una pͲ
sig=,000<,050 podemos rechazar Ͳ y admitir que el coeficiente de regresión del tiempo diario
viendoTVparaelnúmerodeconductasagresivasessignificativamentemayora0;luegoseadmitela
existenciadeunarelaciónlinealdirectasignificativaentreestasvariables”.
Además,segúnelsentidoquetieneestecoeficiente,podemosdeducirdesuvalor(véasela
tabla denominada por SPSS como Coeficientes) que el número de conductas agresivas (la VD)
aumentaráenunacantidadigual1,19(95%:1,02;1,37)porcadahoramás(1unidaddemedida)
quepasenlosniñosdeestapoblaciónviendoTV.
Ensegundolugar,seabordaelcontrastesobrelasignificatividaddelaconstante۰ .Eneste
caso,lahipótesisespecificapretendecomprobarsiexiste,ono,eltérminoquerepresentaalefecto
detodasaquellascaracterísticasquetienenlossujetosencomúnporelhechodepertenecerauna
determinadapoblación(conceptoequivalenteaunamediaPpoblacional,alaquelaspeculiaridades
decadaindividuoañadensupesopredictivo).Elcontrasteestadísticoseplanteahabitualmenteen
doscolas:
Ͳ: ൌ Ͳ
ͳ: ് Ͳoexisteunaconstantepoblacionalsignificativa;
En el que si se rechaza Ͳ el valor de esta constante se incluirá, posteriormente, en el
modelo;perosisetuviesequetomarladecisióndeaceptardichaͲlaconstante۰ seexcluiríade
laecuacióndelmodelo.
Enelejemploqueestamossiguiendo,denuevoenlatabladecoeficientes(delSPSS)vemos
queelcorrespondienteestadísticodecontrastedeStudentvale8,011(con1=228gl)ysuǦ
nosllevaalasiguienteconclusiónestadística:“conunapͲsig=,000<,050seprocedearechazarͲya
admitir que la constante poblacional ܤ es significativamente distinta a 0; luego se admite su
inclusióndentrodelmodelopredictivo”.
Ademássabiendocuáleselsignificadodeltérmino ,desuvalor(verdenuevolatablade
coeficientes)sederivaqueenfuncióndelascaracterísticasquetienenencomúnlosindividuosdela
poblaciónestudiada,elnúmeroconstante(yenestecasomínimo)deconductasagresivasquecabe
esperarqueseobserveencualquieradeestossujetosesde2,56(95%:1,93;3,19)seacualseael
tiempoquepasenviendoTV.Apartirdeesevalor,dichotiempofrentealaTV(personalparacada
caso)incrementarálacantidaddeconductasagresivasarazóndeloquevalgaଵ (yqueyaseexplicó
enlapáginaanterior)porcadahoraanteeltelevisor.
3) Yposteriormente,seterminaconunbreveanálisisdelgradodeajustedelosdatosconelmodelo
deregresiónmedianteelcoeficientededeterminación.
ElvalordeesteíndiceseencuentraenlatablaqueSPSSllamaResumendelmodelo,bajola
denominaciónRcuadrado.Allísecompruebaquesuvalores,436;esdecir,quepodemosesperarun
ajuste alto ya que el modelo de regresión reduce en un 43,6% los errores de pronóstico que se
cometeríansinél.
La conclusión global de esta 2ª fase de evaluación es que: “es posible construir un modelo
predictivodelnúmerodeconductasagresivasdelosniñosdeestaedad,apartirdeltiempodiarioque
dedican a ver la TV, que sea significativamente eficaz ya que elimina una cantidad suficiente de
error”.Demaneraquepodemospasarala3ªyúltimaetapadelprocedimiento.
En ella, ¡por fin! construiremos la ecuación de pronóstico y estaremos en disposición de
usarla. La primera información que necesitamos la extraemos de la tabla de resultados que SPSS
llamó Coeficientes. En ella encontramos los valores de las constantes: ۰ y ۰ cuyo significado
interpretativoyasehacomentado.
En concreto, para nuestro ejemplo ya sabemos que se ha obtenido que ۰ ൌ ǡ y que
۰ ൌ ǡ ૢ.
Apartirdeestosvalores,laquesedenominaecuaciónderegresión,cuyaestructuraes:
ൌ ଵ ȉ oǤ
ൌ ଵ ȉ Ȁ
vaaquedar:
ܛ܉ܞܑܛ܍ܚۯܛ܉ܜ܋ܝ܌ܖܗ܋ൌ ǡ ǡ ૢ ȉ ܛ܉ܚܗܐȀ܄܂ܗ܌ܖ܍ܑܞ܉ܑ܌
ۻ܃ۼǤ
yquenospermiterealizarestimacionespuntualesdelaVD.Esdecirquesuresultadohayqueleerlo
comoelvalormásprobabledelnúmerodeconductasagresivas(laVD)quetendríaunniñoconun
númerodehoras/díafrentealTV.
PorejemploparaunniñoquevelaTVdurante3horasaldía,laecuaciónpredice6conductas
agresivascomovalormásprobable,yaque:
ܛ܉ܞܑܛ܍ܚۯܛ܉ܜ܋ܝ܌ܖܗ܋ൌ ʹǡͷͶ ͳǡͳͻͶ ȉ ͵ ൌ ǡ
ۻ܃ۼǤ
Finalmente,paracompletarelprocesohayquedecirqueelmodeloderegresiónsimple,al
completo,añadealaexpresiónanteriorlaestimacióndelamagnituddelerrordeestimaciónquese
puedecometer.
Entonces,suestructurageneralquesería:
Ǥ
ൌ ଵ ȉ Ȁ േ ɂ
secompleta,tomandodelatabladenominadaporSPSScomoResumendelmodeloelvalordelerror
típicodeestimación;demaneraquesegúnloindicadoenlapágina363,seconstruyeelmodelo:
ۻ܃ۼǤ ܛ܉ܞܑܛ܍ܚۯܛ܉ܜ܋ܝ܌ܖܗ܋ൌ ǡ ǡ ૢ ȉ ܛ܉ܚܗܐȀ ܄܂ܗ܌ܖ܍ܑܞ܉ܑ܌േ ǡ ૢ ȉ ǡ
esdecir:
ۻ܃ۼǤ ܛ܉ܞܑܛ܍ܚۯܛ܉ܜ܋ܝ܌ܖܗ܋ൌ ǡ ǡ ૢ ȉ ܛ܉ܚܗܐȀ ܄܂ܗ܌ܖ܍ܑܞ܉ܑ܌േ
quepredicelaVDconunaconfianzadel95%.
Paraacabardefinitivamentesolonosrestacomentarqueutilizandoloconelcasosupuesto
anteriormente (el del sujeto que ve la TV 3 horas/día) la expresión anterior nos predice que el
númerodeconductasagresivasdelmismo,conunaconfianzadel95%será:
ۻ܃ۼǤ ܛ܉ܞܑܛ܍ܚۯܛ܉ܜ܋ܝ܌ܖܗ܋ൌ ǡ ǡ ૢ ȉ േ
Ǥ
ൌ ǡͳͷ േ ͶoǣሾʹǡͳͷǢͳͲǡͳͷሿ
Yconesto,hemosllegadoalfinaldelpresentemanual.Sólomequeda,desearqueoshaya
sido provechoso. Ah!... y que os haya generado el deseo de seguir estudiando las técnicas
estadísticasqueaúnosquedanporconocer.
Páginadonde
Páginadonde
Término aparecepor
sedefine
primeravez
375
A NE X O 1
TABLADENÚMEROSALEATÓRIOS
10480 15011 01536 02011 81647 91646 36207 20969 99570 91291 90700
22368 46573 25595 85393 30995 89198 34095 52666 19174 39615 99505
24130 48360 22527 97265 76393 64809 32081 30680 19655 63348 58629
42167 93093 06243 61680 07856 16376 57004 00849 74917 97758 16379
37570 39975 81837 16656 06121 91782 60672 14110 06927 01263 54613
77921 06907 11008 42751 27756 53498 15053 21916 81825 44394 42880
99562 72905 56420 69994 98872 31016 48840 63213 21069 10634 12952
96301 91977 05463 07972 18876 20922 60045 18425 84903 42508 32307
89579 14342 63661 10228 17453 18103 12566 58678 44947 05585 56941
85475 36857 53342 53988 53060 59533 17983 16439 11458 18593 64952
28918 69578 88231 33276 70997 79936 31595 01547 85590 97610 78188
63553 40961 48235 03427 49626 69445 20847 12234 90511 33703 90322
09429 93969 52636 92737 88974 33488 08272 84115 27156 30613 74952
10365 61129 87529 85689 48237 52267 26358 85104 20285 29975 89868
07119 97336 71048 08178 77233 13916 85977 29372 74461 28551 90707
51085 12765 51821 51259 77452 16308 53900 70960 63990 75601 40719
02368 21382 52404 60268 89368 19885 65255 64835 44919 05944 55157
01011 54092 33362 94904 31273 04146 85030 51132 01915 92747 64951
52162 53916 46369 58586 23216 14513 64350 94738 17752 35156 35749
07056 97628 33787 09998 42698 06691 46104 88916 19509 25625 58104
48663 91245 85828 14346 09172 30168 22178 30421 61666 99904 32812
54164 58492 22421 74103 47070 25306 06646 21524 15227 96909 44592
32639 32363 05597 24200 13363 38005 06912 17012 64161 18296 22851
29334 37001 87637 87308 58731 00256 41135 10367 07684 36188 18510
02488 33062 28834 07351 19731 92420 67658 32586 86679 50720 94953
81525 72295 04839 96423 24878 82651 14780 13300 87074 79666 95725
29676 20591 68086 26432 46901 20849 12659 92259 57102 80428 25280
00742 57392 39064 66432 84673 40027 96067 64760 64584 96096 98253
05366 04213 25669 26422 44407 44048 66134 75470 66520 34693 90449
91921 26418 64117 94305 26766 25940 64568 91402 42416 07844 69618
00582 04711 87917 77341 42206 35126 42607 43808 76655 62028 76630
00725 69884 62797 56170 86324 88072 93161 76038 65855 77919 88006
69011 65795 95876 55293 18988 27354 59920 29841 80150 12777 48501
25976 57948 29888 88604 67917 48708 69774 33611 54262 85963 03547
377
A NE X O 2
TABLADELAFUNCIÓNDEDENSIDADDELAN ( 0 ; 1 )
379
Í N D I CE D E E J E M P L O S R E S U E L T O S
Nº Contenido Pág.
1.Ͳ Descriptivadevariablescategóricas:Frecuencias 93
2.Ͳ Descriptivadevariablescategóricas:Tabladecontingencia 98
3.Ͳ Descriptivadevariablescategóricas:Tabladecontingenciaporcapas 101
4.Ͳ Tabladefrecuenciasdevariablescuantitativas 105
5.Ͳ Construccióndeintervalosenvariablescuantitativas 106
6.Ͳ Categorizacióndevariablescuantitativas 113
7.Ͳ Categorizacióndevariablescuantitativas 114
8.Ͳ Descriptivadevariablescuantitativas 133
9.Ͳ Análisisexploratorio:datosoutliers 139
10.Ͳ ProbabilidadenelmodelodedistribuciónN(0;1) 164
11.Ͳ ProbabilidadenelmodelodedistribuciónN(0;1) 164
12.Ͳ ProbabilidadenelmodelodedistribuciónN(0;1) 165
13.Ͳ ProbabilidadenelmodelodedistribuciónN(0;1) 166
14.Ͳ Estimacióndeparámetros 200
15.Ͳ Estimacióndeparámetros 202
16.Ͳ Contrastedehipótesis 209
17.Ͳ Potenciadeuncontrasteestadístico 225
18.Ͳ Cálculodeltamañomínimodemuestra 229
19.Ͳ TestparalacomprobacióndelsupuestodenormalidaddeunaVD 233
20.Ͳ Inferenciassobreelparámetromedia:pruebaTdeunamuestra 237
21.Ͳ Inferenciassobreelparámetroproporción 241
22.Ͳ PruebaChiͲcuadradodehomogeneidad(1muestra) 244
23.Ͳ PruebaChiͲcuadradodehomogeneidad(1muestra) 247
24.Ͳ PruebaChiͲcuadradodebondaddeajuste(1muestra) 249
25.Ͳ PruebaChiͲcuadradodebondaddeajuste(1muestra) 250
26.Ͳ TestChiͲcuadradodeindependencia 279
27.Ͳ TestChiͲcuadradodeindependencia 281
28.Ͳ TestChiͲcuadradodeindependenciaentablassegmentadas 284
29.Ͳ TestdeMcNemar 287
30.Ͳ PruebaTparamuestrasindependientes 306
31.Ͳ PruebaTparamuestrasindependientes 308
32.Ͳ PruebaTparamuestrasrelacionadas 311
33.Ͳ TestdeMannͲWhitney 314
34.Ͳ TestdeWilcoxon 317
35.Ͳ Anovade1FEFCA 326
36.Ͳ AnovadeMRen1factor 336
37.Ͳ TestdeKruskalͲWallis 343
38.Ͳ TestdeFriedman 345
39.Ͳ CorrelacióndePearson 356
40.Ͳ Regresiónlinealsimple 366
T E X T O S CI T A D O S
Aaron, A.; Aaron, E.N.; (2001): “Estadística para psicología”. Buenos Aires. Pearson
EducationS.A.
Barrull, E. (2001). “¿Porqué es ilegal investigar en Psicología?”. Extraído el 19 de julio de
2008dehttp://www.biopsychology.org/biopsicologia/articulos/reflexiones/ilegal.htm
McMillan,JamesH.;Schumacher,Sally.(2001).“Investigacióneducativa”(5ªedición,2005).
Madrid.PearsonEducaciónS.A.
Pardo Merino, A.; Ruíz Díaz, M.A. (2005). “Análisis de datos con SPSS 13 Base”. Madrid.
McGrawHill.
PortillaManjón,M.I.(2008).“ManualprácticodelpaqueteestadísticoSPSSparaWindows”.
(Navarra).Ed.UniversidadpúblicadeNavarra.
San Martín, R.; Botella, J.; León, O.G. (1993). “Análisis de datos en Psicología, I”. Madrid.
EdicionesPirámideS.A.
San Martín, R.; Botella, J.; León, O.G.; Barriopedro, M.I. (2001). “Análisis de datos en
Psicología,I:Teoríayejercicios”.Madrid.EdicionesPirámideS.A.
SanMartín,R.;Espinosa,L.;Fernández,L.(1987).“Psicoestadística:Estimaciónycontraste”.
Madrid.EdicionesPirámideS.A.
San Martín, R.; Espinosa, L.; Fernández, L. (1987). “Psicoestadística descriptiva”. Madrid.
EdicionesPirámideS.A.
San Martín, R.; Pardo A. (1994). “Análisis de datos en Psicología, II”. Madrid. Ediciones
PirámideS.A.
San Martín, R.; Pardo, A. (1989). “Psicoestadística: Contrastes paramétricos y no
paramétricos”.Madrid.EdicionesPirámideS.A.
Scheaffer, R.; Mendenhall III, W.; Lyman Ott, R. (2007). “Elementos de Muestreo”. Madrid.
InternationalThompsonEd.
Visauta Vinauca, B. (2007): “Análisis estadístico con SPSS 14: estadística básica”. Madrid.
McGrawHill.