Probabilistic Latent Semantic Analysis

Trabajo Prctico:
BagofWordsMeetsBagsof
Popcorn
75.06OrganizacindeDatos
1er cuatrimestreao2015
NombredelgrupodeKaggle
:
LaPapaFuriosa
AlvarezNicols93503
DeciancioNicols92150
MonsechSantiago92968
OttavianoniNatan86249
Abstract
Para la resolucin de este trabajo decidimos emplear el uso de un algoritmo de

modelado llamado Probabilistic LSA(latent semantic analysis) teniendo como partida el
siguiente paper [1] que es muy recomendado dentrode la comunidad de data science, para
unmodeloderevisindepeliculas.Estopermite generarunmodeloquetratadeentenderlos
sentimientos expresados en una review, y no tanto en el contenido del lxico que este
contiene.
Luego en basealaprecisinalcanzada, vamosaevaluartrabajarconunalgoritmode
clasificacin automtica como es el SVM (support vector machine) para poder clasificar
reviewssegnelsentimientotransmitidoenelmismo,talcomolorealizanen[12].
Fuente/Bibliografa
[1]
X.Yu,Y.Liu,J.Xiangji,A.An.Miningonlinereviewsforpredictingsales
performance:Acasestudyinthemoviedomain.(1999).
[2]
T.Hofmann.Probabilisticlatentsemanticindexing.(1999)
[3]
Hofmann,T.Probabilisticlatentsemanticanalysis.(1999).
[4]cursodeTextRetrievalillinoisde
Coursera
[5]cursodeNLPStanforddeCoursera.
[6]
http://en.wikipedia.org/wiki/Latent_semantic_analysis
[7]http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm
[8]
DataMiningforBusinessApplications
LongbingCao
,
PhilipS.Yu
ChengqiZhang
HuaifengZhang
,captulo13:
BlogDataMining:ThePredictivePowerofSentiments
[9]
http://blog.echen.me/2011/08/22/introductiontolatentdirichletallocation/
[10]DavidM.,BleiAndrewY.Ng,MichaelI.Jordan,LatentDirichletAllocation
[11]
http://videolectures.net/slsfs05_hofmann_lsvm/
[12]WeijianRen,KaixuHan:SentimentDetectionofWebUsersUsingProbabilistic
LatentSemanticAnalysis
Explicacindelasolucin
Modelado: una vez obtenida larepresentacin vectorial de las reviews ,el procesoparalas
modelar se llevar a cabo utilizando el algoritmo PLSA debido a su naturaleza latente
(basado en el principio de probabilidad y definiendo un de modelo generativo adecuado).
Para procesar los datos con este algoritmo deberamos obtener la cantidadde sentimientos
latentesquecreemosquepodranestarpresentes(experimental).
Entrenamiento
:
ProponemosusarunclasificadorquegeneraremosapartirdelmodelodePLSA.
Puesto que una vez obtenidas las probabilidades delossentimientoslatentesP[ Z i ]y
de las condicionales P[ W k| Z i ] y P[ Z i | Dj ] podramos estimar cules sentimientos
corresponden a un sentimiento positivo y cuales son negativos, sin embargo a priori
no tendramos manerade saber de antemano la polaridadde lossentimientos,porlo
cual buscamos ensearle al modelo cuales nosotros creeremosquesonsentimientos
positivos a partir de los puntajes recibidos por las reviews, para lograr esto usamos
las probabilidades condicionales, nosotros creemos que podramos obtener la
polaridaddelossentimientosmirando:
Para cada documento, las probabilidades de los sentimientos. Puesto que si
sabemos que para un documento calificado como positivo, vemos
probabilidades de sentimientos altas, podemos decir que esos sentimientos
que son muy probables para un documento marcado como positivo, deberan
sersentimientospositivos.
Clasificacin
: El clasificador debera utilizar los sentimientos que nosotros creemos
positivos obtenidos en la fase de entrenamiento, sabidos cuales son los sentimientos
positivos podemos ver sobre el set de prueba, cules documentos tienen alta probabilidad
(que podra definirse con un umbral) de esos sentimientos positivos,para determinar si
finalmentecorrespondeaunareviewpositiva.
Posibles mejoras
:
dependiendodelosresultadosqueconsigamosconelmodeloplanteado
analizaremos la posibilidad de mejorar el algoritmo utilizando un modelo SVM mediante una
librera.
Procesamientodetextos
Como idea principal para el procesamiento del texto se pretende armar vectores de
documentos eliminando stopwords, solo contemplando unigramas, esdecir, palabras por s
mismas. Teniendoestosvectoresqueconformanunamatriz,senormalizaracadaunobajoel
criteriodenormalizacinTf*idf.
Algunas posibles mejoras para refinar la normalizacin es contemplar bigramas en
lugar de unigramas, as como tambin la incorporacin de un corpus conpalabras definidas
como adjetivos. Con esto estaramos contemplando un contexto ms reducido, lo que nos
dara ms certeza al momento decalcularlasprobabilidadesqueconciernenaciertapalabra
dentrodeltexto.
Aportedegrupo
Una de las cuestiones a determinar es la cantidad de sentimientos latentes,

se
realizarn experimentos, aplicando algoritmos como SVD,e irvariandolacantidadde
valores singulares que sern aplicados al modelo, usando algncriterio(a decidir), y
generarunhistograma,paratratardeestimarelnmeroptimodesentimientos.
Proponemos usar dos maneras de clasificacin, usando SVM y la otra usando el

modeloquenosgeneroelPLSA,realizandounentrenamientoprevio.
Lamotivacindeprobarcondosalgoritmosdeclasificacinson:
Usar el modelo generado porPLSA para poder clasificar,nospermitirobservarqu

tanbienseclasificacuandoseusaentendimientodelossentimientos.
En contraposicin usar SVM, permitir combinar el modelo generativo probabilstico
delPLSAconelmodelodiscriminantedeSVM.
Como conclusin nos gustara que este anlisis se pueda extendera otro tipo de dominios,
siguiendo la idea de Domain Driven Data Mining, espor elloquenosgustaraprobarlosobre
otro dataset, y tambin para el caso del concurso comprobar que las palabras cuya
probabilidad es alta para los sentimientos que nosotros esperamos que fuesen positivos,
resultasenserpalabrasdendolepositiva.
Libreras
Aquproponemosunalistadelibrerasquepermitenresolverdiversosproblemasconlos
cualesnosvamosaencontrareneldesarrollodelmismo,muchasdeellasrealizanlamisma
tareaperoesimposibleaprimafacie,poderoptarporunauotra,sinhaberrealizadounset
depruebascorrespondiente,comoastambinconocerelgradodemantenimientoque
tienen.
Notodasestarnpresentesenlareleasefinal,perosiserviranparairprobandodistintos
mdulosdelsistemaencadaunadelasiteracionescorrespondientes.
GibbsLDA++:AC/C++ImplementationofLatentDirichletAllocation.
ArmadilloC++linearalgebralibraryimplementationofSVD.
YamCha
http://chasen.org/~taku/software/yamcha/#source
http://cdecdecoder.org/index.php?title=Main_Page
http://www.cs.jhu.edu/~rflorian/fntbl/
http://nlp.lsi.upc.edu/freeling
http://www.speech.sri.com/projects/srilm/
http://www.speech.cs.cmu.edu/SLM_info.html

Probabilistic Latent Semantic Analysis

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Probabilistic Latent Semantic Analysis

Hochgeladen von

Copyright:

Verfügbare Formate

Trabajo Prctico:

Para la resolucin de este trabajo decidimos emplear el uso de un algoritmo de

Una de las cuestiones a determinar es la cantidad de sentimientos latentes,

Proponemos usar dos maneras de clasificacin, usando SVM y la otra usando el

Usar el modelo generado porPLSA para poder clasificar,nospermitirobservarqu

Das könnte Ihnen auch gefallen