Beruflich Dokumente
Kultur Dokumente
BagofWordsMeetsBagsof
Popcorn
75.06OrganizacindeDatos
1er cuatrimestreao2015
NombredelgrupodeKaggle
:
LaPapaFuriosa
AlvarezNicols93503
DeciancioNicols92150
MonsechSantiago92968
OttavianoniNatan86249
Abstract
Fuente/Bibliografa
[1]
X.Yu,Y.Liu,J.Xiangji,A.An.Miningonlinereviewsforpredictingsales
performance:Acasestudyinthemoviedomain.(1999).
[2]
T.Hofmann.Probabilisticlatentsemanticindexing.(1999)
[3]
Hofmann,T.Probabilisticlatentsemanticanalysis.(1999).
[4]cursodeTextRetrievalillinoisde
Coursera
[5]cursodeNLPStanforddeCoursera.
[6]
http://en.wikipedia.org/wiki/Latent_semantic_analysis
[7]http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm
[8]
DataMiningforBusinessApplications
LongbingCao
,
PhilipS.Yu
ChengqiZhang
HuaifengZhang
,captulo13:
BlogDataMining:ThePredictivePowerofSentiments
[9]
http://blog.echen.me/2011/08/22/introductiontolatentdirichletallocation/
[10]DavidM.,BleiAndrewY.Ng,MichaelI.Jordan,LatentDirichletAllocation
[11]
http://videolectures.net/slsfs05_hofmann_lsvm/
[12]WeijianRen,KaixuHan:SentimentDetectionofWebUsersUsingProbabilistic
LatentSemanticAnalysis
Explicacindelasolucin
Modelado: una vez obtenida larepresentacin vectorial de las reviews ,el procesoparalas
modelar se llevar a cabo utilizando el algoritmo PLSA debido a su naturaleza latente
(basado en el principio de probabilidad y definiendo un de modelo generativo adecuado).
Para procesar los datos con este algoritmo deberamos obtener la cantidadde sentimientos
latentesquecreemosquepodranestarpresentes(experimental).
Entrenamiento
:
ProponemosusarunclasificadorquegeneraremosapartirdelmodelodePLSA.
Puesto que una vez obtenidas las probabilidades delossentimientoslatentesP[ Z i ]y
de las condicionales P[ W k| Z i ] y P[ Z i | Dj ] podramos estimar cules sentimientos
corresponden a un sentimiento positivo y cuales son negativos, sin embargo a priori
no tendramos manerade saber de antemano la polaridadde lossentimientos,porlo
cual buscamos ensearle al modelo cuales nosotros creeremosquesonsentimientos
positivos a partir de los puntajes recibidos por las reviews, para lograr esto usamos
las probabilidades condicionales, nosotros creemos que podramos obtener la
polaridaddelossentimientosmirando:
Para cada documento, las probabilidades de los sentimientos. Puesto que si
sabemos que para un documento calificado como positivo, vemos
probabilidades de sentimientos altas, podemos decir que esos sentimientos
que son muy probables para un documento marcado como positivo, deberan
sersentimientospositivos.
Clasificacin
: El clasificador debera utilizar los sentimientos que nosotros creemos
positivos obtenidos en la fase de entrenamiento, sabidos cuales son los sentimientos
positivos podemos ver sobre el set de prueba, cules documentos tienen alta probabilidad
(que podra definirse con un umbral) de esos sentimientos positivos,para determinar si
finalmentecorrespondeaunareviewpositiva.
Posibles mejoras
:
dependiendodelosresultadosqueconsigamosconelmodeloplanteado
analizaremos la posibilidad de mejorar el algoritmo utilizando un modelo SVM mediante una
librera.
Procesamientodetextos
Como idea principal para el procesamiento del texto se pretende armar vectores de
documentos eliminando stopwords, solo contemplando unigramas, esdecir, palabras por s
mismas. Teniendoestosvectoresqueconformanunamatriz,senormalizaracadaunobajoel
criteriodenormalizacinTf*idf.
Algunas posibles mejoras para refinar la normalizacin es contemplar bigramas en
lugar de unigramas, as como tambin la incorporacin de un corpus conpalabras definidas
como adjetivos. Con esto estaramos contemplando un contexto ms reducido, lo que nos
dara ms certeza al momento decalcularlasprobabilidadesqueconciernenaciertapalabra
dentrodeltexto.
Aportedegrupo
Lamotivacindeprobarcondosalgoritmosdeclasificacinson:
Libreras
Aquproponemosunalistadelibrerasquepermitenresolverdiversosproblemasconlos
cualesnosvamosaencontrareneldesarrollodelmismo,muchasdeellasrealizanlamisma
tareaperoesimposibleaprimafacie,poderoptarporunauotra,sinhaberrealizadounset
depruebascorrespondiente,comoastambinconocerelgradodemantenimientoque
tienen.
Notodasestarnpresentesenlareleasefinal,perosiserviranparairprobandodistintos
mdulosdelsistemaencadaunadelasiteracionescorrespondientes.
GibbsLDA++:AC/C++ImplementationofLatentDirichletAllocation.
ArmadilloC++linearalgebralibraryimplementationofSVD.
YamCha
http://chasen.org/~taku/software/yamcha/#source
http://cdecdecoder.org/index.php?title=Main_Page
http://www.cs.jhu.edu/~rflorian/fntbl/
http://nlp.lsi.upc.edu/freeling
http://www.speech.sri.com/projects/srilm/
http://www.speech.cs.cmu.edu/SLM_info.html