Beruflich Dokumente
Kultur Dokumente
Fernando Meyer
@fmeyer
Friday, August 30, 13
Aquisio
Armazenamento
Vizualizao
Anlise
Deployment
Aquisio
Aquisio
Logs de Acesso
Logs de Busca
Vizualizaes de Pginas.
Histrico de Compra
Favoritos
Aquisio
Facebook Scribe
Aquisio
Alternativas ao Scribe
FluentD
Apache Flume + continuo
Apache Chukwa
Aquisio
Browser Fingerprint
Referal
Cursor/Interao
Buscas/filtros/parmetros
Sadas
Aquisio
Aquisio
Tweets
Foursquare
Google Analytics
*
Facebook Likes
* Facebook tende a dificultar as coisas de tempos em tempos. Ento temos que tomar cuidado com features cruciais
dependentes do facebook.
Friday, August 30, 13
Aquisio
Web crawling
Comentrios em sites/portais
Blogs com contedo relevante
Outros servios onde pessoas
expressam opinies mas no
existem APIs
Friday, August 30, 13
Aquisio
Um crawler minimalista
#
cat
~/dev/ds/crawler.py
def
crawler(queue):
url
=
queue.pop()
fd
=
urlib.urlopen(url)
content
=
fd.read()
links
=
parse_links(content)
for
link
in
links:
queue.put(link)
crawler(queue)
Friday, August 30, 13
Aquisio
Crawlers Completos
Apache Nutch
Crawler4j
Scrapy (python)
Anemone (ruby)
Aquisio
Aquisio
Aquisio
Hardware
Sensores
Cmeras
Arduinos/RaspbPy
Aquisio
Datasets pr-existentes
WineDatabase
Freebase
LinkedData
Google Concept DS
Armazenamento
Armazenamento
RAW [ d - 30 ]
N dimenses [ d - 365* 1/N ]
Backup
Backup do Backup
Armazenamento
Armazenamento
Sua arquitetura de
armazenamento de informaes
nunca deve impactar o usurio
enquanto interage com o site.
Armazenamento
Disponibilidade
Consistencia
Particionamento
DB Toolset
Engines
Examples
WideColumn
BigTable, Cassandra,
HBase, Hipertable
Document
MongoDB, CouchDB,
Terrastore, Lucene
Key Value/Tuple
Hash Table
Memcached, Redis,Voldemort,
Couchbase, LevelDB
Graph DB
Graph
Node4j
Multivalue/RDF
Conceptual description or
modeling
Virtuoso
Armazenamento
Anlise
Anlise
Anlise
Aplicaes
Segmentao
Anlise de comportamento
Engine de Recomendao
Deteco de fraude
NLP
Anlise
Anlise
RStudio
Matlab
IPython com scipy e numpy
Julia*
Anlise
Anlise
RStudio
Anlise
Julia
Anlise
Julia Benchmarks
Anlise
Anlise
SVM
Regresso Linear
Kernels
Random Forest (decision tree)
Anlise
Redes Neurais
Max de Expectativas (distrib)
K-means (centroides)
DBSCAN (densidade)
Graph Based Models
Anlise
Anlise
Time series
Anlise
NLP
Joo comprou 300 aes da OGX
em Agosto de 2013
Anlise
NLP
<ENAMEX TYPE="PERSON">Joo</ENAMEX>comprou
<NUMEX TYPE="QUANTITY">300</NUMEX>aes
da <ENAMEX TYPE="ORGANIZATION">OGX</ENAMEX>
em <TIMEX TYPE="DATE">Agosto de 2013</TIMEX>.
Anlise
NLP
Apache OpenNLP
Stanford CoreNLP
Python NLTK
Anlise
NLP
Dificuldades: Corpus em PT-BR so
raros e evoluem a passos lentos.
Alternativa: Crawling
Anlise
Anlise
Anlise
Anlise
Anlise
Anlise
No subestime a matemtica.
Probabilidade
Estatstica
Algebra Linear
Matemtica Discreta
Visualizao
Visualizao
Comparao
Distribuio
Composio
Relao
Analise
Analise
Deployment
Deployment
Deployment
Deployment
Env
Deployment
Monitore tudo
Converso
Usurios que esto sob
influencia do algoritmo
Cache
Deployment
N verses de um mesmo
algoritmo podem coexistir e
competir pela melhor resposta/
converso
Deployment
Avaliao
Mean Absolute Error
Root Mean Squared Error (RMSE)
Deployment
Toolset
Ferramentas
Onde aplicar
Hadoop
Mahout
Machine Learning
Twitter Storm
Deployment
Deployment
Deployment
Deployment
Deployment
Topologia
Dicas e consideraes
Comunicao
Demonstre sua hipotese/Teoria
Tente vrias abordagens
Converse com outras pessoas sobre
seus dados/tcnicas
Veja como problemas similares foram
modelados ( kaggle.com)
Analise
The end!
Fernando Meyer
@fmeyer