Sie sind auf Seite 1von 7

(buscando maquinas de estado: https://www.youtube.com/watch?

v=KRE-igv2Adg)

(8 puntos para identificar cientificos de datos malos


1. Primero diseñamos el modelo, luego vemos los datos
2. No hay rigor matemático, no tienen herramientas para validar si el modelo esta
bien. (no saben medir el desempeño del modelo)
3. No tienen fundamentos de computacion.
4. Son malos comunicadores
5. Siempre enfrascados en conversaciones como R vs Phyton etc... (convierte la
tecnologia en religion, la vision se vuelve dogmatico)
6. Falta de contacto con nuevas tecnologias (no necesito saber mas)
7. No necesito conocer los datos, solo se los aviento al modelo.
8. Falta de etica (este modelo va encontra de la gente, pero no es mi problemas).
)

(Malas vacantes
1.Te piden seas todologo
2.No hacen distincion entre Ingenieria de Datos, Ciencia de Datos, ni Business
Intelligence
3.No menciona que estaras haciendo dia con dia (No tienen mapeadas bien las
responsabilidades que estaras haciendo,No pueden frasear su necesidad)
4.No es especifico sobre el problema que quieren resolver
5.El sueldo es menor a 35K
6.No piden experiencia comprobable
)

(Libros
Computer Age Statistical Inference
)

MODULO 3. Regresión

1. Regresión. Punto de partida


Para hacer predicciones, recurrimos a métodos de aprendizaje supervisado.
En el aprendizaje supervisado se usan los datos para entrenar a la máquina a
aprender, generando
funciones que permiten predecir o proyectar eventos.

método de aprendizaje supervisado, regresión

El objetivo de los modelos de regresión es encontrar relaciones causales entre


series de datos
o atributos históricos, modelizándolos para poder realizar predicciones.

la regresión consiste en el procesamiento de datos numéricos dados para calcular


una variable
objetivo que deseamos conocer.

2. Regresión lineal
La regresión lineal es el modelo más simplificado de esta técnica, consistente en
establecer
relaciones entre variables a través de modelos lineales.

Desde el punto de vista matemático la regresión lineal permite relacionar un output

(también llamado variable dependiente) con una serie de datos o atributos (también
llamados variables
independientes) a través de una función lineal.
Esta función lineal asigna o pondera con pesos diferentes la contribución que cada
uno de los
atributos a la obtención de dicho output.

Y = k + a1*X1 + a2*X2 + ...an*Xn

¿Cuál es el objetivo de la regresión lineal?


Explicar como una variable dependiente varía en función de distintos valores de las
variables
independientes, minimizando las diferencias entre los datos observados y los datos
inferidos por el modelo.

la estimación de los coeficientes de regresión de la función se basa en minimizar


el cuadrado
de la diferencia entre el valor obtenido por la función y el valor observado real.

3. Evaluación de modelos de regresión lineal


La eficiencia para predecir del modelo obtenido utilizando la técnica de regresión.

Una debilidad de este tipo de modelos es que el error cuadrático se incrementa con
la escala de los datos.

Coeficiente de determinación (R2)


nos dice qué porcentaje del resultado obtenido por el modelo (la variable
dependiente) es explicado por
los datos utilizados (variables independientes).

cuanto mayor sea el coeficiente de determinación, menor será el margen de error de


predicción.

El valor de R2 se mueve en un rango entre 0 y 1.

cuanta información relevante para explicar un resultado hemos capturado?.

Ajuste.- Cuando se construye un modelo predictivo, se parte de datos históricos.


Los datos históricos
que se usan para ello se conocen como datos de entrenamiento. Un buen modelo se
ajusta a estos datos,
esto es, los explica.

Sobreajuste.- se corre el riesgo de que el modelo se ciña de forma demasiado


estricta a los datos históricos:
no es capaz de distinguir la dinámica general de fluctuaciones o incidencias
anecdóticas.
Esto es lo que denominamos sobreajuste.

Precisamos por tanto de un método que nos permita entrenar nuestro modelo sin
sobreajustarlo.

Validacion cruzada
La validación cruzada (cross validation) es una técnica que permite evaluar la
eficiencia predictiva de
un modelo testando su funcionamiento independientemente de las series de datos
utilizados.
Por lo general, se escoge 5 o 10 para K.
¿En qué consiste el proceso de validación cruzada?
El proceso empieza dividiendo los datos en varias partes. Se utiliza una de esas
partes para entrenar
el modelo, evaluando sus resultados. A continuación, se realiza el mismo ejercicio
con el resto de
particiones muestrales.

Procedimiento de método de validación cruzada de k particiones


1. Toma de datos históricos (por ejemplo, 200 puntos)
2. División de los datos en k partes (por ejemplo, k=2) de forma aleatoria
3. Uso de parte 1 para entrenamiento y parte 2 para la prueba
4. Entrenamiento de modelo en parte 1
5. Evaluación del error de predicción utilizando los datos de la parte 2
6. Intercambio de las partes y repetición del proceso de evaluación
7. Calculo del error medio que es equivalente al índice de validación cruzada

El entrenamiento combiando es importante, no puedes confiar solo en el


entrenamiento individual
para hacer una prediccion precisa

Toma de datos historicos para simular el futuro del pasado


Entonces empleo de estos datos para evaluar la eficacia del modelo

4. Determinación de incertidumbre
Todo modelo de regresión parte de una hipótesis determinista: el futuro del pasado
es el futuro del futuro.

debemos ser conscientes de que un modelo predictivo nunca es más que una mera
aproximación y, por tanto,
no somos capaces de predecir con certeza absoluta los datos futuros.

se debe cuantificar la incertidumbre de nuestro modelo para optimizarlo.

¿Cuál es el procedimiento que debemos seguir?


1. Realizar experimentos.
2. Entrenar diferentes modelos.
3. Comprobar las predicciones de cada modelo.
4. Optimizar los modelos.

¿cómo es posible realizar múltiples experimentos cuando se cuenta con un único


conjunto de datos?
Bootstrap.- es un método utilizado en estadística que sirve entre otras cosas para
determinar intervalos
de confianza. Estos se pueden aplicar a los resultados del modelo, pero también a
los parámetros que
conforman el modelo.

podemos testar en qué medida el parámetro de una de las variables del modelo es
significativo o no
para explicar el resultado.

Se debe realizar múltiples simulaciones a partir de varias muestras de los datos


disponibles.
Cada uno de los experimentos obtenidos se asocia a un parámetro distinto, lo que
permite compararlos.

Los conjuntos pequeños de datos requieren mas precision a la hora de llevar a cabo
experimentos.
Bootstrap te ayuda a generar multiples experimentos los cuales puedes usar para
cuantificar la incertidumbre
del modelo y las predicciones.

Realizamos diferentes experimentos mediante bootstrap aplicando el método de


regresión lineal a cada
uno de ellos. Obtendremos así diferentes modelos predictivos que debemos evaluar.

¿Cómo se procedería con cada uno de estos modelos creados por bootstrap?
n experimentos con n parametros cada uno

Parametros no identicos?
El modelo NO es significativo

Parametros identicos?
El modelo es significativo

5. Limitaciones de la regresión lineal


Correlación de variables
La técnica de regresión parte de la premisa de que las variables que explican el
resultado del modelo
son independientes entre sí, es decir que no están correlacionadas.

Variables virtuales
Una forma de superar esta limitación de la regresión lineal es crear una nueva
serie de datos ficticia
(que podemos denominar “variable virtual” o “variable instrumental”) que trate de
recoger la
información derivada de la correlación entre dos variables.

Podrían realizarse entonces regresiones lineales con base en las variables


originales y la nueva
variable virtual, comprobando si este nuevo modelo mejora en eficacia (por ejemplo,
el R2) al anterior.

Considera la interaccion entre atributos antes de tomar una decision de inversion.

La falta de datos
Cuando los datos de los que disponemos para construir nuestro modelo son escasos,
sus resultados
no pueden ser óptimos.

¿Qué herramienta disponemos para abordar esta limitación?


Shrinkage.

los métodos de shrinkage (contracción) nos ayudan a regularizar el modelo en casos


en los que escasean los datos.

Compensación sesgo-varianza
ningún modelo predictivo es perfecto. Los errores de predicción tienen dos
componentes básicos: el sesgo y la varianza.

Entre ambos conceptos (definidos a continuación) existe una relación inversa, por
lo que para minimizar el
error de predicción nos veremos obligados a encontrar un punto de equilibrio
óptimo.
Sesgo(bias).- mide la distancia entre el dato proyectado por el modelo y el
resultado real.
En general se asocia a modelos demasiado simples para capturar la información
subyacente de los datos;
y cuanto más simples sean, más lejos de la diana quedarán los datos proyectados.

Varianza(variance).- mide la dispersión de los datos proyectados.


Se asocia a modelos complejos. Estos pueden ser muy buenos para capturar la
información subyacente de los datos,
pero necesitan un gran número de ellos para hacer buenas predicciones, por lo que
en entornos con escasa información
pueden no ser especialmente útiles.

Para entender los conceptos de sesgo y varianza, imaginemos dos arqueros haciendo
ejercicios de tiro.
El arquero A es muy bueno agrupando sus flechas en un punto de la diana, pero no
consigue nunca acercarse al
centro de la misma; diremos que este arquero sufre de un gran sesgo, pero su
varianza es pequeña.

Por el contrario, el arquero B consigue colocar sus flechas razonablemente cerca de


la diana, pero quedan
muy dispersas alrededor del centro; diremos que B disfruta de una bajo sesgo, pero
tiene una gran varianza.

Como no podemos evitar completamente ni la varianza ni el sesgo, el objetivo es


encontrar el equilibrio adecuado
entre ambos. A esto nos referimos con la expresión compensación sesgo-varianza. En
función del volumen de datos
del que se disponga, tendremos que determinar qué complejidad de modelo
necesitamos.

6. Shrinkage
compensación sesgo-varianza apropiada. nuestro propósito es ajustar nuestro modelo
predictivo de modo que
tenga el menor margen de error posible.

El shrinkage (contracción) es un método por el que se afinan los parámetros de la


regresión original para
ajustar la compensación sesgo-varianza. Mediante el shrinkage se fuerza a los
coeficientes de regresión a
tender a cero e incluso a hacer desaparecer aquellos cuyo impacto en la predicción
es poco significativo.

La paradoja de Stein afirma que el uso de la puntuaciones medias de bateo de todo


el equipo ofrece una
estimacion mejor del rendimiento de bateo individual

6.1 Regresión de cresta


se aplica a los modelos de regresión lineal actuando sobre los parámetros
estimados.
Su utilidad es mantener la complejidad del modelo sin aumentar el sesgo.

Distinguimos dos métodos para realizar la regresión de cresta:

Restricción para los parámetros.- Consiste en ajustar los valores de los parámetros
a un rango.
Esto es, se especifica que los parámetros deben ser mayores o menores que unos
valores extremos.
El inconveniente es la falta de flexibilidad del método.

Término de penalización.- Se establece un parámetro de regularización (representado


con la letra griega λ, lambda),
que funciona como un multiplicador sobre los coeficientes de regresión.
Este parámetro funciona como un multiplicador que se aplica a los pesos.
Se debe entonces encontrar un equilibrio entre coeficientes y multiplicador, pues
no interesa que ninguno sea extremo.
Para determinar el valor ideal del multiplicador, se recurre al método de
validación cruzada.

6.2 LASSO
La segunda técnica que vamos a estudiar en el contexto del shrinkage es LASSO. Se
debe tener en cuenta que
ambas son complementarias.

A diferencia de la regresión de cresta, LASSO no solo minimiza el error cuadrático,


sino que también
minimiza la penalización aplicada al conjunto del modelo

usa parámetros de regularización sobre los coeficientes de regresión, pero fuerza


en su caso a que adopten valores cero
si no son significativos, sacando por tanto del modelo aquellas variables no
relevantes.
El impacto sobre el modelo es una reducción de la varianza.

6.3 Comparativa: regresión de cresta y LASSO


LASSO y la regresión de cresta son dos métodos de shrinkage con distintos objetivos
y formas de implementar,
aunque de uso complementario.

En el caso de la regresión de cresta, el ajuste del modelo se realiza mediante la


introducción de un parámetro de
regularización o ajuste que afecta a todos los coeficientes de regresión del modelo
en mayor o menor medida, mejorando
la capacidad de predicción del modelo.

El caso de LASSO también se introducen parámetros de regularización, pero con el


objetivo no tanto de ajustar
el modelo como de seleccionar las variables realmente relevantes para mi modelo,
llevando a cero los coeficientes
de regresión cuando se da el caso.

Si volvemos a la discusión del epígrafe 5 acerca de los conceptos de sesgo y


varianza, la regresión de cresta
actúa sobre la primera (sesgo), en tanto que LASSO lo hace sobre la segunda
(varianza).

En la práctica se suele ser utilizar primero LASSO en un conjunto pequeño de datos


para seleccionar las variables
relevantes y luego aplicar la regresión de cresta para de este modo obtener la
mejor predicción posible con el modelo.

Das könnte Ihnen auch gefallen