Beruflich Dokumente
Kultur Dokumente
v=KRE-igv2Adg)
(Malas vacantes
1.Te piden seas todologo
2.No hacen distincion entre Ingenieria de Datos, Ciencia de Datos, ni Business
Intelligence
3.No menciona que estaras haciendo dia con dia (No tienen mapeadas bien las
responsabilidades que estaras haciendo,No pueden frasear su necesidad)
4.No es especifico sobre el problema que quieren resolver
5.El sueldo es menor a 35K
6.No piden experiencia comprobable
)
(Libros
Computer Age Statistical Inference
)
MODULO 3. Regresión
2. Regresión lineal
La regresión lineal es el modelo más simplificado de esta técnica, consistente en
establecer
relaciones entre variables a través de modelos lineales.
(también llamado variable dependiente) con una serie de datos o atributos (también
llamados variables
independientes) a través de una función lineal.
Esta función lineal asigna o pondera con pesos diferentes la contribución que cada
uno de los
atributos a la obtención de dicho output.
Una debilidad de este tipo de modelos es que el error cuadrático se incrementa con
la escala de los datos.
Precisamos por tanto de un método que nos permita entrenar nuestro modelo sin
sobreajustarlo.
Validacion cruzada
La validación cruzada (cross validation) es una técnica que permite evaluar la
eficiencia predictiva de
un modelo testando su funcionamiento independientemente de las series de datos
utilizados.
Por lo general, se escoge 5 o 10 para K.
¿En qué consiste el proceso de validación cruzada?
El proceso empieza dividiendo los datos en varias partes. Se utiliza una de esas
partes para entrenar
el modelo, evaluando sus resultados. A continuación, se realiza el mismo ejercicio
con el resto de
particiones muestrales.
4. Determinación de incertidumbre
Todo modelo de regresión parte de una hipótesis determinista: el futuro del pasado
es el futuro del futuro.
debemos ser conscientes de que un modelo predictivo nunca es más que una mera
aproximación y, por tanto,
no somos capaces de predecir con certeza absoluta los datos futuros.
podemos testar en qué medida el parámetro de una de las variables del modelo es
significativo o no
para explicar el resultado.
Los conjuntos pequeños de datos requieren mas precision a la hora de llevar a cabo
experimentos.
Bootstrap te ayuda a generar multiples experimentos los cuales puedes usar para
cuantificar la incertidumbre
del modelo y las predicciones.
¿Cómo se procedería con cada uno de estos modelos creados por bootstrap?
n experimentos con n parametros cada uno
Parametros no identicos?
El modelo NO es significativo
Parametros identicos?
El modelo es significativo
Variables virtuales
Una forma de superar esta limitación de la regresión lineal es crear una nueva
serie de datos ficticia
(que podemos denominar “variable virtual” o “variable instrumental”) que trate de
recoger la
información derivada de la correlación entre dos variables.
La falta de datos
Cuando los datos de los que disponemos para construir nuestro modelo son escasos,
sus resultados
no pueden ser óptimos.
Compensación sesgo-varianza
ningún modelo predictivo es perfecto. Los errores de predicción tienen dos
componentes básicos: el sesgo y la varianza.
Entre ambos conceptos (definidos a continuación) existe una relación inversa, por
lo que para minimizar el
error de predicción nos veremos obligados a encontrar un punto de equilibrio
óptimo.
Sesgo(bias).- mide la distancia entre el dato proyectado por el modelo y el
resultado real.
En general se asocia a modelos demasiado simples para capturar la información
subyacente de los datos;
y cuanto más simples sean, más lejos de la diana quedarán los datos proyectados.
Para entender los conceptos de sesgo y varianza, imaginemos dos arqueros haciendo
ejercicios de tiro.
El arquero A es muy bueno agrupando sus flechas en un punto de la diana, pero no
consigue nunca acercarse al
centro de la misma; diremos que este arquero sufre de un gran sesgo, pero su
varianza es pequeña.
6. Shrinkage
compensación sesgo-varianza apropiada. nuestro propósito es ajustar nuestro modelo
predictivo de modo que
tenga el menor margen de error posible.
Restricción para los parámetros.- Consiste en ajustar los valores de los parámetros
a un rango.
Esto es, se especifica que los parámetros deben ser mayores o menores que unos
valores extremos.
El inconveniente es la falta de flexibilidad del método.
6.2 LASSO
La segunda técnica que vamos a estudiar en el contexto del shrinkage es LASSO. Se
debe tener en cuenta que
ambas son complementarias.