optimizar regresión lineal

aworker · July 20, 2021, 12:46pm

Disculpa que no te haya respondido antes. Me alegra que @iperez haya podido ayudarte en analizar los datos entre tanto. Sus comentarios me parecen muy interesantes ya que la calidad inicial y limpieza de la data es más importante que el modelo.

En complemento a lo que @iperez ya te recomendó, aquí adjunto te envío un análisis por Decision Tree que muestra que en tu caso las dos variables más informativas son el -sueldo.base- y los -años en la empresa-.

En este workflow se demuestra que limitando (regularizando) el numero mínimo de muestras por hoja del árbol, se llega a un modelo muy simple de 5 reglas basadas únicamente en el -sueldo.base- y los -años en la empresa-. Este modelo es tan bueno (sin diferencia significativa) como los otros modelos que ya probaste, ya que andan todos alrededor de un ~0.8 de Accuracy. Sin estas 2 variables, tu modelo no pasaría un 0.6 de Accuracy en el Test Set. Esta idea simple se puede mejorar evidentemente, pero la comparto tal cual para que veas que puedes poner facilmente en práctica con KNIME un modelo predictivo con reglas simples a implementar y comprender:

Con respecto a implementar una validación cruzada, evidentemente siempre será mejor, pero en tu caso, dispones de suficientes datos para ya de por si estar seguro de que el resultado que obtienes de Accuracy de aproximadamente 0.8 es fiable. Los resultados medios por validación cruzada no debieran ser significativamente diferentes.

20210720 Pikairos optimizar regresión lineal.knwf (625.5 KB)

(El workflow está reseteado pero contiene los datos al interior)

Espero que estas explicaciones te sean de ayuda.

Saludos

Ael