Tengo la siguiente consulta. Tengo una data de contratos de varias empresas en una resumida. Dicha base de datos, la pre procese y elimine los registros que tuvieran al menos un “missing value”, ya que, se me pidió que ojala no se inventaran datos y no se sesgaran, por ello los datos no tiene datos faltantes, también tiene otros tratamientos que se ven en el flujo antes de poder realizar las predicciones. Estoy tratando de predecir en cuanto renunciara un empleado en base a la categoría numérica de “años en la empresa” en función del tiempo, esta le aplique un “numeric binner” en 3 periodos de tiempo en “Menor a 1 mes”, “Entre 1 a 6 meses” y “Mayor a 6 meses.”. He intentado predecir esta categoría como una clasificacion con 3 variables, probando con arboles de decisión, bosques aleatorios y redes neuronales (Keras Network Learner). He probado mayoritariamente en este ultimo cambiando numero de nodos, función activa, cambiando el numero de variables, pero no puedo tener una precisión alta, siempre es al rededor de 55%-57%. Lo que espero es obtener por lo menos entre 70%-75%, si es más mejor. Alguien tiene alguna idea de que pueda realizar para mejorar los resultados, o con estos datos es difícil? Muchas gracias.
Hola @Eliseo. Gracias por preguntar en el foro. He dado una primera mirada a tu flujo/datos, has hecho un buen trabajo de preparación de datos. Necesito mirar mas en detalle pero me da la impresión de que no se puede esperar mucho de los modelos que construyas con los datos sin trabajar mas a fondo…
Las correlaciones de las variables explicativas con tu variable de interés son muy bajas:
la mas alta es del 9%. Esta no es una condición necesaria pues todas en conjunto pueden configurar un buen predictor. Tienes acceso a otros atributos?
Lamentablemente no por el momento, puede que si más adelante. ¿Entonces se podría decir que con los datos que actualmente se tienen, no logran en su conjunto ser buenos predictores?
Hola @Eliseo. He estado jugando algo con tus datos. No logro una buena predicción con tu variable de tres rangos de tiempo. Sin embargo, si cambias la variable con menor detalle (menos de 6 meses y mas de 6 meses), los modelos mejoran mucho, Ensayé también con los nodos de H2O y el modelo GLM muestra buenos resultados que hay que mirar en mas detalle. Espero que te sirva.
Hola @iperez muchas gracias!
Agradezco mucho tu ayuda, me sirve ya que hay buenos resultados que no lograba encontrar. Cualquier cosa te comento.
Saludos.