Predicción de tiempo (contratos)

Hola a todos!

Tengo la siguiente consulta. Tengo una data de contratos de varias empresas en una resumida. Dicha base de datos, la pre procese y elimine los registros que tuvieran al menos un “missing value”, ya que, se me pidió que ojala no se inventaran datos y no se sesgaran, por ello los datos no tiene datos faltantes, también tiene otros tratamientos que se ven en el flujo antes de poder realizar las predicciones. Estoy tratando de predecir en cuanto renunciara un empleado en base a la categoría numérica de “años en la empresa” en función del tiempo, esta le aplique un “numeric binner” en 3 periodos de tiempo en “Menor a 1 mes”, “Entre 1 a 6 meses” y “Mayor a 6 meses.”. He intentado predecir esta categoría como una clasificacion con 3 variables, probando con arboles de decisión, bosques aleatorios y redes neuronales (Keras Network Learner). He probado mayoritariamente en este ultimo cambiando numero de nodos, función activa, cambiando el numero de variables, pero no puedo tener una precisión alta, siempre es al rededor de 55%-57%. Lo que espero es obtener por lo menos entre 70%-75%, si es más mejor. Alguien tiene alguna idea de que pueda realizar para mejorar los resultados, o con estos datos es difícil? Muchas gracias.

Flujo y datos:
https://drive.google.com/drive/folders/1Tw-Auw2xkidwnVcEElG-cREGmBZlZ15N?usp=sharing

Hola @Eliseo. Gracias por preguntar en el foro. He dado una primera mirada a tu flujo/datos, has hecho un buen trabajo de preparación de datos. Necesito mirar mas en detalle pero me da la impresión de que no se puede esperar mucho de los modelos que construyas con los datos sin trabajar mas a fondo…
Las correlaciones de las variables explicativas con tu variable de interés son muy bajas:
image

la mas alta es del 9%. Esta no es una condición necesaria pues todas en conjunto pueden configurar un buen predictor. Tienes acceso a otros atributos?

Saludos,

1 Like

Hola @iperez, muchas gracias por tu respuesta.

Lamentablemente no por el momento, puede que si más adelante. ¿Entonces se podría decir que con los datos que actualmente se tienen, no logran en su conjunto ser buenos predictores?

Saludos.

Hola @Eliseo. He estado jugando algo con tus datos. No logro una buena predicción con tu variable de tres rangos de tiempo. Sin embargo, si cambias la variable con menor detalle (menos de 6 meses y mas de 6 meses), los modelos mejoran mucho, Ensayé también con los nodos de H2O y el modelo GLM muestra buenos resultados que hay que mirar en mas detalle. Espero que te sirva.

Prediccion en Fechas 3.knwf (146.7 KB)

2 Likes

Hola @iperez muchas gracias!
Agradezco mucho tu ayuda, me sirve ya que hay buenos resultados que no lograba encontrar. Cualquier cosa te comento.
Saludos.

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.