INTEGRER TOUTES LES INFORMATIONS INITIALES DANS LE TABLEAU FINAL

Bonjour,
Après avoir fait un exercice de REGRESSION.
Je voudrai réintégrer toutes les infos de départ
que j’avais écarté dans mon tableau final.
Y a t’il des erreurs ?
Que faut il faire ?
WORLD ATHLETISM 100m.knwf (36.6 KB)
course fictive.xlsx (8.5 KB)
100m MEN WORLD.xlsx (12.6 KB)

Bonjour @Brain et désolé pour ce long délai,

Voici quelques conseils que je peux vous donner sur la base de mes connaissances et de ce que j’ai compris en vérifiant votre flux de travail :

  • Vous disposez d’un ensemble de données étiquetées (100m MEN WORLD.xlsx) pour entraîner le modèle et d’un ensemble de données à prédire (course fictive.xlsx). Vous devez construire le modèle sur la base de votre ensemble de données étiqueté, puis l’appliquer à l’ensemble de données à prédire. Vous ne devez donc pas concaténer les deux ensembles de données dans la première étape.
  • Le nœud Partitioning doit être utilisé sur l’ensemble de données étiqueté pour créer un ensemble de formation et un ensemble de test. Vous entraînez votre modèle sur l’ensemble d’entraînement, puis vous le testez en appliquant le modèle entraîné à l’ensemble de test et en comparant les valeurs réelles et les valeurs prédites à l’aide de nœuds d’évaluation (ici le nœud Numeric Scorer).
  • Vous n’avez pas besoin de normalisation pour les arbres, mais si vous le souhaitez, excluez la colonne cible (ici la colonne “TIME SEC COR ALT WIN SPEED” je suppose) et ne l’appliquez pas aux variables/caractéristiques sans distance significative, même si le type de colonne est numérique.

N’hésitez pas à poser d’autres questions.

1 Like

Merci pour votre réponse.
J’ai fait un workflow avec des éléments trouvé sur Knime Hub et des explications que l’on m’a donné.
Dans ce modèle je choisis Linear Regression qui a le meilleur score.
LINEAR TREE ATHLE.knwf (66.7 KB)
100 MEN ALL BEST TIME.xlsx (251.8 KB)
Ce que je voudrai c’est appliqué ce modèle à tout mon set de donné qui comporte au départ des valeurs manquantes ( Time Mureika)
Que dois je faire
Merci

Cher @brain,
Vous avez fait un excellent travail jusqu’à présent ! J’aime le métanode où vous calculez l’âge, très bien !
Il ne vous reste plus qu’à faire la dernière étape et à appliquer le modèle sur l’ensemble de données avec “Time Mureika” manquant.
Pour cela, je vous suggère

  • Utilisez le nœud Row Splitter au lieu du “Row Filter” dans votre métanœud. Ainsi, vous avez déjà l’autre ensemble en main. Vous pouvez ajouter un nouveau port de tableau de données à votre métanode en cliquant avec le bouton droit de la souris et en sélectionnant “Métanode” > “Reconfigurer…”. De cette façon, votre Metanode aura 2 ports de sortie, l’un comme train set et l’autre avec le “Time Mureika” manquant à prédire.
  • Ensuite, vous pouvez utiliser un nouveau nœud “Regression Predictor” pour appliquer le modèle formé sur l’ensemble de données avec “Time Mureika” manquant.
  • Si vous avez des valeurs manquantes dans vos variables, les valeurs de prédiction peuvent également être manquantes. Pour gérer cela, vous pouvez utiliser le nœud Missing Value avant le nœud “Prédicteur de régression” pour gérer les valeurs manquantes.

J’espère que cela vous aidera.

1 Like

Merci pour toutes ces indications que j’ai suivi à part Missing Value que j’ajouterai.
Mon problème est le suivant.
Au départ j’avais 3770 rows : 1922 E + 1848 ?
A l’arrivée j’ai 2425 rows
Où ai je manqué quelque chose
Merci
Linear Regression vs. Regression Tree.knwf (87.8 KB)

Vous avez fait tout ce qu’il fallait. Les lignes manquantes correspondent à la rame que vous avez utilisée pour entraîner le modèle. Vous avez concaténé l’ensemble de test (à partir du nœud prédicteur) et les données avec des valeurs manquantes dans “Time Mureika” (deuxième port du métanœud) et manqué l’ensemble d’entraînement (le port supérieur du nœud de partitionnement qui va aux nœuds d’apprentissage).

2 Likes

Many thanks for your help

1 Like

This topic was automatically closed 7 days after the last reply. New replies are no longer allowed.