💝 Soutenez Datatour ! Votre don nous aide à continuer notre mission.
Logo

DataTour 2024

DataTour 2024 est la toute première édition du tournoi panafricain de data science lancé par Data Afrique Hub pour révéler ...
Inscriptions

Du 30 septembre 2024

au 21 décembre 2024

Tags
#leur #2024 #datatour #data #edition
Compétition terminée

Phase de compétition

Début

04 novembre 2024

Fin

21 décembre 2024

Gagnants

21 décembre 2024

Contexte

L’accès à une énergie fiable demeure un défi majeur en Afrique subsaharienne. De nombreuses régions dépendent encore de générateurs ou de systèmes solaires autonomes, dont la production varie fortement selon les conditions météorologiques, la demande locale et les infrastructures disponibles.

Prédire la demande énergétique de manière précise est donc crucial : cela permet aux décideurs d’optimiser la répartition des ressources, d’anticiper les besoins, et d’identifier les zones prioritaires pour de nouvelles installations solaires. En relevant ce défi, vous contribuez directement à transformer l’accès à l’électricité sur le continent !

Objectif

Développer un modèle de régression performant capable de prédire la variable cible demande_energetique_projectee.
Les équipes dont les modèles produiront les prédictions les plus précises aideront à simuler une meilleure planification des infrastructures énergétiques en Afrique.

Évaluation
  • Métrique utilisée : Root Mean Squared Error (RMSE)

  • Plus la RMSE est faible, plus le modèle est performant.

  • Le classement final sera basé sur la précision des prédictions sur les vraies valeurs, connues uniquement des organisateurs.

Format de soumission

Le fichier final doit contenir :

  • id : identifiant de chaque ligne de submission.csv

  • demande_energetique_projectee : prédiction correspondante

Exemple attendu :

id,demande_energetique_projectee
1,12345.67
2,8910.11
3,34567.89
Structure des données

Les données fournies sont réparties en trois fichiers :

  • Données d’entraînement (train.csv)

    • 150 000 lignes

    • Contient toutes les colonnes, y compris la cible demande_energetique_projectee.

    • Source : train.csv

  • Données de test (test.csv)

    • 62 500 lignes

    • Contient également la cible, afin de permettre un ajustement et une validation des modèles.

    • Source : test.csv

  • Fichier de soumission (submission.csv)

    • 25 000 lignes

    • Contient toutes les caractéristiques sauf la cible.

    • Les participants devront y prédire demande_energetique_projectee.

    • Source : submission.csv

Variables disponibles

Les données incluent un mélange de facteurs géographiques, démographiques, économiques, politiques et énergétiques, tels que :

  • country : Le pays où se situe la région.

  • lat, lon : Latitude et longitude de la région, permettant d'analyser les conditions géographiques.

  • population : Population de la région, un indicateur de la demande énergétique potentielle.

  • taux_ensoleillement : Moyenne du taux d'ensoleillement annuel, indiquant le potentiel solaire de la région.

  • demande_energetique_actuelle : La demande énergétique actuelle de la région.

  • capacite_installee_actuelle : La capacité énergétique actuelle installée dans la région.

  • duree_ensoleillement_annuel : Nombre moyen d'heures d'ensoleillement annuel, influençant le potentiel de production solaire.

  • cout_installation_solaire : Coût moyen pour installer des infrastructures solaires dans la région.

  • proximite_infrastructures_energetiques : Distance aux infrastructures énergétiques existantes, influençant l'accès à l'énergie.

  • taux_adoption_energies_renouvelables : Pourcentage de la population utilisant des énergies renouvelables.

  • stabilite_politique : Score de stabilité politique, un facteur pouvant affecter les investissements énergétiques.

  • taux_acces_energie : Pourcentage de la population ayant actuellement accès à l'énergie.

  • niveau_urbanisation : Niveau d'urbanisation de la région, lié à l'infrastructure et à la demande en énergie.

  • potentiel_investissement : Indicateur de l'intérêt potentiel pour des investissements énergétiques dans la région.

  • types_sols : Type de sol dans la région, pouvant affecter la faisabilité des infrastructures solaires.

  • emissions_co2_evitees : Estimation des émissions de CO₂ évitées grâce aux énergies renouvelables installées.

  • idh : Indice de développement humain, un facteur socio-économique influençant la demande énergétique.

  • habit_de_mariage : Tradition vestimentaire locale lors des mariages, incluse pour ajouter de la variété dans les données.

  • nombre_animaux_domestiques : Nombre moyen d'animaux domestiques par foyer, inclus pour ajouter de la variété dans les données.

La cible à prédire est :
demande_energetique_projectee – la demande énergétique estimée pour chaque région.

Partenaires