Statistiques exploratoires
Analyse descriptive des variables numériques
En datascience, avant de commencer le processing et la modélisation des données, il est très important de se familiariser avec le jeu de données. Pour cela, l'analyse descriptive des variables numériques au travers d'indicateurs simples apparaît comme essentielle et permet de faire une première bonne exploration. On peut distinguer deux familles : les indicateurs de position et les indicateurs de dispersion.
Les indicateurs de position
Il existe certaines statistiques descriptives simples à calculer qui permettent d'obtenir une meilleure compréhension des données quantitatives. C'est ce qu'on appelle les indicateurs de position. Ils sont au nombre de cinq : moyenne, médiane, quantiles, min, max.
# Filtrer les colonnes numériques et calculer les statistiques descriptives
numeric_df = df.select_dtypes(include=['number'])
# Calcul des statistiques descriptives pour chaque colonne
stats = pd.DataFrame(numeric_df.mean(), columns=['moyenne'])
stats['median'] = numeric_df.median()
stats['delta (moyenne - median)'] = abs(stats['moyenne'] - stats['median'])
stats[['q1', 'q2', 'q3']] = numeric_df.quantile(q=[0.25, 0.5, 0.75]).transpose()
stats['min'] = numeric_df.min()
stats['max'] = numeric_df.max()
stats['delta (max - min)'] = stats['max'] - stats['min']
moyenne | median | delta (moyenne - median) | q1 | q2 | q3 | min | max | delta (max - min) | |
---|---|---|---|---|---|---|---|---|---|
Age | 40.29 | 40.00 | 0.29 | 29.00 | 40.00 | 52.00 | 9.0 | 69.00 | 60.00 |
Sleep duration | 7.47 | 7.50 | 0.03 | 7.00 | 7.50 | 8.00 | 5.0 | 10.00 | 5.00 |
Sleep efficiency | 0.79 | 0.82 | 0.03 | 0.70 | 0.82 | 0.90 | 0.5 | 0.99 | 0.49 |
REM sleep percentage | 23.00 | 22.00 | 1.00 | 20.00 | 22.00 | 27.00 | 15.0 | 30.00 | 15.00 |
Deep sleep percentage | 52.96 | 60.00 | 7.04 | 51.25 | 60.00 | 63.00 | 20.0 | 75.00 | 55.00 |
Light sleep percentage | 24.83 | 18.00 | 6.83 | 15.00 | 18.00 | 27.25 | 7.0 | 56.00 | 49.00 |
Awakenings | 1.64 | 1.00 | 0.64 | 1.00 | 1.00 | 3.00 | 0.0 | 4.00 | 4.00 |
Caffeine consumption | 23.65 | 25.00 | 1.35 | 0.00 | 25.00 | 50.00 | 0.0 | 200.00 | 200.00 |
Alcohol consumption | 1.25 | 0.00 | 1.25 | 0.00 | 0.00 | 2.00 | 0.0 | 5.00 | 5.00 |
Exercise frequency | 1.79 | 2.00 | 0.21 | 0.00 | 2.00 | 3.00 | 0.0 | 5.00 | 5.00 |
Pour donner une interprétation de ces variables, il faut bien avoir en tête les ordres de grandeur de chaque variable. Dans ce cas, on constate à que la médiane et la moyenne sont systématiquement très proches. Cela nous renseigne sur l'homogénéité des variables de ce jeu de données.
Pour confirmer cette analyse, il est nécessaire de regarder les quantiles de chaque variable. q1, q2 et q3 ne sont pas très éloignés ce qui confirme l'homogénéité des valeurs.
On peut compléter cette analyse en s'intéressant au minimum et maximum de chaque variable. La différence donnera une idée de l'étendue sur laquelle se répartissent les valeurs. Les données de chaque variable sont étalées sur de petite plage de valeurs (hormis pour l'âge) ce qui accrédite l'idée d'une homogénéité des valeurs.
Les indicateurs de dispersion
Deux derniers indicateurs permettent d'avoir un bon aperçu : la variance et l'écart-type. Ils font partie de la famille des indicateurs de dispersion.
- La variance mesure la dispersion autour de la moyenne, c'est à dire à quel point les valeurs présentes dans une liste numérique sont écartées de la moyenne.
- L'écart type, quant à lui, se définit mathématiquement comme la racine carrée de la variance.