Utiliser les librairies de qualification des données

Outils :       

menu-notebook

Pré-requis :

Importer la librairie DataScienceTools

 Capture-sparkpackage

Tutoriel :

Le but de ce package est de simplifier l’analyse et le pré-traitement des données avant d’effectuer un quelconque traitement. Pour cela, le package contient plusieurs outils se basant sur les RDD et/ou les dataFrame de Scala-Spark.

https://spark-packages.org/package/hupi-analytics/DataScienceTools

Importer le package :

Pour importer le package :

import io.hupi.datascience_tools

Détection et remplacement de valeurs aberrantes :

Ces fonctions permettent de détecter des valeurs qui semblent aberrantes, assez éloignées des autres. Une fois ces valeurs détectées, on peut les remplacer part une autre valeur comme la moyenne ou le quartile le plus proche.

Avant détection:

( 10, 12, 12, 11, 24, 32, 9, 9, 10, 12, 2)

Après détection et remplacement:

( 10, 12, 12, 11, 10.4, 10.4, 9, 9, 10, 12, 10.4)

Suivant quels paramètres on a passé, par exemple ici, que l’on recherche 3 valeurs aberrantes, on a remplacé ces valeurs par la moyenne.

Discrétisation d’une valeur quantitative :

Lorsque l’on a une variable quantitative, par exemple une plage d’années, il peut être intéressant  de discrétiser la variable en variables qualitatives. Par exemple si l’on possède la liste des années de naissances de plusieurs personnes, discrétiser la variable reviendrait à passer de :

Avant discrétisation :

( 1954, 1985, 1989, 1992, 1993, 1997)

Après discrétisation :

( [1954,50’s], [1985,80’s], [1989,80’s], [1992,90’s], [1993,90’s], [1997,90’s])

En découpant cette plage de valeurs (liste de toutes les années) en tranche de 10 ans on vient de rajouter une variable qualitative.

Analyse de corrélations :

Pour toute étude statistique, il faut analyser les corrélations entre les variables.
Pour évaluer la corrélation entre deux variables quantitatives, on peut calculer des coefficients de corrélation (Pearson, Spearman).
Ces coefficients représentent la corrélation (linéaire, non-linéaire ou autre).

Si le coefficient est compris entre :
-1 et –0.5 : corrélation forte
0.5 et 1 : corrélation forte
-0.5 et 0.5 : corrélation faible

Si l’on a une corrélation forte, alors on peut dire que les deux variables ont un lien entre elles.

Détection et correction d’erreurs de frappe :

La détection et la correction d’erreurs de frappes permet de corriger de petites erreurs lors que vous tapez un texte.

Texte avant correction :

Hupi propposes un plateforme completent

Texte après correction :

Hupi propose une plateforme complète

By | 2017-12-03T21:57:24+00:00 juin 20th, 2016|Datascience|0 Comments

Leave A Comment