Disons que ceci est mon dataframe
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Quand nous x.describe()
ce dataframe nous obtenons le résultat comme ceci
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Que signifie 25,50 et 75 centiles? Est-ce que 25% des valeurs de x sont inférieures à 0,28250?
Commentaires
- Jai mis à jour ma réponse. Je ' je serai heureux si vous y jetez un œil, car je suppose que mon illustration précédente était trompeuse.
Réponse
Il décrit la distribution de vos données. 50 doit être une valeur qui décrit «le milieu» des données, également appelée médiane. 25, 75 est la bordure du quart supérieur / inférieur des données. Vous pouvez avoir une idée de la fausseté de vos données. Notez que la moyenne est supérieure à la médiane, ce qui signifie que vos données sont correctes biaisées .
Essayez:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Réponse
Premièrement, apparemment, la table de description nest pas la description de votre tableau x.
alors, vous devez trier votre tableau (x), puis calculer lemplacement de votre pourcentage (qui dans la .describe
méthode p est de 0,25, 0,5 et 0,75),
dans votre exemple:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
et lélément dans le qui est situé dans le 25e pourcentage est atteint lorsque nous divisons la liste en 25 et 75 pour cent, le |
affiché est de 25% ici:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
La valeur est donc calculée comme 0,26 $ + (0,29-0,26) * \ frac {3} {4} $ ce qui équivaut à 0,28250000000000003 $
En général Le centile vous donne les données réelles que je s situé dans ce pourcentage des données (sans aucun doute après le tri du tableau)