Was beschreiben Pandas () Perzentilwerte über unsere Daten?

Angenommen, dies ist mein Datenrahmen

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

Wenn wir x.describe() diesen Datenrahmen erhalten wir als Ergebnis

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

Was ist mit 25,50 und 75 Perzentilwerten gemeint? Sagt es, dass 25% der Werte in x kleiner als 0,28250 sind?

Kommentare

  • Ich habe meine Antwort aktualisiert. Ich ' freue mich, wenn Sie einen Blick darauf werfen, da ich davon ausgehe, dass meine vorherige Abbildung irreführend war.

Antwort

Beschreibt die Verteilung Ihrer Daten. 50 sollte ein Wert sein, der die „Mitte“ der Daten beschreibt, auch als Median bezeichnet. 25, 75 ist die Grenze des oberen / unteren Viertels der Daten. Sie können sich ein Bild davon machen, wie schief Ihre Daten sind. Beachten Sie, dass der Mittelwert höher als der Median ist, was bedeutet, dass Ihre Daten richtig sind. schief .

Versuchen Sie:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

Antwort

Zunächst scheint die Beschreibungstabelle nicht die Beschreibung Ihres Arrays x zu sein.

Dann müssen Sie Ihr Array (x) sortieren und dann die Position Ihres Prozentsatzes berechnen (der in der .describe Methode p 0,25, 0,5 und 0,75 beträgt) / p>

in Ihrem Beispiel:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

und das Element in dem, das sich in 25 Prozent befindet, wird erreicht, wenn wir die Liste in 25 und 25 teilen 75 Prozent, die angezeigte | beträgt hier 25%:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

Der Wert wird also als $ 0.26 + (0.29-0.26) * \ frac {3} {4} $ entspricht $ 0.28250000000000003 $

Im Allgemeinen Das Perzentil gibt Ihnen die tatsächlichen Daten an, die i s befindet sich in diesem Prozentsatz der Daten (zweifellos nachdem das Array sortiert wurde)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.