Co pandy opisują () wartości percentyli mówią o naszych danych?

Powiedzmy, że to moja ramka danych

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

Kiedy x.describe() tę ramkę danych otrzymujemy jako wynik

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

Co oznaczają wartości 25, 50 i 75 centyli? Czy oznacza to, że 25% wartości x jest mniejsze niż 0,28250?

Komentarze

  • Zaktualizowałem odpowiedź. ' Z przyjemnością przyjrzysz się temu, ponieważ zakładam, że moja poprzednia ilustracja wprowadzała w błąd.

Odpowiedź

Opisuje dystrybucję danych. 50 powinna być wartością opisującą „środek” danych, znaną również jako mediana. 25, 75 to granica górnej / dolnej ćwiartki danych. Możesz dowiedzieć się, jak wypaczone są Twoje dane. Zwróć uwagę, że średnia jest wyższa niż mediana, co oznacza, że dane są prawidłowe przekrzywione .

Spróbuj:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

Odpowiedź

Po pierwsze, wygląda na to, że tabela opisu nie jest opisem twojej tablicy x.

następnie musisz posortować tablicę (x), a następnie obliczyć położenie procentu (który w metodzie .describe p wynosi 0,25, 0,5 i 0,75),

w naszym przykładzie:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

a element znajdujący się w 25. procencie jest osiągany, gdy podzielimy listę na 25 i 75 procent, pokazane | to 25% tutaj:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

Zatem wartość jest obliczana jako 0,26 USD + (0,29–0,26) * \ frac {3} {4} $ , co równa się 0,28250000000000003 USD

Ogólnie Percentyl podaje rzeczywiste dane, s znajduje się w tym procencie danych (niewątpliwie po posortowaniu tablicy)

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *