Powiedzmy, że to moja ramka danych
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Kiedy x.describe()
tę ramkę danych otrzymujemy jako wynik
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Co oznaczają wartości 25, 50 i 75 centyli? Czy oznacza to, że 25% wartości x jest mniejsze niż 0,28250?
Komentarze
- Zaktualizowałem odpowiedź. ' Z przyjemnością przyjrzysz się temu, ponieważ zakładam, że moja poprzednia ilustracja wprowadzała w błąd.
Odpowiedź
Opisuje dystrybucję danych. 50 powinna być wartością opisującą „środek” danych, znaną również jako mediana. 25, 75 to granica górnej / dolnej ćwiartki danych. Możesz dowiedzieć się, jak wypaczone są Twoje dane. Zwróć uwagę, że średnia jest wyższa niż mediana, co oznacza, że dane są prawidłowe przekrzywione .
Spróbuj:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Odpowiedź
Po pierwsze, wygląda na to, że tabela opisu nie jest opisem twojej tablicy x.
następnie musisz posortować tablicę (x), a następnie obliczyć położenie procentu (który w metodzie .describe
p wynosi 0,25, 0,5 i 0,75),
w naszym przykładzie:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
a element znajdujący się w 25. procencie jest osiągany, gdy podzielimy listę na 25 i 75 procent, pokazane |
to 25% tutaj:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Zatem wartość jest obliczana jako 0,26 USD + (0,29–0,26) * \ frac {3} {4} $ , co równa się 0,28250000000000003 USD
Ogólnie Percentyl podaje rzeczywiste dane, s znajduje się w tym procencie danych (niewątpliwie po posortowaniu tablicy)