Mit mondanak a pandák () percentilis értékek az adatainkról?

Mondjuk, hogy ez az én adatkeretem

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

Amikor x.describe() ezt az adatkeretet így kapjuk meg.

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

Mit értünk 25,50 és 75 percentilis értékeken? Azt mondja, hogy az x értékek 25% -a kisebb, mint 0,28250?

Megjegyzések

  • Frissítettem a válaszomat. ' Örülök, ha megnézi, mivel feltételezem, hogy az előző ábra félrevezető volt.

Válasz

Az adatok eloszlását írja le. Az 50-nek olyan értéknek kell lennie, amely az adatok „közepét” írja le, más néven medián. A 25, 75 az adatok felső / alsó negyedének határa. Képet kaphat arról, hogy mennyire torzulnak az adatai. Ne feledje, hogy az átlag magasabb, mint a medián, ami azt jelenti, hogy az adatai igazak ferdén .

Próbálja:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

Válasz

Először látszólag a leíró táblázat nem az x tömb leírása.

akkor rendeznie kell a tömböt (x), majd kiszámítani a százalékos helyét (ami a .describe p módszerben 0,25, 0,5 és 0,75),

a példádban:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

és a 25. százalékban található elem akkor érhető el, ha felosztjuk a listát 25-re és 75 százalék, a bemutatott | itt 25%:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

Tehát az értéket 0,26 USD + (0,29-0,26) * \ frac {3} {4} $ ami egyenlő 0,28250000000000003 $

Általában A percentilis adja meg a tényleges adatokat, amelyeket i s az adatok ezen százalékában találhatók (kétségtelenül a tömb rendezése után)

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük