Mondjuk, hogy ez az én adatkeretem
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Amikor x.describe()
ezt az adatkeretet így kapjuk meg.
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Mit értünk 25,50 és 75 percentilis értékeken? Azt mondja, hogy az x értékek 25% -a kisebb, mint 0,28250?
Megjegyzések
- Frissítettem a válaszomat. ' Örülök, ha megnézi, mivel feltételezem, hogy az előző ábra félrevezető volt.
Válasz
Az adatok eloszlását írja le. Az 50-nek olyan értéknek kell lennie, amely az adatok „közepét” írja le, más néven medián. A 25, 75 az adatok felső / alsó negyedének határa. Képet kaphat arról, hogy mennyire torzulnak az adatai. Ne feledje, hogy az átlag magasabb, mint a medián, ami azt jelenti, hogy az adatai igazak ferdén .
Próbálja:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Válasz
Először látszólag a leíró táblázat nem az x tömb leírása.
akkor rendeznie kell a tömböt (x), majd kiszámítani a százalékos helyét (ami a .describe
p módszerben 0,25, 0,5 és 0,75),
a példádban:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
és a 25. százalékban található elem akkor érhető el, ha felosztjuk a listát 25-re és 75 százalék, a bemutatott |
itt 25%:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Tehát az értéket 0,26 USD + (0,29-0,26) * \ frac {3} {4} $ ami egyenlő 0,28250000000000003 $
Általában A percentilis adja meg a tényleges adatokat, amelyeket i s az adatok ezen százalékában találhatók (kétségtelenül a tömb rendezése után)