Řekněme, že toto je můj datový rámec
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Když jsme x.describe()
tento datový rámec dostaneme výsledek takto
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Co je míněno 25,50 a 75 percentilovými hodnotami? Říká se, že 25% hodnot v x je méně než 0,28250?
Komentáře
- Aktualizoval jsem svou odpověď. ' Budu rád, když se podíváte, protože předpokládám, že moje předchozí ilustrace byla zavádějící.
Odpovědět
Popisuje distribuci vašich dat. 50 by měla být hodnota, která popisuje „střed“ dat, také známý jako medián. 25, 75 je hranice horní / dolní čtvrtiny dat. Můžete si udělat představu o tom, jak zkosená jsou vaše data. Průměr je vyšší než střední hodnota, což znamená, že vaše data jsou správná zkosená .
Zkuste:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Odpověď
Nejprve se zdá, že tabulka description není popisem vašeho pole x.
potom musíte roztřídit své pole (x) a poté vypočítat umístění vašeho procenta (což v .describe
metodě p je 0,25, 0,5 a 0,75),
ve vašem příkladu:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
a prvku, ve kterém je umístěn v 25. procentech, je dosaženo, když rozdělíme seznam na 25 a 75 procent, zobrazená |
je zde 25%:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Hodnota se tedy počítá jako 0,26 $ + (0,29-0,26) * \ frac {3} {4} $ což se rovná 0,28250000000000003 $
Obecně Percentil vám poskytne skutečná data, která jsou umístěny v tomto procentu dat (nepochybně po seřazení pole)