Co pandy popisují () hodnoty percentilů vypovídají o našich datech?

Řekněme, že toto je můj datový rámec

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

Když jsme x.describe() tento datový rámec dostaneme výsledek takto

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

Co je míněno 25,50 a 75 percentilovými hodnotami? Říká se, že 25% hodnot v x je méně než 0,28250?

Komentáře

  • Aktualizoval jsem svou odpověď. ' Budu rád, když se podíváte, protože předpokládám, že moje předchozí ilustrace byla zavádějící.

Odpovědět

Popisuje distribuci vašich dat. 50 by měla být hodnota, která popisuje „střed“ dat, také známý jako medián. 25, 75 je hranice horní / dolní čtvrtiny dat. Můžete si udělat představu o tom, jak zkosená jsou vaše data. Průměr je vyšší než střední hodnota, což znamená, že vaše data jsou správná zkosená .

Zkuste:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

Odpověď

Nejprve se zdá, že tabulka description není popisem vašeho pole x.

potom musíte roztřídit své pole (x) a poté vypočítat umístění vašeho procenta (což v .describe metodě p je 0,25, 0,5 a 0,75),

ve vašem příkladu:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

a prvku, ve kterém je umístěn v 25. procentech, je dosaženo, když rozdělíme seznam na 25 a 75 procent, zobrazená | je zde 25%:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

Hodnota se tedy počítá jako 0,26 $ + (0,29-0,26) * \ frac {3} {4} $ což se rovná 0,28250000000000003 $

Obecně Percentil vám poskytne skutečná data, která jsou umístěny v tomto procentu dat (nepochybně po seřazení pole)

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *