Hvad beskriver pandaer () percentiler værdier fortæller om vores data?

Lad os sige, det er min dataframe

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

Når vi x.describe() denne dataframe får vi resultatet som dette

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

Hvad menes med 25,50 og 75 percentilværdier? Siger det, at 25% af værdierne i x er mindre end 0,28250?

Kommentarer

  • Jeg har opdateret mit svar. Jeg ' vil være glad, hvis du kigger, da jeg antager, at min tidligere illustration var vildledende.

Svar

Den beskriver fordelingen af dine data. 50 skal være en værdi, der beskriver „midten“ af dataene, også kendt som median. 25, 75 er grænsen for den øvre / nedre fjerdedel af dataene. Du kan få en idé om, hvor skæve dine data er. Bemærk, at gennemsnittet er højere end medianen, hvilket betyder, at dine data er rigtige skæv .

Prøv:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

Svar

For det første er beskrivelsestabellen tilsyneladende ikke beskrivelsen af din matrix x.

skal du sortere dit array (x) og derefter beregne placeringen af din procentdel (som i .describe metode p er 0,25, 0,5 og 0,75),

i dit eksempel:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

og elementet i det, der er placeret i 25. procent, opnås, når vi deler listen til 25 og 75 procent, den viste | er 25% her:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

Så værdien beregnes som $ 0,26 + (0,29-0,26) * \ frac {3} {4} $ hvilket svarer til $ 0,28250000000000003 $

Generelt Percentilen giver dig de faktiske data, som jeg s placeret i den procentdel af dataene (utvivlsomt efter at arrayet er sorteret)

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *