Wat vertellen pandas () percentielwaarden over onze gegevens?

Stel dat dit mijn dataframe is

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

Wanneer we x.describe() dit dataframe krijgen we het resultaat als dit

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

Wat wordt bedoeld met 25,50 en 75 percentielwaarden? Staat er dat 25% van de waarden in x kleiner is dan 0.28250?

Opmerkingen

  • Ik heb mijn antwoord bijgewerkt. Ik ' Ik ben blij als je een kijkje neemt, aangezien ik aanneem dat mijn vorige illustratie misleidend was.

Antwoord

Het beschrijft de distributie van uw gegevens. 50 zou een waarde moeten zijn die “het midden” van de gegevens beschrijft, ook wel mediaan genoemd. 25, 75 is de grens van het bovenste / onderste kwart van de gegevens. U kunt een idee krijgen van hoe scheef uw gegevens zijn. Houd er rekening mee dat het gemiddelde hoger is dan de mediaan, wat betekent dat uw gegevens juist zijn scheef .

Probeer:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

Antwoord

Ten eerste is de beschrijf-tabel schijnbaar niet de beschrijving van je array x.

dan moet u uw array (x) sorteren en vervolgens de locatie van uw percentage berekenen (dat in .describe methode p 0,25, 0,5 en 0,75 is),

in uw voorbeeld:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

en het element dat zich in het 25e percentage bevindt, wordt bereikt wanneer we de lijst verdelen in 25 en 75 procent, de weergegeven | is hier 25%:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

Dus de waarde wordt berekend als $ 0,26 + (0,29-0,26) * \ frac {3} {4} $ wat gelijk is aan $ 0,28250000000000003 $

In het algemeen Het percentiel geeft u de feitelijke gegevens die ik s in dat percentage van de gegevens (ongetwijfeld nadat de array is gesorteerd)

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *