La oss si at dette er dataframmen min
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Når vi x.describe()
denne datarammen får vi resultat som dette
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Hva menes med 25,50 og 75 persentilverdier? Sier det at 25% av verdiene i x er mindre enn 0,28250?
Kommentarer
- Jeg har oppdatert svaret mitt. Jeg ' Jeg vil være glad hvis du tar en titt siden jeg antar at min forrige illustrasjon var misvisende.
Svar
Den beskriver distribusjonen av dataene dine. 50 bør være en verdi som beskriver «midten» av dataene, også kjent som median. 25, 75 er grensen til den øvre / nedre fjerdedel av dataene. Du kan få en ide om hvor skjev dataene dine er. Merk at gjennomsnittet er høyere enn medianen, noe som betyr at dataene dine stemmer skjevt .
Prøv:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Svar
For det første er beskrivelsestabellen tilsynelatende ikke beskrivelsen for matrisen din x.
så må du sortere matrisen (x), og deretter beregne plasseringen av prosentandelen din (som i .describe
metode p er 0,25, 0,5 og 0,75),
i eksemplet ditt:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
og elementet i det som ligger i 25. prosent oppnås når vi deler listen til 25 og 75 prosent, den viste |
er 25% her:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Så verdien beregnes som $ 0,26 + (0,29-0,26) * \ frac {3} {4} $ som tilsvarer $ 0.28250000000000003 $
Generelt Percentilen gir deg de faktiske dataene som jeg s ligger i den prosentandelen av dataene (utvilsomt etter at matrisen er sortert)