Låt oss säga att detta är min dataram
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
När vi x.describe()
denna datafram får vi resultat som detta
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Vad menas med 25,50 och 75 percentilvärden? Siger det att 25% av värdena i x är mindre än 0,28250?
Kommentarer
- Jag har uppdaterat mitt svar. Jag ' kommer att vara glad om du tittar eftersom jag antar att min tidigare illustration var vilseledande.
Svar
Den beskriver distributionen av dina data. 50 bör vara ett värde som beskriver ”mitten” av data, även känd som median. 25, 75 är gränsen för den övre / nedre fjärdedelen av data. Du kan få en uppfattning om hur sned dina data är. Observera att medelvärdet är högre än medianen, vilket betyder att dina data är rätt skev .
Försök:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Svar
Först och främst är beskrivningstabellen inte beskrivningen för din array x.
måste du sortera din matris (x) och sedan beräkna platsen för din procentsats (som i .describe
metod p är 0,25, 0,5 och 0,75),
i ditt exempel:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
och elementet i det som ligger i 25 procent uppnås när vi delar listan till 25 och 75 procent, det visade |
är 25% här:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Så värdet beräknas som $ 0,26 + (0,29-0,26) * \ frac {3} {4} $ vilket motsvarar $ 0.28250000000000003 $
Generellt Procentilen ger dig de faktiska data som jag s ligger i den procentandelen av data (utan tvekan efter att matrisen har sorterats)