Să spunem că acesta este cadrul meu de date
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Când x.describe()
acest cadru de date obținem rezultatul ca acesta
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Ce se înțelege prin valorile 25,50 și 75 percentile? Se spune că 25% din valorile din x sunt mai mici de 0,28250?
Comentarii
- Mi-am actualizat răspunsul. ' mă voi bucura dacă aruncați o privire, deoarece presupun că ilustrația mea anterioară a fost înșelătoare.
Răspuns
Acesta descrie distribuția datelor dvs. 50 ar trebui să fie o valoare care descrie „mijlocul” datelor, cunoscut și sub denumirea de mediană. 25, 75 este marginea trimestrului superior / inferior al datelor. Puteți să vă faceți o idee despre cât de înclinate sunt datele dvs. Rețineți că media este mai mare decât mediana, ceea ce înseamnă că datele dvs. sunt corect înclinate .
Încercați:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Răspuns
Mai întâi, aparent, tabelul de descriere nu este descrierea matricei dvs. x.
apoi, trebuie să sortați matricea (x), apoi să calculați locația procentului (care în metoda .describe
p este 0,25, 0,5 și 0,75),
în exemplul dvs.:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
și elementul în care este situat în procentul 25 se realizează atunci când împărțim lista la 25 și 75 la sută, |
afișat este de 25% aici:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Deci valoarea este calculată ca 0,26 $ + (0,29-0,26) * \ frac {3} {4} $ care este egal cu 0,28250000000000003 $ $
În general Percentila vă oferă datele reale pe care le se află în acel procent din date (fără îndoială, după sortarea matricei)