Sanotaan, että tämä on minun tietokehykseni
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Kun x.describe()
tämä datakehys saadaan tulos tällä tavalla
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
Mitä tarkoitetaan 25,50- ja 75-prosenttipisteillä? Sanotaanko, että 25% x: n arvoista on alle 0,28250?
Kommentit
- Olen päivittänyt vastaukseni. Olen ' iloinen, jos katsotte, koska oletan, että edellinen kuvani oli harhaanjohtava.
Vastaa
Se kuvaa tietojen jakamista. 50: n tulisi olla arvo, joka kuvaa datan ”keskiosaa”, joka tunnetaan myös mediaanina. 25, 75 on datan ylemmän / alemman neljänneksen raja. Voit saada käsityksen siitä, kuinka väärät tietosi ovat. Huomaa, että keskiarvo on suurempi kuin mediaani, mikä tarkoittaa, että tietosi ovat oikeat vinossa .
Yritä:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Vastaus
Ensinnäkin kuvataulukko ei näytä olevan taulukon x kuvaus.
sinun on sitten lajiteltava taulukko (x) ja laskettava sitten prosenttiosuutesi sijainti (joka .describe
-menetelmässä p on 0,25, 0,5 ja 0,75),
esimerkissäsi:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
ja elementti, joka sijaitsee 25 prosentissa, saavutetaan, kun jaamme luettelon 25: een ja 75 prosenttia, esitetty |
on tässä 25%:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Joten arvo lasketaan muodossa 0,26 dollaria + (0,29-0,26) * \ frac {3} {4} $ , joka on yhtä suuri kuin 0,28250000000000003 $
Yleensä Prosentti antaa todelliset tiedot, jotka i sijaitsevat tietoprosentissa (epäilemättä taulukon lajittelun jälkeen)