Mitä pandat kuvaavat () prosenttipisteiden arvot kertovat tiedoistamme?

Sanotaan, että tämä on minun tietokehykseni

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)

Kun x.describe() tämä datakehys saadaan tulos tällä tavalla

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000

Mitä tarkoitetaan 25,50- ja 75-prosenttipisteillä? Sanotaanko, että 25% x: n arvoista on alle 0,28250?

Kommentit

Olen päivittänyt vastaukseni. Olen ' iloinen, jos katsotte, koska oletan, että edellinen kuvani oli harhaanjohtava.

Vastaa

Se kuvaa tietojen jakamista. 50: n tulisi olla arvo, joka kuvaa datan ”keskiosaa”, joka tunnetaan myös mediaanina. 25, 75 on datan ylemmän / alemman neljänneksen raja. Voit saada käsityksen siitä, kuinka väärät tietosi ovat. Huomaa, että keskiarvo on suurempi kuin mediaani, mikä tarkoittaa, että tietosi ovat oikeat vinossa .

Yritä:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()

Vastaus

Ensinnäkin kuvataulukko ei näytä olevan taulukon x kuvaus.

sinun on sitten lajiteltava taulukko (x) ja laskettava sitten prosenttiosuutesi sijainti (joka .describe -menetelmässä p on 0,25, 0,5 ja 0,75),

esimerkissäsi:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]

ja elementti, joka sijaitsee 25 prosentissa, saavutetaan, kun jaamme luettelon 25: een ja 75 prosenttia, esitetty | on tässä 25%:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]

Joten arvo lasketaan muodossa 0,26 dollaria + (0,29-0,26) * \ frac {3} {4} $ , joka on yhtä suuri kuin 0,28250000000000003 $

Yleensä Prosentti antaa todelliset tiedot, jotka i sijaitsevat tietoprosentissa (epäilemättä taulukon lajittelun jälkeen)

Kommentit

Vastaa

Vastaus

Vastaa Peruuta vastaus