Hur kan jag beräkna den fjärde kvartilen från median och IQR. I en vetenskaplig artikel har jag dessa värden:
- Medianen är 2,8 ng / ml bisfenol A och
- Interkvartilområdet, de skrev att 1,5-5,6.
Kan jag dra slutsatsen att
- den första kvartilen är 1,5
- den andra kvartilen 2.8
- och den tredje kvartil 5.6?
Om det är ok förstår jag, men jag måste räkna om för att ha fyra kvartiler. Kan du hjälpa mig?
Kommentarer
- se Ferdi ' s svar, men är du säker på att du menar fjärde kvartilen som ett nummer? Det skulle i princip vara det maximala värdet.
- Kan du klargöra vad du menar med den fjärde kvartilen? Det finns normalt bara $ q – 1 $ olika $ q $ -kvantiler (tre kvartiler, fyra kvintiler, nio deciler etc) såvida du inte ' hänvisar till intervallen som kvartilen separerar. (Om du räknar det största värdet som den fjärde kvartilen räknar du ' d också den minsta observationen som noll-th, och där ' d vara $ q + 1 $ då, inte $ 1 $.) Se andra meningen i andra stycket här och den här artikeln .
- Värden i den tredje kvartilen som en uppsättning siffror (snarare än en punkt) kan sägas vara mellan $ 2,8 $ och $ 5,6 $. På samma sätt kan värden i fjärde kvartilen sägas gå från $ 5,6 $ uppåt
Svar
Obs: I det följande svaret antar jag att du bara känner till de kvantiler du nämnde och att du inte vet något annat om fördelningen, till exempel vet du inte om distributionen är symmetrisk eller vad dess pdf eller dess (centraliserade) ögonblick är.
Det är inte möjligt att beräkna den fjärde kvartilen om du bara har medianen och IQR.
Låt oss titta på följande definitioner:
median = andra kvartilen.
IQR = tredje kvartilen $ – $ första kvartilen.
Den fjärde kvartilen finns i ingen av dessa två ekvationer. Därför är det omöjligt att beräkna det med den angivna informationen.
Här är ett exempel:
x <- c(1,2,3,4,5,6,7,8,9,10) y <- c(1,2,3,4,5,6,7,8,9,20) summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 5.50 7.75 10.00 summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 6.50 7.75 20.00
Den första kvartilen är för både ”x” och ”y” 3,25. Medianen är också 5,5 för båda. Den tredje kvartilen är 7,75 för båda och IQR är 7,75 $ – 3,25 $ = 4,5 för båda. Den fjärde kvartilen, som också är maximalt, är dock annorlunda, nämligen 10 och 20.
Du kan också titta på rutor för x och y och du kommer att se att den första kvartilen, andra kvartilen (median) och den tredje kvartilen är lika. Därför kan du inte dra någon slutsats om resten av distributionen av datapunkterna.
df <- data.frame(x,y) p <- ggplot(stack(df), aes(x = ind, y = values)) + geom_boxplot() p
Kommentarer
- Ett undantag skulle vara om distributionen är känd för vara symmetrisk. I så fall är kvartilerna IQR / 2 på vardera sidan om medianen.
- Bra poäng. Jag inkluderade det i mitt svar.
- Okej !! Jag förstår nu !! Jag har faktiskt blivit förvirrad
- Acceptera gärna ett av svaren.
Svar
@Ferdi stämmer, men jag tror att du ställer fel fråga. Jag tror att du är förvirrad eftersom ”kvartil” verkar betyda ”4 av något”. Det finns faktiskt fyra grupper. Men det betyder att det finns tre indelningar, och åtminstone i det jag har läst används inte termen 4: e kvartilen (som ett nummer) alls. Om du beräknar den 4: e kvartilen som ett tal, vill du också den 0: e kvartilen, vilket skulle vara minsta. Men jag tror inte att det är vad du vill.
Om det inte är klart, bild skär en rektangel i fyra rektanglar. Du behöver tre snitt för att göra fyra rektanglar.
Om jag felaktigt har anklagat dig för att vara förvirrad, jag ber om ursäkt, men jag har sett denna förvirring mer än en gång.
Kommentarer
- Att ' är rätt, jag är säkert förvirrad
Svar
Den första kvartilen har 25% av data under sig, andra kvartilen = median har 50% av data under sig, tredje kvartilen har 75% data under och 25% över. IQR = 3: e kvartilen – 1: a kvartilen. En fjärde kvartil skulle vara det maximala som du inte kan få från medianen och IQR. IQR och median berättar väldigt lite om fördelningen. Du kanske kan göra en uppskattning om du vet formen på fördelningen , men för många distributioner kommer svaret att vara oändligt. Jag misstänker att tredje kvartilen är vad du verkligen vill ha.Om du har IQR och median och vet distributionens form kan du kanske uppskatta den tredje kvartilen: t.ex. median plus hälften av IQR för en symmetrisk fördelning. Men många distributioner är inte symmetriska. Var också försiktig om du har fått det semi-interkvartila intervallet snarare än IQR.