Pandas describe () 백분위 수 값은 데이터에 대해 무엇을 말합니까?

내 데이터 프레임이라고 가정 해 봅시다

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

x.describe()이 데이터 프레임은 다음과 같은 결과를 얻습니다.

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

25,50 및 75 백분위 수 값은 무엇을 의미합니까? x 값의 25 %가 0.28250 미만이라는 뜻인가요?

댓글

  • 내 답변을 업데이트했습니다. ' 이전 그림이 오해의 소지가 있다고 생각했기 때문에 살펴보면 기쁩니다.

답변

데이터 분포를 설명합니다. 50은 데이터의 “중간”(중앙값이라고도 함)을 설명하는 값이어야합니다. 25, 75는 데이터의 상위 / 하위 분기 경계입니다. 데이터가 얼마나 왜곡되어 있는지 알 수 있습니다. 평균이 중앙값보다 높으므로 데이터가 비뚤어 짐 을 의미합니다.

시도 :

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

답변

먼저 설명 테이블이 배열 x에 대한 설명이 아닌 것 같습니다.

그런 다음 배열 (x)을 정렬 한 다음 백분율의 위치를 계산해야합니다 (.describe 방법에서 p는 0.25, 0.5 및 0.75 임).

예 :

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

그리고 목록을 25로 나누면 25 %에있는 요소가 달성됩니다. 75 %, 표시된 |는 여기에서 25 %입니다.

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

따라서 값은 $ 0.26 + (0.29-0.26) * \ frac {3} {4} $ ( $ 0.28250000000000003 $

)

일반적으로 백분위 수는 실제 데이터를 제공합니다. 데이터의 해당 비율에 위치합니다 (분명히 배열이 정렬 된 후)

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다