내 데이터 프레임이라고 가정 해 봅시다
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
x.describe()
이 데이터 프레임은 다음과 같은 결과를 얻습니다.
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
25,50 및 75 백분위 수 값은 무엇을 의미합니까? x 값의 25 %가 0.28250 미만이라는 뜻인가요?
댓글
- 내 답변을 업데이트했습니다. ' 이전 그림이 오해의 소지가 있다고 생각했기 때문에 살펴보면 기쁩니다.
답변
데이터 분포를 설명합니다. 50은 데이터의 “중간”(중앙값이라고도 함)을 설명하는 값이어야합니다. 25, 75는 데이터의 상위 / 하위 분기 경계입니다. 데이터가 얼마나 왜곡되어 있는지 알 수 있습니다. 평균이 중앙값보다 높으므로 데이터가 비뚤어 짐 을 의미합니다.
시도 :
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
답변
먼저 설명 테이블이 배열 x에 대한 설명이 아닌 것 같습니다.
그런 다음 배열 (x)을 정렬 한 다음 백분율의 위치를 계산해야합니다 (.describe
방법에서 p는 0.25, 0.5 및 0.75 임).
예 :
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
그리고 목록을 25로 나누면 25 %에있는 요소가 달성됩니다. 75 %, 표시된 |
는 여기에서 25 %입니다.
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
따라서 값은 $ 0.26 + (0.29-0.26) * \ frac {3} {4} $ ( $ 0.28250000000000003 $
)
일반적으로 백분위 수는 실제 데이터를 제공합니다. 데이터의 해당 비율에 위치합니다 (분명히 배열이 정렬 된 후)