これが私のデータフレームだとしましょう
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
x.describe()
このデータフレームは次のように結果を取得します
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
25、50、および75パーセンタイル値とはどういう意味ですか? xの値の25%が0.28250未満であると言っていますか?
コメント
- 回答を更新しました。 '前の図は誤解を招くと思いますので、ご覧になっていただければ幸いです。
回答
データの分布について説明します。 50は、中央値とも呼ばれる、データの「中央値」を表す値である必要があります。 25、75は、データの上位/下位四半期の境界です。データがどの程度歪んでいるかを知ることができます。平均は中央値よりも高いことに注意してください。つまり、データは正しい歪んでいます。
試してみてください:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
回答
まず、describeテーブルは配列xの説明ではないようです。
次に、配列(x)を並べ替えてから、パーセンテージの位置を計算する必要があります(.describe
メソッドpでは0.25、0.5、0.75です)、
例:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
リストを25に分割すると、25番目のパーセンテージにある要素が達成されます。 75%、表示されている|
はここでは25%です:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
したがって、値は $ 0.26 +(0.29-0.26)* \ frac {3} {4} $ これは
に相当します
一般的にパーセンタイルは、実際のデータを提供します。 sデータのそのパーセンテージにあります(間違いなく配列がソートされた後)