パンダは、パーセンタイル値がデータについて何を説明していますか?

これが私のデータフレームだとしましょう

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x) 

x.describe()このデータフレームは次のように結果を取得します

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000 

25、50、および75パーセンタイル値とはどういう意味ですか? xの値の25%が0.28250未満であると言っていますか?

コメント

  • 回答を更新しました。 '前の図は誤解を招くと思いますので、ご覧になっていただければ幸いです。

回答

データの分布について説明します。 50は、中央値とも呼ばれる、データの「中央値」を表す値である必要があります。 25、75は、データの上位/下位四半期の境界です。データがどの程度歪んでいるかを知ることができます。平均は中央値よりも高いことに注意してください。つまり、データは正しい歪んでいます

試してみてください:

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe() 

回答

まず、describeテーブルは配列xの説明ではないようです。

次に、配列(x)を並べ替えてから、パーセンテージの位置を計算する必要があります(.describeメソッドpでは0.25、0.5、0.75です)、

例:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

リストを25に分割すると、25番目のパーセンテージにある要素が達成されます。 75%、表示されている|はここでは25%です:

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95] 

したがって、値は $ 0.26 +(0.29-0.26)* \ frac {3} {4} $ これは $ 0.28250000000000003 $

に相当します

一般的にパーセンタイルは、実際のデータを提供します。 sデータのそのパーセンテージにあります(間違いなく配列がソートされた後)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です