パンダは、パーセンタイル値がデータについて何を説明していますか？

これが私のデータフレームだとしましょう

x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)

x.describe()このデータフレームは次のように結果を取得します

>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000

25、50、および75パーセンタイル値とはどういう意味ですか？ xの値の25％が0.28250未満であると言っていますか？

回答

データの分布について説明します。 50は、中央値とも呼ばれる、データの「中央値」を表す値である必要があります。 25、75は、データの上位/下位四半期の境界です。データがどの程度歪んでいるかを知ることができます。平均は中央値よりも高いことに注意してください。つまり、データは正しい歪んでいます。

試してみてください：

import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()

まず、describeテーブルは配列xの説明ではないようです。

次に、配列（x）を並べ替えてから、パーセンテージの位置を計算する必要があります（.describeメソッドpでは0.25、0.5、0.75です）、

例：

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]

リストを25に分割すると、25番目のパーセンテージにある要素が達成されます。 75％、表示されている|はここでは25％です：

sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]

したがって、値は $ 0.26 +（0.29-0.26）* \ frac {3} {4} $ これは $ 0.28250000000000003 $

に相当します

一般的にパーセンタイルは、実際のデータを提供します。 sデータのそのパーセンテージにあります（間違いなく配列がソートされた後）