Digamos que este seja meu dataframe
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Quando x.describe()
neste dataframe obtemos o resultado como este
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
O que significa 25,50 e valores de percentil 75? Está dizendo que 25% dos valores em x é menor que 0,28250?
Comentários
- Eu atualizei minha resposta. Eu ' ficarei feliz se você der uma olhada, pois presumo que minha ilustração anterior era enganosa.
Resposta
Descreve a distribuição de seus dados. 50 deve ser um valor que descreve “o meio” dos dados, também conhecido como mediana. 25, 75 é a borda do quarto superior / inferior dos dados. Você pode ter uma ideia de como seus dados estão distorcidos. Observe que a média é mais alta do que a mediana, o que significa que seus dados estão corretos distorcidos .
Tente:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Resposta
Primeiro, aparentemente, a tabela de descrição não é a descrição de sua matriz x.
então, você precisa classificar sua matriz (x) e calcular a localização de sua porcentagem (que no .describe
método p é 0,25, 0,5 e 0,75),
no seu exemplo:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
e o elemento no que está localizado na porcentagem 25 é alcançado quando dividimos a lista em 25 e 75 por cento, o |
mostrado é 25% aqui:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Portanto, o valor é calculado como $ 0,26 + (0,29-0,26) * \ frac {3} {4} $ que é igual a $ 0,28250000000000003 $
Em geral O percentil fornece os dados reais que i s localizados nessa porcentagem dos dados (sem dúvida após a classificação da matriz)