Digamos que este es mi marco de datos
x=[0.09, 0.95, 0.93, 0.93, 0.34, 0.29, 0.14, 0.23, 0.91, 0.31, 0.62, 0.29, 0.71, 0.26, 0.79, 0.3 , 0.1 , 0.73, 0.63, 0.61] x=pd.DataFrame(x)
Cuando x.describe()
este marco de datos obtenemos el resultado como este
>>> x.describe() 0 count 20.000000 mean 0.50800 std 0.30277 min 0.09000 25% 0.28250 50% 0.47500 75% 0.74500 max 0.95000
¿Qué se entiende por valores de percentil 25,50 y 75? ¿Está diciendo que el 25% de los valores en x es menor que 0.28250?
Comentarios
- He actualizado mi respuesta. ' me alegrará que eche un vistazo, ya que supongo que mi ilustración anterior era engañosa.
Respuesta
Describe la distribución de sus datos. 50 debe ser un valor que describa «la mitad» de los datos, también conocido como mediana. 25, 75 es el borde del cuarto superior / inferior de los datos. Puede tener una idea de cuán sesgados son sus datos. Tenga en cuenta que la media es más alta que la mediana, lo que significa que sus datos son correctos sesgados .
Pruebe:
import pandas as pd x=[1,2,3,4,5] x=pd.DataFrame(x) x.describe()
Respuesta
Primero, aparentemente, la tabla de descripción no es la descripción de su matriz x.
luego, debe ordenar su matriz (x), luego calcular la ubicación de su porcentaje (que en el .describe
método p es 0.25, 0.5 y 0.75),
en su ejemplo:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26, 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
y el elemento en el que se encuentra en el porcentaje 25 se logra cuando dividimos la lista en 25 y 75 por ciento, el |
mostrado es 25% aquí:
sorted_x = [0.09, 0.1 , 0.14, 0.23, 0.26,**|** 0.29, 0.29, 0.3 , 0.31, 0.34, 0.61, 0.62, 0.63, 0.71, 0.73, 0.79, 0.91, 0.93, 0.93, 0.95]
Por lo tanto, el valor se calcula como $ 0.26 + (0.29-0.26) * \ frac {3} {4} $ que es igual a $ 0.28250000000000003 $
En general El percentil le da los datos reales que s ubicados en ese porcentaje de los datos (indudablemente después de ordenar la matriz)