Ich habe ein (2M, 23) dimensionales numpy
Array X
. Es hat einen dtype von <U26
, dh eine Unicode-Zeichenfolge mit 26 Zeichen.
array([["143347", "1325", "28.19148936", ..., "61", "0", "0"], ["50905", "0", "0", ..., "110", "0", "0"], ["143899", "1325", "28.80434783", ..., "61", "0", "0"], ..., ["85", "0", "0", ..., "1980", "0", "0"], ["233", "54", "27", ..., "-1", "0", "0"], ["���", "�", "�����", ..., "�", "��", "���"]], dtype="<U26")
Wenn ich es in a konvertiere float-Datentyp mit
X_f = X.astype(float)
Ich erhalte den Fehler wie oben gezeigt. Wie löse ich diesen Zeichenfolgenformatierungsfehler für „���“?
Ich stelle fest, dass einige Zeichen im Datenrahmen nicht richtig gelesen werden und das Unicode-Ersatzzeichen nur ein Ergebnis davon ist.
Meine Fragen: –
- Wie gehe ich mit dieser Fehlinterpretation um?
- Soll ich diese Zeichen ignorieren? Oder sollte ich sie vielleicht in Null umwandeln?
Zusätzliche Informationen zum Lesen der Daten: –
Importieren relevanter Pakete
from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.functions import col
Laden des Datensatzes in einen Pyspark-Datenrahmen
def loading_data(dataset): dataset=sql_sc.read.format("csv").options(header="true", inferSchema="true").load(dataset) # #changing column header name dataset = dataset.select(*[col(s).alias("Label") if s == " Label" else s for s in dataset.columns]) #to change datatype dataset=dataset.drop("External IP") dataset = dataset.filter(dataset.Label.isNotNull()) dataset=dataset.filter(dataset.Label!=" Label")#filter Label from label print(dataset.groupBy("Label").count().collect()) return dataset # invoking ds_path = "../final.csv" dataset=loading_data(ds_path)
Dateityp überprüfen.
type(dataset)
pyspark.sql.dataframe.DataFrame
in np konvertieren Array
import numpy as np np_dfr = np.array(data_preprocessing(dataset).collect())
Funktionen und Beschriftungen aufteilen
X = np_dfr[:,0:22] Y = np_dfr[:,-1]
show X
>> X array([["143347", "1325", "28.19148936", ..., "61", "0", "0"], ["50905", "0", "0", ..., "110", "0", "0"], ["143899", "1325", "28.80434783", ..., "61", "0", "0"], ..., ["85", "0", "0", ..., "1980", "0", "0"], ["233", "54", "27", ..., "-1", "0", "0"], ["���", "�", "�����", ..., "�", "��", "���"]], dtype="<U26")
Antwort
Obwohl dies nicht die beste Lösung ist, habe ich einige Erfolge erzielt, indem ich sie in einen Pandas-Datenrahmen konvertiert habe und mitarbeiten.
Code-Snippet
# convert X into dataframe X_pd = pd.DataFrame(data=X) # replace all instances of URC with 0 X_replace = X_pd.replace("�",0, regex=True) # convert it back to numpy array X_np = X_replace.values # set the object type as float X_fa = X_np.astype(float)
Eingabe
array([["85", "0", "0", "1980", "0", "0"], ["233", "54", "27", "-1", "0", "0"], ["���", "�", "�����", "�", "��", "���"]], dtype="<U5")
Ausgabe
array([[ 8.50e+01, 0.00e+00, 0.00e+00, 1.98e+03, 0.00e+00, 0.00e+00], [ 2.33e+02, 5.40e+01, 2.70e+01, -1.00e+00, 0.00e+00, 0.00e+00], [ 0.00e+00, 0.00e+00, 0.00e+00, 0.00e+00, 0.00e+00, 0.00e+00]])
Antwort
Versuchen wir, den Pandas-Datenrahmen zu verwenden und konvertieren Sie Zeichenfolgen in numerische Klassen
Rufen Sie die obige Funktion convert () auf, wie test = convert (test)