Thursday, August 11, 2022

Data normalization before or after train-test split

 Нормализация экземпляров должна выполняться после разделения данных между обучающим и тестовым наборами с использованием только данных из обучающего набора.Это связано с тем, что тестовый набор играет роль свежих невидимых данных, поэтому он не должен быть доступен на этапе обучения. Использование любой информации, полученной из тестового набора до или во время обучения, может привести к систематической ошибке при оценке производительности.При нормализации тестового набора следует применять параметры нормализации, ранее полученные из тренировочного набора как есть. Не пересчитывайте их на тестовом наборе, потому что они будут несовместимы с моделью, и это приведет к неправильным прогнозам.

Вы должны нормализовать тренировочный набор, а затем использовать те же шаги нормализации на тестовом наборе. 

Например:

x_train, x_test, y_train, y_test = train_test_split(

    X_features, 

    Y_feature, 

    test_size=0.20,

    random_state=4)


scaler = StandardScaler()


normalized_x_train = pd.DataFrame(

    scaler.fit_transform(x_train),

    columns = x_train.columns

)

LR = LogisticRegression(

    C=0.01,

    solver='liblinear'

).fit(normalized_x_train, y_train)


normalized_x_test = pd.DataFrame(

    scaler.transform(x_test),

    columns = x_test.columns

)

y_test_pred = LR.predict(normalized_x_test)


No comments:

Post a Comment