Preprocessing Data: Langkah Wajib Sebelum Data Mining

Mengapa Preprocessing Penting?

Data mentah jarang siap digunakan langsung. Preprocessing adalah tahap kritis untuk membersihkan dan menyiapkan data agar algoritma data mining dapat bekerja optimal. Data yang buruk = hasil yang buruk (Garbage In, Garbage Out).

1. Handling Missing Values

Data yang hilang harus ditangani sebelum pemodelan:

Deletion: Hapus baris/kolom dengan missing value (jika jumlahnya sedikit).
Imputation: Isi dengan mean, median, modus, atau nilai prediksi.

import pandas as pd from sklearn.impute import SimpleImputer # Cek missing value print(df.isnull().sum()) # Isi dengan mean untuk numerik imputer = SimpleImputer(strategy='mean') df['kolom'] = imputer.fit_transform(df[['kolom']])

2. Normalisasi dan Standarisasi

Menyamakan skala data agar tidak ada fitur yang mendominasi:

Min-Max Scaling: Mengubah range data ke 0-1.
Standard Scaler (Z-Score): Mean=0, Std=1.

from sklearn.preprocessing import MinMaxScaler, StandardScaler # Min-Max Scaling scaler = MinMaxScaler() X_normalized = scaler.fit_transform(X) # Standarisasi scaler = StandardScaler() X_standardized = scaler.fit_transform(X)

3. Encoding Kategorikal

Mengubah data kategorikal menjadi numerik:

Label Encoding: Untuk ordinal (Rendah=0, Sedang=1, Tinggi=2).
One-Hot Encoding: Untuk nominal (membuat kolom dummy).

4. Feature Selection

Memilih fitur yang paling relevan untuk model:

Correlation Analysis: Hapus fitur yang berkorelasi tinggi.
Information Gain / Chi-Square: Untuk klasifikasi.
Recursive Feature Elimination (RFE): Otomatis memilih fitur terbaik.

Tips Preprocessing untuk Skripsi

Dokumentasikan setiap langkah preprocessing dengan baik di BAB III metodologi. Penguji sering bertanya tentang alasan pemilihan teknik preprocessing tertentu.

Mengapa Preprocessing Penting?

1. Handling Missing Values

2. Normalisasi dan Standarisasi

3. Encoding Kategorikal

4. Feature Selection

Tips Preprocessing untuk Skripsi

Bagikan Artikel:

Artikel Terkait

Perbandingan Metode SPK: AHP vs SAW vs TOPSIS vs …

Metode Weighted Product (WP): Alternatif SAW deng…

Metode TOPSIS: Teknik Pengurutan Berdasarkan Kede…