Teknik Esensial dalam Mengevaluasi Model Deep Learning

Membangun model Deep Learning bukan hanya tentang mendesain arsitektur saraf yang rumit, melainkan memastikan model tersebut mampu melakukan generalisasi dengan baik pada data baru. Tanpa evaluasi yang tepat, kita tidak bisa membedakan apakah model benar-benar "pintar" atau hanya sekadar "menghafal" data latihan (overfitting).

Berikut adalah pilar utama dalam mengevaluasi kinerja model Deep Learning.

1. Pembagian Data (Data Splitting)

Langkah pertama evaluasi dimulai sebelum pelatihan. Dataset harus dibagi menjadi tiga bagian agar evaluasi bersifat objektif:

Training Set (60-80%): Data yang digunakan model untuk belajar (mengupdate bobot).
Validation Set (10-20%): Digunakan selama proses pelatihan untuk menyetel hyperparameter dan memantau kinerja guna mencegah overfitting.
Test Set (10-20%): Data "murni" yang tidak pernah dilihat model sebelumnya. Ini digunakan hanya sekali di akhir untuk mensimulasikan kinerja di dunia nyata.

2. Confusion Matrix

Untuk kasus klasifikasi, akurasi saja sering kali menipu. Confusion Matrix memberikan peta detail tentang prediksi model.

Matriks ini membagi hasil prediksi menjadi empat kategori:

True Positive (TP): Prediksi positif yang benar.
True Negative (TN): Prediksi negatif yang benar.
False Positive (FP): Model memprediksi positif, padahal aslinya negatif (Kesalahan Tipe I).
False Negative (FN): Model memprediksi negatif, padahal aslinya positif (Kesalahan Tipe II).

3. Metrik Kinerja Utama

Berdasarkan Confusion Matrix, kita dapat menurunkan metrik yang lebih bermakna:

Akurasi (Accuracy): Rasio total prediksi yang benar.
$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$
Presisi (Precision): Seberapa akurat model saat memprediksi kelas positif. Penting ketika biaya kesalahan positif tinggi (misalnya: filter spam email).
$Precision = \frac{TP}{TP + FP}$
$Recall = \frac{TP}{TP + FN}$
$F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$

Evaluasi visual sangat penting dalam Deep Learning. Dengan memplot grafik Loss dan Accuracy terhadap jumlah Epoch (putaran pelatihan), kita bisa mendiagnosis kesehatan model.

Underfitting: Garis loss pelatihan dan validasi sama-sama tinggi/datar (model terlalu sederhana).
Overfitting: Garis loss pelatihan terus turun, tetapi garis loss validasi mulai naik (model menghafal data latihan tetapi gagal di data baru).
Optimal: Kedua garis menurun dan stabil berdekatan satu sama lain.

5. Area Under the Curve (AUC - ROC)

Untuk klasifikasi biner, kurva ROC (Receiver Operating Characteristic) memplot True Positive Rate melawan False Positive Rate pada berbagai ambang batas (threshold). Nilai AUC (luas area di bawah kurva) merepresentasikan kemampuan model membedakan antar kelas. Nilai 1.0 berarti sempurna, sedangkan 0.5 berarti model bekerja secara acak (seperti melempar koin).