Algoritma Klasifikasi dalam Machine Learning

  • Post
    Algoritma Klasifikasi dalam Machine Learning

    Seperti yang kita ketahui, algoritma Supervised Machine Learning dapat diklasifikasikan secara luas menjadi Algoritma Regresi dan Klasifikasi. Dalam algoritma Regresi, kita telah memprediksikan keluaran untuk nilai kontinu, tetapi untuk memprediksi nilai kategorikal, kita membutuhkan algoritma Klasifikasi.

    Apa itu Algoritma Klasifikasi?

    Algoritma Klasifikasi adalah teknik Supervised Learning yang digunakan untuk mengidentifikasi kategori observasi baru berdasarkan data latih. Dalam Klasifikasi, program belajar dari dataset atau observasi yang diberikan dan kemudian mengklasifikasikan observasi baru ke dalam sejumlah kelas atau kelompok. Seperti, Ya atau Tidak, 0 atau 1, Spam atau Bukan Spam, kucing atau anjing, dll. Kelas dapat disebut sebagai target / label atau kategori.

    Berbeda dengan regresi, variabel keluaran Klasifikasi adalah kategori, bukan nilai, seperti “Hijau atau Biru”, “buah atau binatang”, dll. Karena algoritma Klasifikasi merupakan teknik pembelajaran Terbimbing, maka dibutuhkan data masukan berlabel, yang mana artinya berisi masukan dengan keluaran yang sesuai.

    Dalam algoritma klasifikasi, fungsi keluaran diskrit (y) dipetakan ke variabel masukan (x).

    1. y = f (x), di mana y = keluaran kategorikal

    Contoh terbaik dari algoritme klasifikasi ML adalah Detektor Spam Email .

    Tujuan utama dari algoritma Klasifikasi adalah untuk mengidentifikasi kategori dari dataset yang diberikan, dan algoritma ini terutama digunakan untuk memprediksi keluaran dari data kategorikal.

    Algoritma klasifikasi dapat lebih dipahami dengan menggunakan diagram di bawah ini. Pada diagram di bawah ini, terdapat dua kelas, kelas A dan Kelas B. Kelas-kelas ini memiliki fitur yang mirip satu sama lain dan berbeda dengan kelas lainnya.

     

    Algoritma yang mengimplementasikan klasifikasi pada dataset dikenal sebagai pengklasifikasi. Ada dua jenis Klasifikasi:

    • Pengklasifikasi Biner: Jika masalah klasifikasi hanya memiliki dua kemungkinan hasil, maka ini disebut sebagai Pengklasifikasi Biner.
      Contoh: YA atau TIDAK, LAKI-LAKI atau WANITA, SPAM atau BUKAN SPAM, KUCING atau ANJING, dll.
    • Multi-class Classifier: Jika masalah klasifikasi memiliki lebih dari dua hasil, maka itu disebut Multi-class Classifier.
      Contoh: Klasifikasi jenis tanaman, Klasifikasi jenis musik.

    Peserta didik dalam Masalah Klasifikasi:

    Dalam soal klasifikasi, ada dua jenis peserta didik:

    1. Pelajar Malas: Pelajar Malas menyimpan terlebih dahulu set data pelatihan dan menunggu hingga ia menerima set data pengujian. Dalam kasus Malas pelajar, klasifikasi dilakukan atas dasar data paling terkait yang disimpan dalam set data pelatihan. Dibutuhkan lebih sedikit waktu dalam pelatihan tetapi lebih banyak waktu untuk prediksi.
      Contoh: Algoritma K-NN, Penalaran berbasis kasus
    2. Eager Learners: Eager Learners mengembangkan model klasifikasi berdasarkan set data pelatihan sebelum menerima set data percobaan. Berlawanan dengan pelajar Malas, pelajar yang bersemangat membutuhkan lebih sedikit waktu dalam pelatihan dan lebih banyak waktu dalam prediksi. Contoh: Decision Trees, Naïve Bayes, ANN.

    Jenis Algoritma Klasifikasi ML:

    Algoritma Klasifikasi dapat dibagi lagi menjadi dua kategori Utama:

    • Model Linear
      • Regresi logistik
      • Mendukung Mesin Vektor
    • Model Non-linier
      • K-Tetangga Terdekat
      • Kernel SVM
      • Naïve Bayes
      • Klasifikasi Pohon Keputusan
      • Klasifikasi Hutan Acak

    Catatan: Kita akan mempelajari algoritma di atas di bab-bab selanjutnya.

    Mengevaluasi model Klasifikasi:

    Setelah model kami selesai, perlu untuk mengevaluasi kinerjanya; baik itu model Klasifikasi atau Regresi. Jadi untuk mengevaluasi model Klasifikasi, kami memiliki cara berikut:

    1. Kerugian Log atau Kerugian Lintas Entropi:
    • Ini digunakan untuk mengevaluasi kinerja pengklasifikasi, yang outputnya adalah nilai probabilitas antara 0 dan 1.
    • Untuk model Klasifikasi biner yang baik, nilai kehilangan log harus mendekati 0.
    • Nilai kerugian log meningkat jika nilai prediksi menyimpang dari nilai sebenarnya.
    • Kehilangan log yang lebih rendah menunjukkan akurasi model yang lebih tinggi.
    • Untuk klasifikasi Biner, entropi silang dapat dihitung sebagai:
    1. ? (ylog (p) + ( 1 ? y) log ( 1 ? p))

    Dimana y = Output aktual, p = output yang diprediksi.

    1. Matriks Kebingungan:
    • Matriks konfusi memberi kita matriks / tabel sebagai keluaran dan menggambarkan kinerja model.
    • Ini juga dikenal sebagai matriks kesalahan.
    • Matriks terdiri dari hasil prediksi dalam bentuk ringkasan, yang memiliki jumlah total prediksi benar dan prediksi salah. Matriksnya terlihat seperti tabel di bawah ini:
    Positif AktualNegatif Aktual
    Diprediksi PositifBenar PositifPositif Palsu
    Prediksi NegatifNegatif PalsuBenar Negatif
    1. Kurva AUC-ROC:
    • Kurva KOP adalah singkatan dari Kurva Karakteristik Operasi Penerima dan AUC adalah singkatan dari Area Under the Curve .
    • Ini adalah grafik yang menunjukkan kinerja model klasifikasi pada ambang batas yang berbeda.
    • Untuk memvisualisasikan kinerja model klasifikasi kelas jamak, kami menggunakan Kurva AUC-ROC.
    • Kurva KOP diplot dengan TPR dan FPR, di mana TPR (True Positive Rate) pada sumbu Y dan FPR (False Positive Rate) pada sumbu X.

    Gunakan kasus Algoritma Klasifikasi

    Algoritme klasifikasi dapat digunakan di berbagai tempat. Berikut adalah beberapa kasus penggunaan populer dari Algoritma Klasifikasi:

    • Deteksi Spam Email
    • Pengenalan suara
    • Identifikasi sel tumor kanker.
    • Klasifikasi Obat
    • Identifikasi Biometrik, dll.

     

     

     

    credit. javatpoint

Tagged: 

  • You must be logged in to reply to this topic.