Regresi Linier dalam Pembelajaran Mesin

CODEORAYO COMMUNITY General Artificial intelligence Regresi Linier dalam Pembelajaran Mesin

  • Post
    Regresi Linier dalam Pembelajaran Mesin

    Regresi linier adalah salah satu algoritma Pembelajaran Mesin termudah dan terpopuler. Ini adalah metode statistik yang digunakan untuk analisis prediktif. Regresi linier membuat prediksi untuk variabel kontinu / nyata atau numerik seperti penjualan, gaji, usia, harga produk, dll.

    Algoritma regresi linier menunjukkan hubungan linier antara variabel dependen (y) dan satu atau lebih variabel independen (y), oleh karena itu disebut regresi linier. Karena regresi linier menunjukkan hubungan linier, artinya menemukan bagaimana nilai variabel dependen berubah sesuai dengan nilai variabel independen.

    Model regresi linier memberikan garis lurus miring yang merepresentasikan hubungan antar variabel.

     

    Secara matematis, kita dapat merepresentasikan regresi linier sebagai:

    y = a 0 + a 1 x + ε

    Sini,

    Y = Variabel Dependen (Variabel Target)
    X = Variabel Independen (Variabel prediktor)
    a0 = intersep garis (Memberi tambahan derajat kebebasan)
    a1 = Koefisien regresi linier (faktor skala untuk setiap nilai input).
    ε = kesalahan acak

    Nilai variabel x dan y merupakan dataset training untuk representasi model Regresi Linier.

    Jenis-jenis Regresi Linier

    Regresi linier selanjutnya dapat dibagi menjadi dua jenis algoritma:

    • Regresi Linier Sederhana:
      Jika satu variabel bebas digunakan untuk memprediksi nilai variabel terikat numerik, maka algoritma Regresi Linier seperti itu disebut Regresi Linier Sederhana.
    • Regresi Linear Berganda:
      Jika lebih dari satu variabel independen digunakan untuk memprediksi nilai variabel dependen numerik, maka algoritma Regresi Linier seperti itu disebut Regresi Linier Berganda.

    Garis Regresi Linier

    Garis linear yang menunjukkan hubungan antara variabel dependen dan independen disebut garis regresi . Garis regresi dapat menunjukkan dua jenis hubungan:

    • Hubungan Linear Positif:
      Jika variabel dependen meningkat pada sumbu Y dan variabel independen meningkat pada sumbu X, maka hubungan seperti itu disebut sebagai hubungan linier Positif.

     

    • Hubungan Linear Negatif:
      Jika variabel dependen menurun pada sumbu Y dan variabel independen meningkat pada sumbu X, maka hubungan seperti itu disebut hubungan linier negatif.

     

    Menemukan garis yang paling cocok:

    Saat bekerja dengan regresi linier, tujuan utama kami adalah menemukan garis yang paling sesuai yang berarti kesalahan antara nilai yang diprediksi dan nilai aktual harus diminimalkan. Garis yang paling cocok akan memiliki kesalahan paling sedikit.

    Nilai yang berbeda untuk bobot atau koefisien garis (a 0 , a 1 ) memberikan garis regresi yang berbeda, jadi kita perlu menghitung nilai terbaik untuk a 0 dan 1 untuk menemukan garis yang paling cocok, jadi untuk menghitung ini kita menggunakan fungsi biaya.

    Fungsi biaya-

    • Nilai yang berbeda untuk bobot atau koefisien garis (a 0 , a 1 ) memberikan garis regresi yang berbeda, dan fungsi biaya digunakan untuk memperkirakan nilai koefisien untuk garis yang paling sesuai.
    • Fungsi biaya mengoptimalkan koefisien atau bobot regresi. Ini mengukur bagaimana model regresi linier berkinerja.
    • Kita dapat menggunakan fungsi biaya untuk menemukan keakuratan fungsi pemetaan , yang memetakan variabel input ke variabel output. Fungsi pemetaan ini juga dikenal sebagai fungsi Hipotesis .

    Untuk Regresi Linier, kami menggunakan fungsi biaya Mean Squared Error (MSE) , yaitu rata-rata kesalahan kuadrat yang terjadi antara nilai prediksi dan nilai aktual.

    Residual: Jarak antara nilai aktual dan nilai prediksi disebut residual. Jika titik yang diamati jauh dari garis regresi, maka residunya akan tinggi, sehingga fungsi biaya akan tinggi. Jika titik pencar dekat dengan garis regresi, maka residunya akan kecil dan karenanya berfungsi sebagai biaya.

    Penurunan Gradien:

    • Penurunan gradien digunakan untuk meminimalkan MSE dengan menghitung gradien fungsi biaya.
    • Model regresi menggunakan penurunan gradien untuk memperbarui koefisien garis dengan mengurangi fungsi biaya.
    • Ini dilakukan dengan pemilihan nilai koefisien secara acak dan kemudian secara berulang memperbarui nilai untuk mencapai fungsi biaya minimum.

    Kinerja Model:

    The Goodness of fit menentukan bagaimana garis regresi cocok dengan kumpulan pengamatan. Proses menemukan model terbaik dari berbagai model disebut optimasi . Itu dapat dicapai dengan metode di bawah ini:

    1. Metode R-kuadrat:
    • R-squared adalah metode statistik yang menentukan goodness of fit.
    • Ini mengukur kekuatan hubungan antara variabel dependen dan independen pada skala 0-100%.
    • Nilai tinggi R-square menentukan semakin sedikit perbedaan antara nilai prediksi dan nilai aktual dan karenanya mewakili model yang baik.
    • Ini juga disebut koefisien determinasi, atau koefisien determinasi berganda untuk regresi berganda.
    • Itu dapat dihitung dari rumus di bawah ini:

    Asumsi Regresi Linier

    Di bawah ini adalah beberapa asumsi penting dari Regresi Linier. Ini adalah beberapa pemeriksaan formal saat membangun model Regresi Linier, yang memastikan untuk mendapatkan hasil terbaik dari kumpulan data yang diberikan.

    • Hubungan linier antara fitur dan target:
      Regresi linier mengasumsikan hubungan linier antara variabel dependen dan independen.
    • Kecil atau tidak ada multikolinieritas antar fitur:
      Multikolinieritas berarti korelasi yang tinggi antara variabel independen. Karena multikolinieritas, mungkin sulit untuk menemukan hubungan yang sebenarnya antara variabel prediktor dan target. Atau bisa dikatakan, sulit untuk menentukan variabel prediktor mana yang mempengaruhi variabel target dan mana yang tidak. Jadi, model mengasumsikan sedikit atau tidak ada multikolinearitas antara fitur atau variabel independen.
    • Asumsi Homoskedastisitas:
      Homoskedastisitas adalah situasi di mana istilah kesalahannya sama untuk semua nilai variabel independen. Dengan adanya homoskedastisitas, seharusnya tidak ada pola sebaran data yang jelas di dalam scatter plot.
    • Distribusi normal istilah kesalahan:
      Regresi linier mengasumsikan bahwa istilah kesalahan harus mengikuti pola distribusi normal. Jika suku kesalahan tidak terdistribusi normal, maka interval kepercayaan akan menjadi terlalu lebar atau terlalu sempit, yang dapat menyebabkan kesulitan dalam mencari koefisien.
      Itu dapat diperiksa menggunakan plot qq . Jika plot menunjukkan garis lurus tanpa ada penyimpangan, artinya error berdistribusi normal.
    • Tidak ada autokorelasi:
      Model regresi linier mengasumsikan tidak ada autokorelasi dalam istilah kesalahan. Jika akan ada korelasi dalam istilah kesalahan, maka secara drastis akan mengurangi keakuratan model. Autokorelasi biasanya terjadi jika ada ketergantungan antara kesalahan residual.

     

    credit. javatpoint

Tagged: 

  • You must be logged in to reply to this topic.