Analisis Regresi dalam Pembelajaran Mesin

  • Post
    Analisis Regresi dalam Pembelajaran Mesin

    Analisis regresi adalah metode statistik untuk memodelkan hubungan antara variabel dependen (target) dan independen (prediktor) dengan satu atau lebih variabel independen. Lebih khusus lagi, analisis Regresi membantu kita untuk memahami bagaimana nilai variabel dependen berubah sesuai dengan variabel independen ketika variabel independen lainnya ditetapkan tetap. Ini memprediksi nilai kontinu / nyata seperti suhu, usia, gaji, harga, dll.

    Kita dapat memahami konsep analisis regresi menggunakan contoh di bawah ini:

    Contoh: Misalkan ada perusahaan pemasaran A, yang melakukan berbagai periklanan setiap tahun dan mendapatkan penjualan dari itu. Daftar di bawah ini menunjukkan iklan yang dibuat oleh perusahaan dalam 5 tahun terakhir dan penjualan yang sesuai:

    Sekarang, perusahaan ingin melakukan iklan $ 200 di tahun 2019 dan ingin mengetahui prediksi penjualan tahun ini . Jadi untuk mengatasi masalah prediksi seperti itu dalam pembelajaran mesin, kita membutuhkan analisis regresi.

    Regresi adalah teknik pembelajaran terbimbing yang membantu dalam menemukan korelasi antar variabel dan memungkinkan kita untuk memprediksi variabel keluaran berkelanjutan berdasarkan satu atau lebih variabel prediktor. Ini terutama digunakan untuk prediksi, peramalan, pemodelan deret waktu, dan menentukan hubungan kausal-efek antara variabel .

    Dalam Regresi, kami memplot grafik antara variabel yang paling sesuai dengan titik data yang diberikan, menggunakan plot ini, model pembelajaran mesin dapat membuat prediksi tentang data. Dengan kata sederhana, “Regresi menunjukkan garis atau kurva yang melewati semua titik data pada grafik prediktor target sedemikian rupa sehingga jarak vertikal antara titik data dan garis regresi minimum.” Jarak antara titik data dan garis memberi tahu apakah model telah menangkap hubungan yang kuat atau tidak.

    Beberapa contoh regresi dapat berupa:

    • Prediksi hujan menggunakan suhu dan faktor lainnya
    • Menentukan tren pasar
    • Prediksi kecelakaan di jalan raya karena mengemudi terburu-buru.

    Terminologi Terkait Analisis Regresi:

    • Variabel Dependen:Faktor utama dalam analisis Regresi yang ingin kita prediksi atau pahami disebut variabel dependen. Ini juga disebut variabel target .
    • Variabel Independen:Faktor-faktor yang mempengaruhi variabel dependen atau yang digunakan untuk memprediksi nilai variabel dependen disebut variabel independen, disebut juga sebagai prediktor .
    • Pencilan: Pencilanadalah pengamatan yang mengandung nilai sangat rendah atau nilai sangat tinggi dibandingkan dengan nilai pengamatan lainnya. Pencilan dapat menghambat hasil, jadi harus dihindari.
    • Multikolinieritas:Jika variabel-variabel bebas memiliki korelasi yang tinggi satu sama lain dibandingkan dengan variabel lainnya, maka kondisi tersebut disebut Multikolinieritas. Ini tidak boleh ada dalam kumpulan data, karena itu menimbulkan masalah saat memberi peringkat variabel yang paling mempengaruhi.
    • Underfitting dan Overfitting:Jika algoritme kami berfungsi baik dengan set data pelatihan tetapi tidak berfungsi baik dengan set data pengujian, maka masalah tersebut disebut Overfitting . Dan jika algoritme kami tidak bekerja dengan baik bahkan dengan set data pelatihan, maka masalah seperti itu disebut underfitting .

    Mengapa kami menggunakan Analisis Regresi?

    Seperti disebutkan di atas, analisis Regresi membantu dalam memprediksi variabel kontinu. Terdapat berbagai macam skenario di dunia nyata dimana kita memerlukan beberapa prediksi masa depan seperti kondisi cuaca, prediksi penjualan, tren pemasaran, dan lain-lain, untuk itu diperlukan suatu teknologi yang dapat membuat prediksi dengan lebih akurat. Maka untuk hal tersebut diperlukan analisis Regresi yang merupakan metode statistik dan digunakan dalam pembelajaran mesin dan ilmu data. Berikut adalah beberapa alasan lain untuk menggunakan analisis Regresi:

    • Regresi memperkirakan hubungan antara target dan variabel independen.
    • Ini digunakan untuk menemukan tren dalam data.
    • Ini membantu untuk memprediksi nilai nyata / berkelanjutan.
    • Dengan melakukan regresi, kita dapat dengan yakin menentukan faktor yang paling penting, faktor yang paling tidak penting, dan bagaimana setiap faktor mempengaruhi faktor lainnya.

    Jenis-jenis Regresi

    Ada berbagai jenis regresi yang digunakan dalam ilmu data dan pembelajaran mesin. Setiap jenis memiliki kepentingannya sendiri pada skenario yang berbeda, tetapi pada intinya, semua metode regresi menganalisis pengaruh variabel independen terhadap variabel dependen. Di sini kita membahas beberapa jenis regresi penting yang diberikan di bawah ini:

    • Regresi linier
    • Regresi logistik
    • Regresi Polinomial
    • Mendukung Regresi Vektor
    • Regresi Pohon Keputusan
    • Regresi Hutan Acak
    • Regresi Ridge
    • Regresi Lasso:

    Regresi linier:

    • Regresi linier adalah metode regresi statistik yang digunakan untuk analisis prediktif.
    • Ini adalah salah satu algoritma yang sangat sederhana dan mudah yang bekerja pada regresi dan menunjukkan hubungan antara variabel kontinu.
    • Ini digunakan untuk memecahkan masalah regresi dalam pembelajaran mesin.
    • Regresi linier menunjukkan hubungan linier antara variabel bebas (sumbu X) dan variabel terikat (sumbu Y), maka disebut regresi linier.
    • Jika hanya terdapat satu variabel masukan (x), maka regresi linier semacam itu disebut regresi linier sederhana. Dan jika variabel masukan lebih dari satu, maka regresi linier semacam itu disebut regresi linier berganda .
    • Hubungan antar variabel dalam model regresi linier dapat dijelaskan dengan menggunakan gambar di bawah ini. Di sini kami memprediksi gaji seorang karyawan berdasarkan tahun pengalaman.
    • Di bawah ini adalah persamaan matematika untuk regresi linier:
    1. Y = aX + b

    Di sini, Y = variabel dependen (variabel target),
    X = variabel independen (variabel prediktor),
    a dan b adalah koefisien linier

    Beberapa aplikasi populer dari regresi linier adalah:

    • Menganalisis tren dan perkiraan penjualan
    • Perkiraan gaji
    • Prediksi real estat
    • Tiba di ETA di lalu lintas.

    Regresi logistik:

    • Regresi logistik adalah algoritma pembelajaran terbimbing lainnya yang digunakan untuk memecahkan masalah klasifikasi. Dalam masalah klasifikasi, kami memiliki variabel dependen dalam format biner atau diskrit seperti 0 atau 1.
    • Algoritme regresi logistik berfungsi dengan variabel kategori seperti 0 atau 1, Ya atau Tidak, Benar atau Salah, Spam atau bukan spam, dll.
    • Ini adalah algoritma analisis prediktif yang bekerja pada konsep probabilitas.
    • Regresi logistik adalah jenis regresi, tetapi berbeda dari algoritma regresi linier dalam istilah penggunaannya.
    • Regresi logistik menggunakan fungsi sigmoidatau fungsi logistik yang merupakan fungsi biaya yang kompleks. Fungsi sigmoid ini digunakan untuk memodelkan data dalam regresi logistik. Fungsi tersebut dapat direpresentasikan sebagai:
    • f (x) = Output antara nilai 0 dan 1.
    • x = masukan ke fungsi
    • e = basis logaritma natural.

    Ketika kami memberikan nilai input (data) ke fungsi, ini memberikan kurva S sebagai berikut:

    • Ini menggunakan konsep level ambang batas, nilai di atas ambang batas dibulatkan menjadi 1, dan nilai di bawah ambang batas dibulatkan menjadi 0.

    Ada tiga jenis regresi logistik:

    • Biner (0/1, lulus / gagal)
    • Multi (kucing, anjing, singa)
    • Ordinal (rendah, sedang, tinggi)

    Regresi Polinomial:

    • Regresi Polinomial merupakan jenis regresi yang memodelkan dataset non linierdengan menggunakan model linier.
    • Ini mirip dengan regresi linier berganda, tetapi ini cocok dengan kurva non-linier antara nilai x dan nilai kondisional y yang sesuai.
    • Misalkan ada set data yang terdiri dari titik data yang hadir secara non-linier, jadi untuk kasus seperti itu, regresi linier tidak akan cocok dengan titik data tersebut. Untuk menutupi titik data tersebut, kita membutuhkan regresi polinomial.
    • Dalam regresi polinomial, fitur asli diubah menjadi fitur polinomial dengan derajat tertentu dan kemudian dimodelkan menggunakan model linier. Yang berarti titik data paling baik dipasang menggunakan garis polinomial.
    • Persamaan regresi polinomial juga diturunkan dari persamaan regresi linier yang artinya Persamaan regresi linier Y = b 0+ b 1 x, ditransformasikan menjadi Persamaan regresi polinomial Y = b 0 + b 1 x + b 2 x 2 + b 3 x 3 +. …. + b n x n .
    • Di sini Y adalah output yang diprediksi / target, b 0, b 1 , … b n adalah koefisien regresi . x adalah variabel independen / input kami .
    • Modelnya masih linier karena koefisiennya masih linier dengan kuadrat

    Catatan: Ini berbeda dari regresi Linear Berganda sedemikian rupa sehingga dalam regresi polinomial, satu elemen memiliki derajat yang berbeda, bukan beberapa variabel dengan derajat yang sama.

    Mendukung Regresi Vektor:

    Support Vector Machine adalah algoritma pembelajaran yang diawasi yang dapat digunakan untuk masalah regresi serta klasifikasi. Jadi jika kita menggunakannya untuk masalah regresi, maka itu disebut sebagai Support Vector Regression.

    Support Vector Regression adalah algoritma regresi yang berfungsi untuk variabel kontinu. Berikut adalah beberapa kata kunci yang digunakan dalam Support Vector Regression :

    • Kernel:Ini adalah fungsi yang digunakan untuk memetakan data berdimensi lebih rendah menjadi data berdimensi lebih tinggi.
    • Hyperplane:Secara umum SVM, ini adalah garis pemisah antara dua kelas, tetapi dalam SVR, itu adalah garis yang membantu memprediksi variabel kontinu dan mencakup sebagian besar titik data.
    • Garis batas:Garis batas adalah dua garis yang terpisah dari hyperplane, yang menciptakan margin untuk titik data.
    • Vektor pendukung: Vektorpendukung adalah titik data yang terdekat dengan hyperplane dan kelas berlawanan.

    Dalam SVR, kami selalu mencoba menentukan hyperplane dengan margin maksimum, sehingga jumlah maksimum titik data tercakup dalam margin tersebut. Tujuan utama SVR adalah untuk mempertimbangkan titik data maksimum dalam garis batas dan hyperplane (garis paling pas) harus berisi jumlah titik data maksimum .

    Regresi Pohon Keputusan:

    • Decision Tree adalah algoritma pembelajaran terbimbing yang dapat digunakan untuk menyelesaikan masalah klasifikasi dan regresi.
    • Ini dapat memecahkan masalah untuk data kategorikal dan numerik
    • Regresi Decision Tree membangun struktur seperti pohon di mana setiap node internal mewakili “tes” untuk atribut, setiap cabang mewakili hasil tes, dan setiap node daun mewakili keputusan atau hasil akhir.
    • Pohon keputusan dibangun mulai dari simpul akar / simpul induk (dataset), yang terbagi menjadi simpul anak kiri dan kanan (himpunan bagian dari dataset). Node anak ini selanjutnya dibagi menjadi node anak mereka, dan node itu sendiri menjadi node induk dari node tersebut. Perhatikan gambar di bawah ini:

    Gambar di atas menunjukkan contoh regresi Keputusan Tee, di sini, model mencoba memprediksi pilihan seseorang antara mobil sport atau mobil mewah.

    • Random forest adalah salah satu algoritme supervised learning paling kuat yang mampu melakukan regresi serta tugas klasifikasi.
    • Regresi Random Forest adalah metode pembelajaran ensembel yang menggabungkan beberapa pohon keputusan dan memprediksi keluaran akhir berdasarkan rata-rata dari setiap keluaran pohon. Pohon keputusan gabungan disebut sebagai model dasar, dan dapat direpresentasikan secara lebih formal sebagai:

    g (x) = f 0 (x) + f 1 (x) + f 2 (x) + ….

    • Random forest menggunakan teknik Bagging atau Bootstrap Aggregationdari pembelajaran ensemble di mana pohon keputusan agregat berjalan secara paralel dan tidak berinteraksi satu sama lain.
    • Dengan bantuan regresi Random Forest, kita dapat mencegah Overfitting pada model dengan membuat subset acak dari dataset.

    Regresi Ridge:

    • Regresi ridge adalah salah satu versi regresi linier yang paling kuat di mana sejumlah kecil bias diperkenalkan sehingga kita bisa mendapatkan prediksi jangka panjang yang lebih baik.
    • Jumlah bias yang ditambahkan ke model dikenal sebagai penalti Regresi Ridge. Kita dapat menghitung istilah penalti ini dengan mengalikan lambda dengan bobot kuadrat dari setiap fitur individu.
    • Regresi linier atau polinomial umum akan gagal jika terdapat kolinearitas yang tinggi antar variabel independen, sehingga untuk mengatasi masalah tersebut dapat digunakan regresi Ridge.
    • Regresi ridge adalah teknik regularisasi, yang digunakan untuk mengurangi kompleksitas model. Ini juga disebut sebagai regularisasi L2.
    • Ini membantu untuk memecahkan masalah jika kita memiliki lebih banyak parameter daripada sampel.

    Regresi Lasso:

    • Regresi Lasso adalah teknik regularisasi lain untuk mengurangi kompleksitas model.
    • Ini mirip dengan Regresi Punggung kecuali istilah hukuman hanya berisi bobot absolut, bukan kuadrat bobot.
    • Karena ia mengambil nilai absolut, maka kemiringan dapat menyusut menjadi 0, sedangkan Regresi Punggung hanya dapat menyusutkannya mendekati 0.
    • Ini juga disebut sebagai regularisasi L1.

     

     

    credit. javatpoint

    Ampuh! Ini rahasia mengembangkan aplikasi secara instan, tinggal download dan kembangkan. Gabung sekarang juga! Premium Membership [PRIVATE] https://premium.codeorayo.com

Tagged: 

  • You must be logged in to reply to this topic.