Regresi Linier Sederhana dalam Pembelajaran Mesin

  • Post
    Regresi Linier Sederhana dalam Pembelajaran Mesin

    Regresi Linier Sederhana adalah jenis algoritma Regresi yang memodelkan hubungan antara variabel dependen dan variabel independen tunggal. Hubungan yang ditunjukkan oleh model Regresi Linier Sederhana adalah linier atau garis lurus miring, oleh karena itu disebut Regresi Linier Sederhana.

    Poin kunci dalam Regresi Linier Sederhana adalah bahwa variabel dependen harus berupa nilai kontinu / nyata . Namun, variabel independen dapat diukur pada nilai kontinu atau kategorikal.

    Algoritma regresi linier sederhana memiliki dua tujuan utama:

    • Buat model hubungan antara dua variabel. Seperti hubungan antara Pendapatan dan pengeluaran, pengalaman dan Gaji, dll.
    • Memperkirakan observasi baru. Seperti Peramalan cuaca menurut suhu, Pendapatan perusahaan menurut investasi dalam satu tahun, dll.

    Model Regresi Linier Sederhana:

    Model Regresi Linier Sederhana dapat direpresentasikan menggunakan persamaan di bawah ini:

    y = a 0 + a 1 x + ε

    Dimana,

    a0 = Ini adalah perpotongan dari garis Regresi (dapat diperoleh dengan meletakkan x = 0)
    a1 = Ini adalah kemiringan dari garis regresi, yang memberitahukan apakah garis naik atau turun.
    ε = Istilah kesalahan. (Untuk model yang bagus, ini akan diabaikan)

    Implementasi Algoritma Regresi Linier Sederhana menggunakan Python

    Contoh Pernyataan Masalah untuk Regresi Linier Sederhana:

    Di sini kami mengambil dataset yang memiliki dua variabel: gaji (variabel dependen) dan pengalaman (variabel independen). Tujuan dari masalah ini adalah:

    • Kami ingin mengetahui apakah ada korelasi antara kedua variabel ini
    • Kami akan menemukan baris paling cocok untuk dataset.
    • Bagaimana variabel dependen berubah dengan mengubah variabel dependen.

    Pada bagian ini, kita akan membuat model Regresi Linier Sederhana untuk menemukan garis yang paling sesuai untuk merepresentasikan hubungan antara kedua variabel ini.

    Untuk mengimplementasikan model regresi Linear Sederhana dalam pembelajaran mesin menggunakan Python, kita perlu mengikuti langkah-langkah di bawah ini:

    Langkah-1: Pra-pemrosesan Data

    Langkah pertama untuk membuat model Regresi Linier Sederhana adalah pra-pemrosesan data . Kami telah melakukannya sebelumnya di tutorial ini. Tetapi akan ada beberapa perubahan, yang diberikan dalam langkah-langkah di bawah ini:

    • Pertama, kita akan mengimpor tiga pustaka penting, yang akan membantu kita memuat dataset, memplot grafik, dan membuat model Regresi Linier Sederhana.
    1. import numpy sebagai nm
    2. import pyplot sebagai mtp
    3. import panda sebagai pd
    • Selanjutnya, kami akan memuat dataset ke dalam kode kami:
    1. data_set = pd.read_csv ( ‘Salary_Data.csv’ )

    Dengan menjalankan baris kode di atas (ctrl + ENTER), kita dapat membaca dataset di layar Spyder IDE dengan mengklik opsi variabel explorer.

    Catatan: Di Spyder IDE, folder yang berisi file kode harus disimpan sebagai direktori kerja, dan dataset atau file csv harus berada di folder yang sama.

    • Setelah itu, kita perlu mengekstrak variabel dependen dan independen dari dataset yang diberikan. Variabel independen adalah tahun pengalaman, dan variabel dependen adalah gaji. Di bawah ini adalah kode untuk itu:
    1. x = data_set.iloc [:,: – 1 ] .values
    2. y = data_set.iloc [:,  1 ] .values

    Pada baris kode di atas, untuk variabel x, kami telah mengambil nilai -1 karena kami ingin menghapus kolom terakhir dari dataset. Untuk variabel y, kami telah mengambil 1 nilai sebagai parameter, karena kami ingin mengekstrak kolom kedua dan pengindeksan dimulai dari nol.

    Pada gambar keluaran di atas, kita dapat melihat variabel X (independen) dan variabel Y (dependen) telah diekstraksi dari dataset yang diberikan.

    • Selanjutnya, kami akan membagi kedua variabel menjadi set pengujian dan set pelatihan. Kami memiliki 30 observasi, jadi kami akan mengambil 20 observasi untuk set pelatihan dan 10 observasi untuk set tes. Kami memisahkan kumpulan data kami sehingga kami dapat melatih model kami menggunakan kumpulan data pelatihan dan kemudian menguji model tersebut menggunakan kumpulan data pengujian. Kode untuk ini diberikan di bawah ini:
    1. # Memisahkan set data menjadi set pelatihan dan pengujian.
    2. dari sklearn.model_selection  import train_test_split
    3. x_train, x_test, y_train, y_test = train_test_split (x, y, test_size =  1 / 3 , random_state = 0 )

    Langkah-2: Menyesuaikan Regresi Linier Sederhana ke Set Pelatihan:

    Sekarang langkah kedua adalah menyesuaikan model kita dengan set data pelatihan. Untuk melakukannya, kita akan mengimpor LinearRegression kelas dari linear_model perpustakaan dari scikit belajar . Setelah mengimpor kelas, kita akan membuat objek kelas yang dinamai sebagai regressor . Kode untuk ini diberikan di bawah ini:

    1. #Menyesuaikan model Regresi Linier Sederhana ke set data pelatihan
    2. dari sklearn.linear_model  import LinearRegression
    3. regressor = LinearRegression ()
    4. fit (x_train, y_train)

    Dalam kode di atas, kami telah menggunakan metode fit () untuk menyesuaikan objek Regresi Linier Sederhana kami ke set pelatihan. Dalam fungsi fit (), kita telah melewati x_train dan y_train, yang merupakan dataset pelatihan kita untuk variabel dependen dan variabel independen. Kami telah memasang objek regressor kami ke set pelatihan sehingga model dapat dengan mudah mempelajari korelasi antara variabel prediktor dan target. Setelah menjalankan baris kode di atas, kita akan mendapatkan output di bawah ini.

    Keluaran:

    Keluar [7]: LinearRegression (copy_X = True, fit_intercept = True, n_jobs = None, normalize = False)

    Langkah: 3. Prediksi hasil set tes:

    dependen (gaji) dan variabel independen (Pengalaman). Jadi, sekarang, model kita siap untuk memprediksi keluaran observasi baru. Pada langkah ini, kami akan memberikan set data pengujian (observasi baru) ke model untuk memeriksa apakah model dapat memprediksi keluaran yang benar atau tidak.

    Kita akan membuat vektor prediksi y_pred , dan x_pred , yang masing-masing akan berisi prediksi set data pengujian, dan prediksi set pelatihan.

    1. #Prediksi hasil set Tes dan Pelatihan
    2. y_pred = regressor.predict (x_test)
    3. x_pred = regressor.predict (x_train)

    Saat menjalankan baris kode di atas, dua variabel bernama y_pred dan x_pred akan menghasilkan opsi penjelajah variabel yang berisi prediksi gaji untuk set pelatihan dan set pengujian.

    Keluaran:

    Anda dapat memeriksa variabel dengan mengklik opsi variabel explorer di IDE, dan juga membandingkan hasilnya dengan membandingkan nilai dari y_pred dan y_test. Dengan membandingkan nilai-nilai ini, kita dapat memeriksa seberapa baik kinerja model kita.

    Langkah: 4. memvisualisasikan hasil set Pelatihan:

    Sekarang dalam langkah ini, kita akan memvisualisasikan hasil set pelatihan. Untuk melakukannya, kita akan menggunakan fungsi scatter () dari pustaka pyplot, yang telah kita impor pada langkah pra-pemrosesan. Fungsi scatter () akan membuat plot pencar dari pengamatan.

    Pada sumbu x, kami akan memplot Tahun Pengalaman karyawan dan pada sumbu y, gaji karyawan. Dalam fungsinya, kita akan meneruskan nilai riil set pelatihan, yang berarti satu tahun pengalaman x_train, set pelatihan Gaji y_train, dan warna pengamatan. Di sini kami mengambil warna hijau untuk pengamatan, tetapi bisa warna apa saja sesuai pilihan.

    Sekarang, kita perlu memplot garis regresi, jadi untuk ini, kita akan menggunakan fungsi plot () dari pustaka pyplot. Dalam fungsi ini, kita akan melewatkan tahun-tahun pengalaman untuk set pelatihan, perkiraan gaji untuk set pelatihan x_pred, dan warna garis.

    Selanjutnya kami akan memberikan judul untuk plotnya. Jadi di sini, kita akan menggunakan fungsi title () dari pustaka pyplot dan meneruskan nama (“Gaji vs Pengalaman (Set Data Pelatihan)”.

    Setelah itu, kita akan memberi label untuk sumbu x dan sumbu y menggunakan fungsi xlabel () dan ylabel () .

    Terakhir, kami akan merepresentasikan semua hal di atas dalam grafik menggunakan show (). Kode diberikan di bawah ini:

    1. scatter (x_train, y_train, color = “green” )
    2. plot (x_train, x_pred, color = “red” )
    3. title ( “Gaji vs Pengalaman (Kumpulan Data Pelatihan)” )
    4. xlabel ( “Pengalaman Bertahun-tahun” )
    5. ylabel ( “Gaji (Dalam Rupee)” )
    6. show ()

    garis regresi, oleh karena itu model kita bagus untuk set pelatihan .

    Langkah: 5. memvisualisasikan hasil set Test:

    Pada langkah sebelumnya, kami telah memvisualisasikan kinerja model kami di set pelatihan. Sekarang, kita akan melakukan hal yang sama untuk set Test. Kode lengkapnya akan tetap sama dengan kode di atas, kecuali di sini, kita akan menggunakan x_test, dan y_test, bukan x_train dan y_train.

    Di sini kami juga mengubah warna pengamatan dan garis regresi untuk membedakan kedua plot, tetapi ini opsional.

    1. #visualizing Hasil set pengujian
    2. scatter (x_test, y_test, color = “blue” )
    3. plot (x_train, x_pred, color = “red” )
    4. title ( “Gaji vs Pengalaman (Tes Dataset)” )
    5. xlabel ( “Pengalaman Bertahun-tahun” )
    6. ylabel ( “Gaji (Dalam Rupee)” )
    7. show ()

     

     

    credit. javatpoint

    Ampuh! Ini rahasia mengembangkan aplikasi secara instan, tinggal download dan kembangkan. Gabung sekarang juga! Premium Membership [PRIVATE] https://premium.codeorayo.com

Tagged: 

  • You must be logged in to reply to this topic.