Cara mendapatkan set data untuk Machine Learning

CODEORAYO COMMUNITY General Artificial intelligence Cara mendapatkan set data untuk Machine Learning

  • Post
    Cara mendapatkan set data untuk Machine Learning

    Kunci sukses di bidang pembelajaran mesin atau menjadi ilmuwan data yang hebat adalah berlatih dengan berbagai jenis kumpulan data. Namun menemukan kumpulan data yang sesuai untuk setiap jenis proyek pembelajaran mesin adalah tugas yang sulit. Jadi, dalam topik ini, kami akan memberikan detail sumber dari mana Anda dapat dengan mudah mendapatkan dataset sesuai dengan proyek Anda.

    Sebelum mengetahui sumber set data machine learning, mari kita bahas set data.

    Apa itu dataset?

    Dataset adalah kumpulan data yang datanya disusun dalam beberapa urutan. Dataset dapat berisi data apa pun dari rangkaian array ke tabel database. Tabel di bawah ini menunjukkan contoh set data:

    NegaraUsiaGajiMembeli
    India3848000Tidak
    Perancis4345000Iya
    Jerman3054000Tidak
    Perancis4865000Tidak
    Jerman40Iya
    India3558000Iya

    Dataset tabular dapat dipahami sebagai tabel atau matriks database, di mana setiap kolom sesuai dengan variabel tertentu, dan setiap baris sesuai dengan bidang set data. Jenis file yang paling didukung untuk kumpulan data tabel adalah “File yang Dipisahkan Koma”, atau CSV. Tetapi untuk menyimpan “data seperti pohon”, kita dapat menggunakan file JSON dengan lebih efisien.

    Jenis data dalam dataset

    • Data numerik: Seperti harga rumah, suhu, dll.
    • Data kategoris: Seperti Ya / Tidak, Benar / Salah, Biru / hijau, dll.
    • Data ordinal: Data ini mirip dengan data kategori tetapi dapat diukur berdasarkan perbandingan.

    Catatan: Set data dunia nyata berukuran sangat besar, yang sulit untuk dikelola dan diproses pada tingkat awal. Oleh karena itu, untuk mempraktikkan algoritme pembelajaran mesin, kita dapat menggunakan kumpulan data dummy apa pun.

    Kebutuhan Set Data

    Untuk bekerja dengan proyek pembelajaran mesin, kami membutuhkan data dalam jumlah besar, karena tanpa data, seseorang tidak dapat melatih model ML / AI. Mengumpulkan dan menyiapkan set data adalah salah satu bagian terpenting saat membuat proyek ML / AI.

    Teknologi yang diterapkan di balik project ML apa pun tidak dapat berfungsi dengan baik jika set data tidak disiapkan dan diproses sebelumnya dengan baik.

    Selama pengembangan proyek ML, pengembang sepenuhnya bergantung pada kumpulan data. Dalam membangun aplikasi ML, set data dibagi menjadi dua bagian:

    • Dataset pelatihan:
    • Menguji Set Data

    Catatan: Datasetnya berukuran besar, jadi untuk mendownload set data ini, Anda harus memiliki internet yang cepat di komputer Anda.

    Sumber populer untuk set data Machine Learning

    Di bawah ini adalah daftar dataset yang tersedia gratis untuk digarap oleh publik:

    1. Kumpulan Data Kaggle

    Kaggle adalah salah satu sumber terbaik untuk menyediakan kumpulan data untuk Ilmuwan Data dan Pembelajar Mesin. Ini memungkinkan pengguna untuk menemukan, mengunduh, dan menerbitkan set data dengan cara yang mudah. Ini juga memberikan kesempatan untuk bekerja dengan insinyur pembelajaran mesin lainnya dan menyelesaikan tugas-tugas terkait Ilmu Data yang sulit.

    Kaggle menyediakan kumpulan data berkualitas tinggi dalam berbagai format yang dapat dengan mudah kami temukan dan unduh.

    Tautan untuk kumpulan data Kaggle adalah https://www.kaggle.com/datasets .

    1. Tempat Penyimpanan Pembelajaran Mesin UCI

    Repositori pembelajaran mesin UCI adalah salah satu sumber set data pembelajaran mesin yang hebat. Repositori ini berisi database, teori domain, dan generator data yang digunakan secara luas oleh komunitas pembelajaran mesin untuk analisis algoritme ML.

    Sejak tahun 1987, telah banyak digunakan oleh mahasiswa, profesor, peneliti sebagai sumber utama dataset pembelajaran mesin.

    Ini mengklasifikasikan kumpulan data sesuai dengan masalah dan tugas pembelajaran mesin seperti Regresi, Klasifikasi, Pengelompokan, dll. Ini juga berisi beberapa kumpulan data populer seperti dataset Iris, dataset Evaluasi Mobil, dataset Poker Hand, dll.

    Tautan untuk repositori pembelajaran mesin UCI adalah https://archive.ics.uci.edu/ml/index.php .

    1. Set data melalui AWS

    Kami dapat mencari, mengunduh, mengakses, dan membagikan kumpulan data yang tersedia untuk umum melalui sumber daya AWS. Kumpulan data ini dapat diakses melalui sumber daya AWS tetapi disediakan dan dikelola oleh berbagai organisasi pemerintah, penelitian, bisnis, atau individu.

    Siapa pun dapat menganalisis dan membangun berbagai layanan menggunakan data bersama melalui sumber daya AWS. Dataset bersama di cloud membantu pengguna menghabiskan lebih banyak waktu untuk analisis data daripada akuisisi data.

    Sumber ini menyediakan berbagai jenis dataset dengan contoh dan cara menggunakan dataset. Ini juga menyediakan kotak pencarian yang digunakan untuk mencari dataset yang diperlukan. Siapa pun dapat menambahkan set data atau contoh apa pun ke Registri Data Terbuka di AWS.

    Tautan untuk sumber daya tersebut adalah https://registry.opendata.aws/ .

    1. Mesin Pencari Set Data Google

    Mesin pencari dataset Google adalah mesin pencari yang diluncurkan oleh Google pada tanggal 5 September 2018. Sumber ini membantu peneliti mendapatkan dataset online yang tersedia secara gratis untuk digunakan.

    Tautan untuk mesin pencari set data Google adalah https://toolbox.google.com/datasetsearch .

    1. Kumpulan Data Microsoft

    Microsoft telah meluncurkan penyimpanan “Microsoft Research Open data” dengan kumpulan kumpulan data gratis di berbagai bidang seperti pemrosesan bahasa alami, visi komputer, dan ilmu khusus domain.

    Dengan menggunakan sumber ini, kita dapat mengunduh kumpulan data untuk digunakan pada perangkat saat ini, atau kita juga dapat langsung menggunakannya di infrastruktur cloud.

    Tautan untuk mengunduh atau menggunakan kumpulan data dari sumber ini adalah https://msropendata.com/ .

    1. Koleksi Dataset Publik yang Luar Biasa

    Kumpulan kumpulan data publik yang mengagumkan menyediakan kumpulan data berkualitas tinggi yang disusun secara terorganisir dengan baik dalam daftar sesuai dengan topik seperti Pertanian, Biologi, Iklim, Jaringan kompleks, dll. Sebagian besar kumpulan data tersedia gratis, tetapi beberapa mungkin tidak, jadi sebaiknya periksa lisensinya sebelum mengunduh kumpulan data.

    Tautan untuk mengunduh kumpulan data dari kumpulan kumpulan data publik Awesome adalah https://github.com/awesomedata/awesome-public-datasets .

    1. Kumpulan Data Pemerintah

    Ada berbagai sumber untuk mendapatkan data terkait pemerintah. Berbagai negara mempublikasikan data pemerintah untuk penggunaan publik yang dikumpulkan oleh mereka dari berbagai departemen.

    Tujuan dari penyediaan kumpulan data ini adalah untuk meningkatkan transparansi pekerjaan pemerintah di antara masyarakat dan menggunakan data dalam pendekatan yang inovatif. Di bawah ini adalah beberapa tautan dari kumpulan data pemerintah:

    1. Kumpulan Data Computer Vision

    Data visual menyediakan banyak kumpulan data besar yang khusus untuk visi komputer seperti Klasifikasi Gambar, Klasifikasi Video, Segmentasi Gambar, dll. Oleh karena itu, jika Anda ingin membangun proyek pada pembelajaran mendalam atau pemrosesan gambar, maka Anda dapat merujuk ke ini sumber.

    Tautan untuk mengunduh kumpulan data dari sumber ini adalah https://www.visualdata.io/ .

    1. Dataset Scikit-learn

    Scikit-learn adalah sumber yang bagus untuk penggemar pembelajaran mesin. Sumber ini menyediakan mainan dan kumpulan data dunia nyata. Dataset ini dapat diperoleh dari paket sklearn.datasets dan menggunakan API set data umum.

    Dataset mainan yang tersedia di scikit-learn dapat dimuat menggunakan beberapa fungsi yang telah ditentukan seperti, load_boston ([return_X_y]), load_iris ([return_X_y]), dll, daripada mengimpor file apa pun dari sumber eksternal. Tetapi kumpulan data ini tidak cocok untuk proyek dunia nyata.

    Link untuk mendownload dataset dari sumber ini adalah https://scikit-learn.org/stable/datasets/index.html .

     

     

    credit. javatpoint

     

Tagged: 

  • You must be logged in to reply to this topic.