Pengenalan Machine Learning

Machine Learning adalah pengambilan pengetahuan dari suatu data. Hal tersebut adalah bidang penelitian di antara statistik, kecerdasan buatan, dan ilmu komputer dan juga dikenal sebagai analisis prediktif atau pembelajaran statistik. Penerapan metode Machine Learning dalam beberapa tahun terakhir telah berkembang di mana-mana dalam kehidupan sehari-hari. Dari rekomendasi film, makanan apa yang harus dipesan atau produk mana yang akan dibeli, ke radio online yang  telah dipersonalisasi dan mengenali teman di foto Anda, banyak situs web dan perangkat modern memiliki algoritma Machine Learning pada intinya. Ketika Anda melihat situs web yang kompleks seperti Facebook, Amazon, atau Netflix, kemungkinan besar setiap bagian situs berisi beberapa model Machine Learning.

Jenis algoritma Machine Learning yang paling sukses adalah teknik yang mengautomatisasi proses pengambilan keputusan dengan menggeneralisasi dari contoh yang sudah diketahui. Dalam hal ini, yang dikenal sebagai Supervised Learning, pengguna menyediakan algoritma dengan pasangan input dan output yang diinginkan, dan algoritma menemukan cara untuk menghasilkan output yang diinginkan dengan memberi suatu input. Secara khusus, algoritma ini mampu menciptakan sebuah output untuk sebuah input yang belum pernah ada sebelumnya tanpa bantuan dari manusia. Kembali ke contoh klasifikasi spam, dengan menggunakan Machine Learning, pengguna menyediakan algoritma dengan sejumlah besar email (sebagai input), bersama dengan informasi tentang apakah ada email semacam ini adalah suatu spam (yang merupakan keluaran yang diinginkan). Dengan adanya email baru, algoritma tersebut kemudian akan menghasilkan prediksi apakah email baru itu spam atau tidak.

Algoritma Machine Learning yang belajar dari pasangan input / output disebut Supervised Learning yang diawasi karena seorang “guru” memberikan “pengawasan” terhadap algoritma dalam bentuk keluaran yang diinginkan untuk setiap contoh yang mereka pelajari. Sambil membuat dataset input dan output seringkali merupakan proses manual yang sulit, Supervised Learning yang dipahami dengan baik dan kinerjanya mudah diukur. Jika aplikasi Anda dapat diformulasikan sebagai masalah belajar yang diawasi, dan Anda dapat membuat dataset yang mencakup hasil yang diinginkan, Machine Learning kemungkinan akan dapat memecahkan masalah Anda.

Bagaimana anda belajar Machine Learning ?

Saat Anda menerapkan Machine Learning ke dataset Anda sendiri, Anda sedang mengerjakan sebuah proyek. Proyek Machine Learning mungkin tidak linier, namun memiliki sejumlah langkah yang diketahui:

  1. Tentukan masalah
  2. Mempersiapkan data
  3. Mengevaluasi algoritma
  4. Meningkatkan hasil
  5. Mempresentasikan hasil

Cara terbaik untuk benar-benar belajar dengan platform atau alat baru adalah bekerja melalui proyek Machine Learning dari langkah per langkah dan mencakup langkah-langkah kunci. Yakni, dari memuat data, merangkum data, mengevaluasi algoritma dan membuat beberapa prediksi. Jika Anda bisa melakukannya, Anda memiliki landasan yang dapat Anda gunakan pada dataset ke dataset yang akan coba latih lagi selanjutnya. Anda bisa mengisi waktu seperti mempersiapkan data lebih lanjut dan memperbaiki hasil nantinya, begitu Anda lebih percaya diri.

Secara umum, ada 3 jenis Algoritma Machine Learning

  1. Supervised Learning

Cara kerjanya: Algoritma ini terdiri dari variabel dependen (data train) yang akan diprediksi dari himpunan prediktor (data test). Dengan menggunakan himpunan variabel ini, kita bisa menghasilkan sebuah fungsi yang memetakan input ke output yang diinginkan. Proses training berlanjut sampai model mencapai tingkat akurasi yang diinginkan pada data training. Contoh Supervised Learning, Regresi, Decision Tree, Random Forest, KNN, Regresi Logistik dll.

  1. Unsupervised Learning

Cara kerjanya: Pada algoritma ini, kita tidak memiliki target atau variabel output untuk prediksi. Hal ini digunakan untuk mengelompokkan populasi dalam kelompok yang berbeda, yang secara luas digunakan untuk segmentasi pelanggan dalam kelompok-kelompok yang berbeda untuk intervensi spesi fik. Contoh Unsupervised Learning: algoritma Apriori, K-means.

3.   Reinforcement Learning:

Cara kerjanya: Menggunakan algoritma ini, mesin dilatih untuk membuat keputusan tertentu. Ia bekerja dengan cara ini: mesin terkena lingkungan di mana ia melatih dirinya untuk terus melakukan trial and error. Mesin ini belajar dari pengalaman masa lalu dan mencoba untuk menangkap pengetahuan terbaik untuk membuat keputusan bisnis yang akurat. Contoh Reinforcement Learning: Markov Decision Process.

 

Belajar Machine Learning menggunakan dataset Iris

Berikut ini adalah inti tentang apa yang akan kita bahas:

.Memasang Environment dan Library nya

2.Memasukkan dataset

3.Melihat dataset

4.Visualisasi

5.Mengevaluasi beberapa algoritma.

6.Membuat beberapa prediksi.

 

Gunakan waktumu. Bekerja melalui setiap langkah. Cobalah untuk mengetikkan perintah sendiri. Jika Anda memiliki pertanyaan sama sekali, silakan tinggalkan komentar di kolom komentar.

  1. Memasang environment

Ada 5 Library utama yang perlu untuk di install. Berikut adalah daftar Library yang diperlukan untuk tutorial ini:

  • Scipy
  • Numpy
  • Matplotlib
  • Pandas
  •    Sklearn
  1. Memasukkan data

Kita akan menggunakan dataset bunga iris. Dataset ini terkenal karena digunakan sebagai dataset “hello world” dalam Machine learning dan statistik oleh hampir semua orang yang memulai belajar machine learning.

Dataset berisi 150 pengamatan bunga iris. Ada empat kolom pengukuran bunga dalam Centimeter. Kolom kelima adalah spesies bunga yang diamati. Semua bunga yang diamati termasuk salah satu dari tiga spesies.

  •  Import Library

  • Memasukkan Dataset

  1. Melihat Dataset

 Sekarang saatnya untuk melihat data. Pada langkah ini kita akan melihat data beberapa cara yang berbeda:

  • Dimensi kumpulan data.
  • Mengintip data itu sendiri.
  • Ringkasan statistik semua atribut.
  • Rincian data oleh kelas

Jangan khawatir, setiap melihat data terdapat suatu perintah. Perintah yang berguna ini yang dapat anda gunakan lagi dan lagi pada proyek yang  akan anda kerjakan di masa depan.

  • Dimensi Dataset

anda akan melihat 150 jenis dan 5 atribut

(150, 5)

  • Mengintip data

Anda akan melihat 20 baris data pertama

    sepal-length  sepal-width  petal-length  petal-width        class

                           0            5.1               3.5           1.4              0.2              Iris-setosa

                           1            4.9               3.0           1.4              0.2              Iris-setosa

                           2            4.7               3.2           1.3              0.2              Iris-setosa

                           3            4.6               3.1           1.5              0.2              Iris-setosa

                           4            5.0               3.6           1.4              0.2              Iris-setosa

                           5            5.4               3.9           1.7              0.4              Iris-setosa

                           6            4.6               3.4           1.4              0.3              Iris-setosa

                           7            5.0               3.4           1.5              0.2              Iris-setosa

                           8            4.4               2.9           1.4              0.2              Iris-setosa

                           9            4.9               3.1           1.5              0.1              Iris-setosa

                           10           5.4               3.7           1.5              0.2              Iris-setosa

                           11           4.8               3.4           1.6              0.2              Iris-setosa

                           12           4.8               3.0           1.4              0.1              Iris-setosa

                           13           4.3               3.0           1.1              0.1              Iris-setosa

                           14           5.8               4.0           1.2              0.2              Iris-setosa

                           15           5.7               4.4           1.5              0.4              Iris-setosa

                           16           5.4               3.9           1.3              0.4              Iris-setosa

                           17           5.1               3.5           1.4              0.3              Iris-setosa

                           18           5.7               3.8           1.7              0.3              Iris-setosa

                           19           5.1               3.8           1.5              0.3              Iris-setosa

  • Ringkasan Statistik

            sepal-length  sepal-width  petal-length  petal-width

count    150.000000   150.000000    150.000000   150.000000

mean    5.843333         3.054000       3.758667           1.198667

std        0.828066         0.433594       1.764420           0.763161

min        4.300000       2.000000      1.000000         0.100000

25%        5.100000       2.800000      1.600000         0.300000

50%        5.800000      3.000000      4.350000        1.300000

75%        6.400000      3.300000      5.100000         1.800000

max        7.900000      4.400000      6.900000        2.500000

  • Distribusi kelas

class

Iris-setosa        50

Iris-versicolor    50

Iris-virginica     50