Pengertian Statistika Dan Pentingnya Statistika Dalam Mempelajari Machine Learning

 


Kata statistika bukanlah hal yang asing lagi bagi kita. Statistika mempunyai peranan sangat penting bagi perkembangan ilmu-ilmu lain untuk mengambil kesimpulan, menguji hipotesis atau teori, memahami fenomena, menganalisis eksperimen, menentukan keputusan, dan lain sebagainya. 

Machine learning yang merupakan salah satu cabang dari artificial intelligence (kecerdasan buatan) saat ini terus mengalami perkembangan dan semakin populer. Hampir seluruh sistem komputer saat ini memakai teknik machine learning, misalnya pengenalan atau pelabelan wajah pada foto di Facebook, menggunakan rekomendasi pencarian di Google, mencari rekomendasi produk sejenis di online shop, filter email spam, dan yang tak kalah penting di bidang kedokteran misalnya untuk mendeteksi penyakit jantung dalam rekaman mesin elektrokardiogram.

Perkembangan ilmu statistika dan machine learning ini tentunya karena tidak terlepas dari faktor utamanya, yaitu data. Machine learning mempunyai setidaknya dua tujuan utama, yaitu pemecahan masalah dalam memprediksi masa depan (unobserved event) dan/atau memperoleh ilmu pengetahuan (knowledge discovery). Statistical machine learning mengacu pada teknik untuk memprediksi masa depan dan mendapatkan pengetahuan dari data secara rasional. 

Untuk dapat mendapatkan tujuan tersebut, statistical machine learning dapat menjadi alat atau metode yang tepat. Statistika berperan sebagai basis pembelajaran yang memanfaatkan teori statistik untuk melakukan inferensi dan interpretasi dari model, sedangan machine learning fokus pada penggunaan model untuk memprediksi data baru.

Pada dasarnya, machine learning memungkinkan komputer untuk mempelajari dan membedakan pola tanpa harus diprogram secara ekplisit. Ketika teknik statistik dan pembelajaran mesin digabungkan bersama-sama keduanya adalah alat yang kuat untuk menganalisis berbagai jenis data di banyak bidang ilmu komputer termasuk, pengolahan gambar, pemprosesan ucapan, pemprosesan bahasa alami, kontrol robot, serta dalam ilmu dasar seperti biologi, kedokteran, astronomi, fisika dan material.

Salah satu ilustrasi sederhana tentang statistical machine learning dapat digambarkan dengan suatu variabel dependen kategorik y yang ingin dianalisis dengan beberapa variabel independen x1, . . . xm. Contoh aplikasinya misalnya analisis tentang kelulusan mahasiswa dimana y = 1 bermakna lulus dan y = 0 bermakna tidak lulus. 

Variabel-variabel xi bisa berupa profil mahasiswa, total jam belajar, nilai mata kuliah, keaktifan di kelas, dan variabel-variabel lain yang berhubungan dengan kelulusan. Teknik yang sering dipakai untuk memodelkan permasalahan seperti ini adalah menggunakan model Regresi Logistik.

Namun sebelum mengenal lebih jauh mengenai model regresi, kita perlu memahami terlebih dahulu tentang jenis data, karena data menjadi salah satu hal krusial dalam suatu pemodelan. Pada statistical machine learning, pemilihan sampel data (atau training data) menjadi hal yang sangat penting. 

Apabila training data tidak mampu merepresentasikan populasi, maka model yang dihasilkan pembelajaran (training) tidak bagus. Untuk itu, biasanya terdapat juga test data. Mesin dilatih menggunakan training data, kemudian diuji kinerjanya menggunakan test data. Representasi populasi dapat diketahui dengan menyelidiki fitur-fitur (features atau karakteristik) yang dimiliki oleh data. 

Secara ringkas, istilah training adalah proses membangun model dan testing adalah proses menguji kinerja model pembelajaran. Dataset adalah kumpulan data (sampel dalam statistik). Sampel ini adalah data yang kita gunakan untuk membuat model maupun mengevaluasi model machine learning.

Statistika dan machine learning membentuk satu konsep yang disebut Statistical machine learning dengan menggunakan model regresi logistik. Meskipun peneliti statistika rata-rata memulai belajar dari latar belakang matematika, sedangkan peneliti machine learning rata-rata memulai dari latar belakang algoritma. 

Namun statistika dan machine learning menggunakan teori dan rumus yang sama dalam menyelesaikan suatu permasalahan. Keduanya sama-sama membahas konsep random variable, distribusi-distribusi statistik, expected value, variansi, sampai pada konsep distribusi prior dan posterior.

Model regresi logistik termasuk salah satu model yang sering dipakai praktisi machine learning. Regresi logistik adalah sebuah pendekatan untuk membuat model prediksi seperti halnya regresi linear atau yang biasa disebut dengan istilah Ordinary Least Squares (OLS) regression. 

Perbedaannya adalah pada regresi logistik, peneliti memprediksi variabel terikat yang berskala dikotomi. Skala dikotomi yang dimaksud adalah skala data nominal dengan dua kategori, misalnya: ya dan tidak, baik dan buruk, atau tinggi dan rendah. Dalam kasus nyata misalnya kita hendak memprediksi apakah individu memiliki kartu kredit ataukah tidak, berdasarkan tingkat pendapatan mereka, kita akan menggunakan regresi logistik untuk menganalisisnya. 

Data kepemilikan kartu kredit berbentuk kategori (memiliki dan tidak memiliki). Contoh lain, misalnya kita hendak memprediksi peranan sikap terhadap perpolitikan terhadap perilaku dalam pemilu yang dibagi menjadi dua (golput dan tidak golput).

Bentuk umum model peluang regresi logistik dengan p variabel penjelas, diformulasikan sebagai berikut:

dengan p adalah peluang kejadian sukses dengan nilai probabilitas 0 ≤ p ≤ 1 dan βj adalah nilai parameter dengan j = 1,2,……,i dan simbol e atau exp adalah fungsi eksponen. Perwujudan dari persamaan regresi logistik dapat dilihat dari gambar di bawah ini. Gambar tersebut menunjukkan hubungan antara nilai X dan probabilitas (P) untuk masuk dalam kategori 1. β0 menunjukkan lokasi tengah garis regresi, sedangkan β1 menunjukkan kemiringan garis regresi.

Gambar: Grafik Regresi Logistik. Sumber: Wahyu Widiarso, 2012

 

Disusun oleh: Chasandra Puspitasari

 Oleh : Aditya Yanuar R

sumber :

[1]Jan Wira Gotama Putra, “Pengenalan Konsep Pembelajaran Mesin dan Deep Learning”, Edisi 1.0, 2018.

[2]Marcus Hutter, “Introduction to Statistical Machine Learning”, Machine Learning Summer School, Canberra. Australia, 2008.

[3]Rizal Zaini Ahmad Fathony, “Statistika dan Machine Learning: Satu Ilmu Dua Wajah, https://www.cs.uic.edu/~rfathony/pdf/sml.pdf

[4]Wahyu Widiarso, “Berkenalan dengan Regresi Logistik”, Fakultas Psikologi UGM, 2012.

 [5]MIPA UGM

0/Post a Comment/Comments

Previous Post Next Post