Kamis, 04 Juni 2020

ANALISIS MENGGUNAKAN NAIVE BAYES DAN RANDOM FOREST

 Pengertian Data Mining

Data mining adalah suatu proses pengerukan atau pengumpulan informasi penting dari suatu data yang besar. Proses data mining seringkali menggunakan metode statistika, matematika, hingga memanfaatkan teknologi artificial intelligence.

Nama alternatifnya yaitu Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, dan lain-lain.

Jika dilihat dilihat pada gambar dalam proses KDD tersebut, Banyak konsep dan teknik yang digunakan dalam proses data mining. Proses tersebut membutuhkan beberapa langkah untuk mendapatkan sebuah data yang diinginkan.

Dalam proses KDD tersebut termasuk melakukan pembersihan data, integrasi data, seleksi data, transformasi, penambangan data, evaluasi pola, dan presentasi pengetahuan.


Fungsi Data Mining

Data mining memiliki banyak sekali fungsi, Untuk fungsi utamanya sendiri yaitu ada dua; Yaitu fungsi descriptive dan fungsi predictive. Untuk fungsi lainnya akan dibahas di bawah

1. Descriptive

fungsi deskripsi dalam data mining adalah sebuah fungsi untuk memahami lebih jauh tentang data yang diamati. Dengan melakukan sebuah proses diharap bisa mengetahui perilaku dari sebuah data tersebut. Data tersebut itulah yang nantinya dapat digunakan untuk mengetahui karakteristik dari data yang dimaksud.

Dengan menggunakan Fungsi descriptive Data mining, Maka nantinya bisa menemukan pola tertentu yang tersembunyi dalam sebuah data. Dengan kata lain jika pola yang berulang dan bernilai itulah karakteristik sebuah data bisa diketahui.

2. Predictive

Fungsi prediksi merupakan sebuah fungsi bagaimana sebuah proses nantinya akan menemukan pola tertentu dari suatu data. Pola-pola tersebut dapat diketahui dari berbagai variabel-variabel yang ada pada data. 

Ketika sudah menemukan pola, Maka pola yang didapat tersebut bisa digunakan untuk memprediksi variabel lain yang belum diketahui nilai ataupun jenisnya.

Karena itulah fungsi satu ini dikatakan sebagai fungsi prediksi sama halnya dengan melakukan predictive analisis. Fungsi ini juga bisa digunakan untuk memprediksi sebuah variabel tertentu yang tidak ada dalam suatu data.

Sehingga fungsi ini memudahkan dan menguntungkan bagi siapapun yang memerlukan prediksi yang akurat untuk membuat hal penting tersebut menjadi lebih baik.

Fungsi Data mining yang lainnya yaitu : characterization, discrimination, association, classification, clustering, outlier and trend analysis, dll.

Multidimensional concept description, Karakterisasi dan diskriminasi, Atau berfungsi untuk Menggeneralisasikan, meringkas, dan membedakan karakteristik data, dll.


Naive Bayes

Algoritma Naive Bayes merupakan sebuah metoda klasifikasi menggunakan metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes. Algoritma Naive Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian.

Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifier lainnya. Hal ini dibuktikan pada jurnal Xhemali, Daniela, Chris J. Hinde, and Roger G. Stone. “Naive Bayes vs. decision trees vs. neural networks in the classification of training web pages.” (2009), mengatakan bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yg lebih baik dibanding model classifier lainnya”.

Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data pelatihan (training data) yang kecil untuk menentukan estimasi parameter yg diperlukan dalam proses pengklasifikasian. Karena yg diasumsikan sebagai variabel independent, maka hanya varians dari suatu variabel dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari matriks kovarians.

Tahapan dari proses algoritma Naive Bayes adalah:

1. Menghitung jumlah kelas / label.

2. Menghitung Jumlah Kasus Per Kelas

3. Kalikan Semua Variable Kelas

4. Bandingkan Hasil Per Kelas


Random Forest

Random forest (RF) adalah suatu algoritma yang digunakan pada klasifikasi data dalam jumlah yang besar. Klasifikasi random forest dilakukan melalui penggabungan pohon (tree) dengan melakukan training pada sampel data yang dimiliki. Penggunaan pohon (tree) yang semakin banyak akan mempengaruhi akurasi yang akan didapatkan menjadi lebih baik. Penentuan klasifikasi dengan random forest diambil berdasarkan hasil voting dari tree yang terbentuk. Pemenang dari tree yang terbentuk ditentukan dengan vote terbanyak. Pembangunan pohon (tree) pada random forest sampai dengan mencapai ukuran maksimum dari pohon data. Akan tetapi,pembangunan pohon random forest tidak dilakukan pemangkasan (pruning) yang merupakan sebuah metode untuk mengurangi kompleksitas ruang. Pembangunan dilakukan dengan penerapan metode random feature selection untuk meminimalisir kesalahan. Pembentukan pohon (tree) dengan sample data menggunakan variable yang diambil secara acak dan menjalankan klasifikasi pada semua tree yang terbentuk. Random forest menggunakan Decision Tree untuk melakukan proses seleksi. Pohon yang dibangun dibagi secara rekursif dari data pada kelas yang sama. Pemecahan (split) digunakan untuk membagi data berdasarkan jenis atribut yang digunakan. Pembuatan decision tree pada saat penentuan klasifikasi,pohon yang buruk akan membuat prediksi acak yang saling bertentangan. Sehingga,beberapa decision tree akan menghasilkan jawaban yang baik. Random forest merupakan salah satu cara penerapan dari pendekatan diskriminasi stokastik pada klasifikasi. Proses Klasifikasi akan berjalan jika semua tree telah terbentuk.Pada saat proses klasifikasi selesai dilakukan, inisialisasi dilakukan dengan sebanyak data berdasarkan nilai akurasinya. Keuntungan penggunaan random forest yaitu mampu mengklasifiksi data yang memiliki atribut yang tidak lengkap,dapat digunakan untuk klasifikasi dan regresi akan tetapi tidak terlalu bagus untuk regresi, lebih cocok untuk pengklasifikasian data serta dapat digunakan untuk menangani data sampel yang banyak. Proses klasifikasi pada random forest berawal dari memecah data sampel yang ada kedalam decision tree secara acak. Setelah pohon terbentuk,maka akan dilakukan voting pada setiap kelas dari data sampel. Kemudian, mengkombinasikan vote dari setiap kelas kemudian diambil vote yang paling banyak.Dengan menggunakan random forest pada klasifikasi data maka, akan menghasilkan vote yang paling baik.


Contoh Penerapan Data Mining

Penambangan data bisa digunakan di berbagai sektor, Mulai dari sektor bisnis, manajemen, keuangan dan lain sebagaianya. Berikut Contoh penerapan Data mining di beberapa sektor :

1. Market Analysis dan Management

Dalam sektor pemasaran biasanya data mining digunakan untuk Pemasaran target, manajemen hubungan pelanggan (CRM), analisis pasar, cross selling, segmentasi pasar. 

Target Pemasaran, Misalnya menemukan kelompok pelanggan “model” yang memiliki karakteristik yang sama: minat,tingkat pendapatan, kebiasaan belanja, dll. atau menentukan pola pembelian pelanggan dari waktu ke waktu.

Analysis lalu lintas pasar, Menemukan hubungan / hubungan antar produk penjualan, & prediksi berdasarkan asosiasi tersebut.

Profiling pelanggan, Jenis pelanggan apa yang membeli produk apa (pengelompokan atau klasifikasi)

Analisis kebutuhan pelanggan, Misalnya identifikasi produk terbaik untuk berbagai kelompok pelanggan, Memprediksi faktor apa yang akan menarik pelanggan baru, Penyediaan informasi ringkasan, Laporan ringkasan multidimensi, Informasi ringkasan statistik (kecenderungan dan variasi pusat data)

2. Corporate Analysis & Risk Management

Penerapan Data mining dalam sektor perusahaan biasanya digunakan untuk prediksi, retensi pelanggan, underwriting yang lebih baik, kontrol kualitas, analisis kompetitif.

Perencanaan keuangan dan evaluasi aset, Misalnya analisis dan prediksi arus kas, analisis klaim kontinjensi untuk mengevaluasi aset, analisis cross-sectional dan time series (rasio keuangan, tren analisis, dll.)

Planning Perencanaan sumber daya, Misalnya merangkum dan membandingkan sumber daya dan pengeluaran 

Persaingan, Misalnya memantau pesaing dan arah pasar, mengelompokkan pelanggan ke dalam kelas dan penetapan harga berbasis kelas prosedur, dan mengatur strategi penetapan harga di pasar yang sangat kompetitif.

3. Fraud Detection & Mining Unusual Patterns

Data mining juga berfungsi untuk mencari dan mendeteksi fraud pada sebuah sistem. Dengan menggunakan data mini maka akan bisa melihat dari jutaan transaksi yang masuk.

Pendekatan: Clustering & konstruksi model untuk penipuan, analisis outlier

Aplikasi: Layanan kesehatan, ritel, layanan kartu kredit, telecomm. Misalnya Asuransi otomatis, Pencucian uang, Asuransi kesehatan, Telekomunikasi, Analisis pola yang menyimpang dari norma yang diharapkan, Industri retail, Dll.


Langkah dalam melakukan analisis Naive Bayes dan Random Forest

1. Melakukan identifikasi tipe data

2. Melakukan pre-processing berupa data cleaning 

3. Menganalisis analisis statistika deskriptif  

4. Melakukan visualisasi data

5. Melakukan analisis feature extraction menggunakan principle component

6. Membagi data dengan metode repeated holdout dan k-fold

7. Melakukan metode klasifikasi Naïve Bayes dan random forest

8. Melakukan evaluasi model


Itulah beberapa informasi tentang naive bayes dan random forest, Kamu bisa mempelajari tentang penambangan data untuk mendapatkan dan mengumpulkan informasi/data yang berguna untuk masa depan.

Tidak ada komentar:

Posting Komentar

Perangkat Pembelajaran Materi Lapisan Bumi

Silabus :      Silabus adalah rencana pembelajaran pada suatu dan atau kelompok mata pelajaran atau tema tertentu yang mencakup standar komp...