Data Mining – Apa itu Data Mining? Data Mining merupakan kegiatan – kegiatan pengumpulan, Pemakaian data historis untuk menemukan keteraturan, hubungan dan pola dalam set data yang berukuran besar. Namun menurut dari sumber tertentu dari lainnya yaitu Data Mining adalah proses – proses yang menggunakan teknik matematika, statistik, kecerdasan buatan, machine learning untuk mengidentifikasi informasi dan mengekstraksi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban dkk, 2005), Terdapat beberapa istilah lainnya yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), kecerdasan bisnis (business intelligence), analisa data/pola (data/pattern analysis), data archaeolgy, dan data dredging (Larose, 2005)
Kemampuan dari Data Mining tersebut unutk mencari informasi – informasi bisnis yang sangat berharga dari basis data yang sangat besar, dan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai sebagai untuk :
1. Menentukan prediksi trend dan sifat – sifat bisnis, dimana data mining akan mengotomatisasi proses pencarian informasi pemprediksi di dalam suatu basis data yang besar.
2. Penemuan pola – pola yang tidak diketahui sebelumnya, dimana pada data mining menyapu sebuah basis data, kemudian mengidentifikasikan pola – pola yang sebelumnya tersembunyi dalam satu sapuan.
3. Data Mining berguna dalam untuk membuat suatu keputusan yang sangat kritis, terutama dalam rancangan strategi bisnis.
Beberapa Definisi Data Mining dari Sumber (Larose, 2005) :
1. Data Mining adalah proses untuk menemukan sesuatu yang bermakna dari suatu korelasi baru, tren dan pola yang ada dengan cara memilah – milah data berukuran besar yang disimpan dalam repositori, dengan menggunakan teknologi pengenalan pola serta teknik statistik dan matematika.
2. Data Mining adalah suatu pengamatan analisa database untuk menemukan suatu hubungan yang tidak terduga dan untuk meringkas data dengan cara atau menggunakan metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data.
3. Data Mining merupakan suatu bidang ilmu interdisipliner yang menyatukan teknik pembelajaran dari mesin (machine learning), statistik, database, pengenalan pola (pattern recognition), dan visualisasi untuk mengatasi suatu masalah ekstraksi informasi dari suatu basis data yang besar.
4. Data mining dapat diartikan sebagai suatu proses ekstraksi informasi yang berguna dan sangat potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.
Fungsi dari Data Mining
Data Mining ini memiliki beberapa fungsi yang sangat penting untuk membantu mendapatkan sebuah informasi yang berguna serta untuk meningkatkan pengetahuan bagi pengguna. Pada dasarnya, data mining ini memiliki atau mempunyai empat fungsi dasar seperti yaitu :
1. Prediksi (Prediction), Fungsi prediksi ini yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenisnya atau nilainya.
2. Deskripsi (Description), Fungsi ini yaitu proses untuk menemukan suatu atau beberapa karakteristik penting dari data dalam suatu basis data.
3. Klasifikasi (Classification), Fungsi ini yaitu merupakan suatu proses untuk menemukan beberapa model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan pada data di masa depan yang akan datang.
4. Asosiasi (Association), Fungsi ini yaitu proses yang digunakan untuk menemukan sebuah atau suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.
Proses Data Mining
Proses – proses pada Data Mining ini yang pada umumnya dilakukan antara lain : estimasi, prediksi, deskripsi, clustering, klasifikasi, dan asosiasi. Secara rinci dari proses data mining ini menurut sumber dari (Larose, 2005) sebagai berikut :
A. Deskripsi
Deskripsi ini mempunyai tujuan yaitu untuk mengidentifikasi pola yang muncul secara berulang pada suatu data dan akan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang akan dihasilkan harus mudah dimengerti juga agar dapat berjalan efektif meningkatkan tingkat pengetahuan pada sistem. Tugas dari deskriptif ini merupakan tugas data mining yang paling sering dibutuhkan pada teknik postprocessing untuk melakukan sebuah validasi dan menjelaskan hasil dari proses data mining. Postprocessing juga merupakan proses yang akan digunakan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak berkepentingan.
B. Prediksi
Prediksi ini memiliki kemiripan dengan klasifikasi, akan tetapi data tersebut diklasifikasikan berdasarkan nilai atau perilaku yang akan diperkirakan pada masa yang akan daatang. Contohnya saja dddari tugas prediksi ini misalnya seperti untuk memprediksikan adanya pengurangan dari jumlah pelanggan dalam waktu dekat dan prediksi harga saham dalam waktu tiga bulan yang akan mendatang.
C. Estimasi
Estimasi ini juga hampir sama dengan prediksi, kecuali variabel target estimasi ini lebih mengarah atau ke arah numerik dari pada ke arah kategorinya. Model ini dibangun dengan menggunakan record lengkap yang menyediakan nilai dari suatu variabel target sebagai nilai prediksinya. Selanjutnya yaitu,, pada peninjauan berikuut dari estimasi nilai dari variabel target tersebut dibuat dengan berdasarkan nilai variabel prediksi. Sebagai contohnya yaitu akan dilakukannya estimasi tekanan darah sistolik pada suatu pasien di rumah sakit berdasarkan umur pasien, berat badan, jenis kelamin, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan sebuah model estimasi.
D. Klasifikasi
Klasifikasi yaitu merupakan sebuah proses untuk menemukan model atau fungsi yang akan mendeskripsikan dan membedakan data ke dalam kelas – kelas. Klasifikasi ini melibatkan proses pemeriksaan karakteristik dari suatu objek dan memasukkan objek tersebut kedalam salah satu kelas yang sudah di definisikan sebelumnya.
E. Clustering
Clustering ini merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster adalah yaitu dari kumpulan sebuah record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lainnya. Tujuannya adalah untuk menghasilkan pengelompokan objek data yang mirip satu usama lain dengan kelompok – kelompok. Semakin besar objek dalam suatu cluster dan semakin besar pula perbedaan tiap cluster maka kualitas analisis cluster juga akan semakin baik.
F. Asosiasi
Tugas dari Asosiasi dalam data mining adalah yaitu untuuk menemukan atribut yang muncul dalam suatu waktu. Di dalam dunia bisnis lebih umum disebut dengan analisis keranjang belanja (market basket analysis). Tugas Asosiasi ini berusaha untuuk mengungkapkan aturan untuk mengukur suatu hubungan antara dua atau lebih atribut.
Tahapan pada Data Mining
Tahapan – tahapan yang dilakukan pada proses data mining ini akan diawali dari seleksi data dari data sumber ke data target, tahap preprocessing ini untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang akan menghasilkan output berupa pengetahuan yang baru yang akan diharapkan memberikan kontribusi yang lebih baik lagi. Secara detail akan dijelaskan dari beberapa sumber sebagai berikut (Fayyad, 1996) :
1. Data Selection
Tahapan Data Selection atau pemilihan (seleksi) data dari suatu sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi – informasi dalam KDD dimulai. Data hasil seleksi ini yang akan digunakan untuk proses data mining, akan disimpan dalan suatu berkas, terpisah dari basis data operasional.
2. Pre-Processing / Cleaning
Sebelum proses suatu data mining dapat dilaksanakan, perlu untuuk dilakukannya proses cleaning pada data yang akan menjadi fokus KDD. Proses cleaning ini mencakup antara lain yaitu membuang duplikasi yang ada pada data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan – kesalahan pada data.
3. Transformation
Transformation atau Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai uuntuk proses data mining. Proses Coding didalam KDD merupakan proses yang kreatif dan sangat tergantung dengan jenis atau pola informasi yang akan dicari dalam basis data.
4. Data Mining
Data mining adalah proses untuk mencari pola atau informasi menarik didalam data terpilih dengan menggunakan teknik atau beberapa metode tertentu. Metode, teknik atau algoritma pada data mining ini sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada proses dan tujuan KDD tersebut secara keseluruhan.
5. Evalution / Interpretation
Pada tahap ini pola informasi yang dihasilkan dari proses data mining perlu ditampilkan didalam bentuk yang mudah dimengerti baik oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan Interpretation. Tahap Interpretation ini mencakup dari pemeriksaan apakah pola atau informasi tersebut yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Nah itulah beberapa Pengertian, Tahapan dan Fungsi dari sebuah Data Mining. Informasi – informasi diatas itu adalah diambil dari beberapa buku. Jadi silahkan anda membaca atau membelinya buku tersebut agar lebih mengerti dan dapat dipahami secara mendetail apa itu Data Mining dan cara melakukan proses – proses data mining. Sekian artikel dari kami, mudah – mudahan artikel ini bermanfaat untuk kita semua yang telah membaca. Terimakasih.
Daftar Pustaka :
– Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa Indonesia Jilid 1, Andi:Yogyakarta.
– Larose, Daniel T, 2005, Discovering Knowledge in Data : An Introduction to Data Mining, John Willey & Sons, Inc.
– Ayyad, Usama, 1996. Advances in Knowledge Discovery and Data Mining, MIT Press.