Selasa, 19 Desember 2017

Tahapan Preproscessing/Cleaning Pada Data Mining

Assalamualaikum wr wb

Tidak berasa perkuliahan sudah memasuki tahapan akhir tentu memulai mencari dan mengumpulakan data serta menyusunan metode yang tepat dalam menyusun tesis, bahan dari tesis  harus benar dalam bentuk penelitian dan bermanfaat tentunya. Masih bingung kira- kira akan mengambil judul atau metode apa ya? Boleh kok klo memakai metode-metode dalam data mining seperti clastering moupun decicion tree. Bertepatan dengan tugas yang diberikan bapak dosen untuk membahas beberapa judul bahasan tentang Tahapan data mining diantaranya:data cleaning/prepossessing,data integrase,data seleksi,data transformasi,paterrern evolusi  saya akan memilih preprosesing pada data mining. Untuk pengertian,fungsi dan lainnya tentang data mining  bisa dibahas kapan-kapan ya viewer J

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD (knowledge discovery in Data). Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail dijelaskan sebagai berikut (Fayyad, 1996):

Tahapan dalam melakukan data mining salah satunya adalah preprosesing data. Pertanyaannya adalah mengapa data perlu di bersihkan sebelum diproses ?
Hal ini terjadi karena biasanya data yang akan digunakan belum baik, penyebabnya antara lain :
– Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.
– Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
– Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse memerlukan integrasi kualitas data yang konsisten.

Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik adalah :
– Accuracy
– Completeness
– Consistency
– Timeliness
– Value added
– Interpretability
– Accessibility
– Contextual
– Representational

Teknik atau metode yang digunakan dalam data preprocessing, diantaranya:
  1.  Data cleaning:Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa data yang tidak konsisten.
  2. Data integrasi:Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam penyimpanan data yang sesuai.
  3. Data transformasi:Normalisasi dan pengumpulan data sehingga menjadi sama.
  4. Data reduksi:Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan hasil analitis yang sama.
  5. Data diskretisasi:Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data numerik
Cukup sekian dulu ya next disambung kembali ...wasallamualaikum wr wb


Daftar Pustaka
Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa Indonesia Jilid 1. Andi: Yogyakarta.
Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data Mining. John Willey & Sons, Inc.
ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.

3 komentar:

  1. Om, mo nanya nih..
    gmna tahap pmbersihan pada data yg banyak.. Apaka ad aplikasi lain buat bersihinnya?? Sedang kn banyak tahap buat proses ini??

    BalasHapus

REVIEW JOURNAL

 A Comprehensive Analysis of the Role of Artificial Intelligence and Machine Learning in Modern Digital Forensics and Incident Response Dip...