Langsung ke konten utama

Tahapan Preproscessing/Cleaning Pada Data Mining

Assalamualaikum wr wb

Tidak berasa perkuliahan sudah memasuki tahapan akhir tentu memulai mencari dan mengumpulakan data serta menyusunan metode yang tepat dalam menyusun tesis, bahan dari tesis  harus benar dalam bentuk penelitian dan bermanfaat tentunya. Masih bingung kira- kira akan mengambil judul atau metode apa ya? Boleh kok klo memakai metode-metode dalam data mining seperti clastering moupun decicion tree. Bertepatan dengan tugas yang diberikan bapak dosen untuk membahas beberapa judul bahasan tentang Tahapan data mining diantaranya:data cleaning/prepossessing,data integrase,data seleksi,data transformasi,paterrern evolusi  saya akan memilih preprosesing pada data mining. Untuk pengertian,fungsi dan lainnya tentang data mining  bisa dibahas kapan-kapan ya viewer J

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD (knowledge discovery in Data). Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail dijelaskan sebagai berikut (Fayyad, 1996):

Tahapan dalam melakukan data mining salah satunya adalah preprosesing data. Pertanyaannya adalah mengapa data perlu di bersihkan sebelum diproses ?
Hal ini terjadi karena biasanya data yang akan digunakan belum baik, penyebabnya antara lain :
– Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.
– Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
– Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse memerlukan integrasi kualitas data yang konsisten.

Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik adalah :
– Accuracy
– Completeness
– Consistency
– Timeliness
– Value added
– Interpretability
– Accessibility
– Contextual
– Representational

Teknik atau metode yang digunakan dalam data preprocessing, diantaranya:
  1.  Data cleaning:Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa data yang tidak konsisten.
  2. Data integrasi:Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam penyimpanan data yang sesuai.
  3. Data transformasi:Normalisasi dan pengumpulan data sehingga menjadi sama.
  4. Data reduksi:Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan hasil analitis yang sama.
  5. Data diskretisasi:Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data numerik
Cukup sekian dulu ya next disambung kembali ...wasallamualaikum wr wb


Daftar Pustaka
Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa Indonesia Jilid 1. Andi: Yogyakarta.
Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data Mining. John Willey & Sons, Inc.
ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.

Komentar

  1. Om, mo nanya nih..
    gmna tahap pmbersihan pada data yg banyak.. Apaka ad aplikasi lain buat bersihinnya?? Sedang kn banyak tahap buat proses ini??

    BalasHapus

Posting Komentar

Postingan populer dari blog ini

Contoh Data Mining: Keputusan Bermain Tenis Dengan Algoritma C 4.5

Algoritma  C  4.5  adalah  salah  satu  metode  untuk  membuat  decision  tree berdasarkan  training  data  yang  telah  disediakan.  Algoritma  C  4.5  merupakan pengembangan  dari  ID3.  Beberapa  pengembangan  yang  dilakukan  pada  C  4.5 adalah sebagai  antara  lain  bisa  mengatasi  missing  value, bisa  mengatasi  continue data, dan pruning. Pohon  keputusan  merupakan  metode  klasifikasi  dan  prediksi  yang  sangat kuat  dan  terkenal.  Metode  pohon  keputusan  mengubah  fakta  yang  sangat  besar menjadi  pohon  keputusan  yang  merepresentasikan  aturan.  Aturan  dapat  dengan mudah dipahami  dengan bahasa alami.  Dan  mereka juga dapat  diekspresikan dalam bentuk  bahasa  basis  data  seperti  Structured Query  Language  untuk  mencari record    pada    kategori    tertentu.   Pohon    keputusan   juga    berguna    untuk mengeksplorasi  data,  menemukan  hubungan  tersembunyi  antara  sejumlah  calon variabel input dengan sebuah variabel target.Karena  pohon  keputusa

Tahapan Dalam Text Mining

Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Tahapan Text Mining Masalah Umum yang ditangani Klasifikasi Dokumen Information Retrieval Pengorganisasian dan Clustering Dokumen Information Extraction Clustering Dokumen Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya. Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrie