Assalamualaikum
wr wb
Tidak berasa perkuliahan sudah memasuki tahapan akhir tentu
memulai mencari dan mengumpulakan data serta menyusunan metode yang tepat dalam
menyusun tesis, bahan dari tesis harus
benar dalam bentuk penelitian dan bermanfaat tentunya. Masih bingung kira- kira
akan mengambil judul atau metode apa ya? Boleh kok klo memakai metode-metode
dalam data mining seperti clastering moupun decicion tree. Bertepatan dengan
tugas yang diberikan bapak dosen untuk membahas beberapa judul bahasan tentang
Tahapan data mining diantaranya:data cleaning/prepossessing,data integrase,data
seleksi,data transformasi,paterrern evolusi saya akan memilih preprosesing pada data
mining. Untuk pengertian,fungsi dan lainnya tentang data mining bisa dibahas kapan-kapan ya viewer J
Sebelum proses data mining dapat
dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD (knowledge
discovery in Data). Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.Tahapan
yang dilakukan pada proses data mining diawali dari seleksi data dari data
sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data,
transformasi, data mining serta tahap interpretasi dan evaluasi yang
menghasilkan output berupa pengetahuan baru yang diharapkan memberikan
kontribusi yang lebih baik. Secara detail dijelaskan sebagai berikut (Fayyad,
1996):
Tahapan dalam melakukan data mining salah satunya adalah
preprosesing data. Pertanyaannya adalah mengapa data perlu di bersihkan sebelum
diproses ?
Hal ini terjadi karena biasanya data yang akan digunakan belum baik, penyebabnya antara lain :
– Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.
– Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
– Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse memerlukan integrasi kualitas data yang konsisten.
Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik adalah :
– Accuracy
– Completeness
– Consistency
– Timeliness
– Value added
– Interpretability
– Accessibility
– Contextual
– Representational
Hal ini terjadi karena biasanya data yang akan digunakan belum baik, penyebabnya antara lain :
– Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.
– Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
– Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse memerlukan integrasi kualitas data yang konsisten.
Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik adalah :
– Accuracy
– Completeness
– Consistency
– Timeliness
– Value added
– Interpretability
– Accessibility
– Contextual
– Representational
Teknik atau
metode yang digunakan dalam data preprocessing, diantaranya:
- Data cleaning:Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa data yang tidak konsisten.
- Data integrasi:Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam penyimpanan data yang sesuai.
- Data transformasi:Normalisasi dan pengumpulan data sehingga menjadi sama.
- Data reduksi:Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan hasil analitis yang sama.
- Data diskretisasi:Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data numerik
Daftar
Pustaka
Turban, E,
2005, Decision Support Systems and Intelligent Systems Edisi Bahasa
Indonesia Jilid 1. Andi: Yogyakarta.
Larose,
Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data
Mining. John Willey & Sons, Inc.
ayyad,
Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.
Om, mo nanya nih..
BalasHapusgmna tahap pmbersihan pada data yg banyak.. Apaka ad aplikasi lain buat bersihinnya?? Sedang kn banyak tahap buat proses ini??
Mohon pencerahannya om
Hapusmenggunakan python om
Hapus