Langsung ke konten utama

Contoh Data Mining: Keputusan Bermain Tenis Dengan Algoritma C 4.5

Algoritma  C  4.5  adalah  salah  satu  metode  untuk  membuat  decision  tree berdasarkan  training  data  yang  telah  disediakan.  Algoritma  C  4.5  merupakan pengembangan  dari  ID3.  Beberapa  pengembangan  yang  dilakukan  pada  C  4.5 adalah sebagai  antara  lain  bisa  mengatasi  missing  value, bisa  mengatasi  continue data, dan pruning.
Pohon  keputusan  merupakan  metode  klasifikasi  dan  prediksi  yang  sangat kuat  dan  terkenal.  Metode  pohon  keputusan  mengubah  fakta  yang  sangat  besar menjadi  pohon  keputusan  yang  merepresentasikan  aturan.  Aturan  dapat  dengan mudah dipahami  dengan bahasa alami.  Dan  mereka juga dapat  diekspresikan dalam bentuk  bahasa  basis  data  seperti  Structured Query  Language  untuk  mencari record    pada    kategori    tertentu.   Pohon    keputusan   juga    berguna    untuk mengeksplorasi  data,  menemukan  hubungan  tersembunyi  antara  sejumlah  calon variabel input dengan sebuah variabel target.Karena  pohon  keputusan  memadukan  antara  eksplorasi  data  dan pemodelan,  pohon  keputusan  sangat  bagus  sebagai  langkah  awal  dalam  proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah  pohon  keputusan  adalah  sebuah  struktur  yang  dapat  digunakan  untuk membagi  kumpulan  data  yang  besar  menjadi  himpunan-himpunan  record  yang lebih  kecil  dengan  menerapkan  serangkaian  aturan  keputusan.  Dengan  masingmasing rangkaian pembagian, anggota himpunan hasil  menjadi  mirip satu dengan yang lain (Berry dan Linoff, 2004).
Untuk   memudahkan   penjelasan   mengenai   algoritma   C   4.5   berikut   ini disertakan contoh kasus yang dituangkan dalam Tabel 2.1

Tabel 2.1  Keputusan Bermain Tenis




Dalam  kasus  yang  tertera  pada  Tabel  2.1  akan  dibuat  pohon  keputusan untuk   menentukan   main   tenis    atau   tidak   dengan   melihat   keadaan   cuaca, temperatur, kelembaban dan keadaan angin.
Secara  umum algoritma  C4.5  untuk  membangun  pohon  keputusan  adalah
sebagai berikut:
1.  Pilih atribut sebagai akar
2.  Buat cabang untuk masing-masing nilai
3.  Bagi kasus dalam cabang
4.  Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki  kelas yang sama.
Untuk  memilih  atribut  sebagai  akar,  didasarkan  pada  nilai  Gain  tertinggi dari  atribut-atribut  yang  ada.  Untuk  menghitung  Gain  digunakan  rumus  seperti tertera dalam Rumus 1 (Craw, 2005).
                  Gain(S,A) = Entrropy(S) –  * Entropy(Si)
Dengan
S    : Himpunan Kasus
A    : Atribut
N    : Jumlah partisi atribut A
|Si|    : Jumlah kasus pada partisi ke i
|S|    : Jumlah kasus dalam S
Sedangkan   perhitungan   nilai   Entropy   dapat   dilihat   pada   rumus   2   berikut
(Craw, 2005):
Entropy(A) =
Dengan
S    : Himpunan Kasus
A    : Fitur
n    : Jumlah partisi S
pi    : Proporsi dari Si terhadap S
Berikut ini  adalah  penjelasan  lebih  rinci  mengenai  masing-masing  langkah dalam pembentukan  pohon  keputusan  dengan  menggunakan  algoritma  C4.5  untuk menyelesaikan permasalahan pada Tabel 2.1
1.            Menghitung  jumlah  kasus,  jumlah  kasus  untuk  keputusan  Ya,  jumlah kasus  untuk  keputusan Tidak,  dan  Entropy  dari  semua  kasus  dan  kasus yang  dibagi  berdasarkan  atribut  cuaca,  temperatur,  kelembaban  dan angin.  Setelah  itu  lakukan  penghitungan  Gain  untuk  masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.2
Tabel 2.2 Perhitungan Node 1


Baris   total    kolom  Entropy   pada   Tabel   2.2   dihitung   dengan   rumus   2,
sebagai berikut
              Dari hasil  pada Tabel  2.2 dapat  diketahui  bahwa atribut dengan  Gain tertinggi  adalah kelembaban  yaitu  sebesar  0.37.  Dengan  demikian  kelembaban dapat  menjadi  node  akar.  Ada 2  nilai  atribut  dari  kelembaban  yaitu  tinggi  dan normal.  Dari  kedua  nilai  atribut  tersebut,  nilai  atribut normal  sudah mengklasifikasikan  kasus  menjadi  1  yaitu  keputusannya  Ya,  sehingga tidak perlu dilakukan  perhitungan  lebih  lanjut,  tetapi  untuk  nilai  atribut  tinggi  masih  perlu dilakukan perhitungan lagi. Dari   hasil    tersebut    dapat   digambarkan   pohon   keputusan   sementara, tampak seperti Gambar 2.4

2.            Menghitung  jumlah  kasus,  jumlah  kasus  untuk  keputusan  Ya,  jumlah  kasus untuk  keputusan  Tidak,  dan  Entropy  dari  semua  kasus  dan  kasus  yang  dibagi berdasarkan  atribut  cuaca,  temperatur  dan  angin  yang  dapat  menjadi  node  akar dari  nilai  atribut  tinggi.  Setelah  itu  lakukan  penghitungan  Gain  untuk  masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3
Tabel 2.3 Perhitungan Node 1.1











Dari hasil  pada Tabel  2.3 dapat  diketahui  bahwa atribut dengan  Gain tertinggi adalah  cuaca  yaitu  sebesar  0.699.  Dengan  demikian  cuaca  dapat  menjadi node  cabang  dari  nilai  atribut  tinggi.  Ada  3  nilai  atribut  dari  cuaca  yaitu mendung, hujan  dan  cerah.  dari  ketiga  nilai  atribut  tersebut,  nilai  atribut  mendung  sudah mengklasifikasikan  kasus  menjadi  1  yaitu  keputusannya  Ya dan  nilai  atribut  cerah sudah  mengklasifikasikan  kasus  menjadi  satu  dengan  keputusan  Tidak,  sehingga tidak  perlu  dilakukan  perhitungan  lebih  lanjut,  tetapi  untuk  nilai  atribut  hujan masih perlu dilakukan perhitungan lagi.Pohon   keputusan   yang   terbentuk   sampai   tahap   ini   ditunjukkan   pada Gambar 2.5 berikut



3.            Menghitung  jumlah  kasus,  jumlah  kasus  untuk  keputusan  Ya,  jumlah  kasus untuk  keputusan  Tidak, dan  Entropy  dari  semua  kasus  dan  kasus  yang  dibagi berdasarkan  atribut  temperatur  dan  angin  yang  dapat  menjadi  node  cabang dari nilai atribut  hujan. Setelah  itu  lakukan  penghitungan  Gain  untuk  masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4 Tabel 2.4 Perhitungan Node 1.1.2













                 Dari hasil  pada Tabel  2.4 dapat  diketahui  bahwa atribut dengan  Gain tertinggi adalah  angin  yaitu  sebesar  1.  Dengan  demikian  angin  dapat menjadi node cabang  dari nilai  atribut  hujan.  Ada  2  nilai  atribut  dari  angin  yaitu  Tidak  dan  Ya. Dari  kedua  nilai  atribut  tersebut,  nilai  atribut  Tidak  sudah  mengklasifikasikan kasus  menjadi  1  yaitu  keputusannya  Ya  dan  nilai  atribut  Ya  sudah mengklasifikasikan  kasus  menjadi  satu  dengan  keputusan  Tidak,  sehingga  tidak perlu  dilakukan  perhitungan  lebih  lanjut  untuk nilai  atribut ini.  Pohon  keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.6

Dengan  memperhatikan  pohon  keputusan  pada  Gambar  2.6  diketahui bahwa    semua    kasus    sudah    masuk    dalam kelas. Dengan    demikian,    pohon keputusan pada Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.


Daftar Pustaka
Prabowo Pudjo widodo. 2013. Penerapan Data Mining Dengan MatLab. Bandung: Penerbit
Rekayasa Sains.
Nurkholifah.2016.Makalah Konsep Dasar Data Mining. Fakultas Ilmu Komputer Jurusan Sistem Informasi Universitas Indo Global Mandiri

Komentar

Postingan populer dari blog ini

Tahapan Dalam Text Mining

Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Tahapan Text Mining Masalah Umum yang ditangani Klasifikasi Dokumen Information Retrieval Pengorganisasian dan Clustering Dokumen Information Extraction Clustering Dokumen Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya. Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrie

Tahapan Preproscessing/Cleaning Pada Data Mining

Assalamualaikum wr wb Tidak berasa perkuliahan sudah memasuki tahapan akhir tentu memulai mencari dan mengumpulakan data serta menyusunan metode yang tepat dalam menyusun tesis, bahan dari tesis  harus benar dalam bentuk penelitian dan bermanfaat tentunya. Masih bingung kira- kira akan mengambil judul atau metode apa ya? Boleh kok klo memakai metode-metode dalam data mining seperti clastering moupun decicion tree. Bertepatan dengan tugas yang diberikan bapak dosen untuk membahas beberapa judul bahasan tentang Tahapan data mining diantaranya:data cleaning/prepossessing,data integrase,data seleksi,data transformasi,paterrern evolusi  saya akan memilih preprosesing pada data mining. Untuk pengertian,fungsi dan lainnya tentang data mining  bisa dibahas kapan-kapan ya viewer J Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD ( knowledge discovery in Data) . Proses cleaning mencakup antara lain membuang duplikasi data, me