Algoritma C
4.5 adalah salah
satu metode untuk
membuat decision tree berdasarkan training
data yang telah
disediakan. Algoritma C
4.5 merupakan pengembangan dari
ID3. Beberapa pengembangan yang
dilakukan pada C 4.5 adalah
sebagai antara lain
bisa mengatasi missing
value, bisa mengatasi continue data, dan pruning.
Pohon keputusan
merupakan metode klasifikasi
dan prediksi yang
sangat kuat dan terkenal.
Metode pohon keputusan
mengubah fakta yang
sangat besar menjadi pohon
keputusan yang merepresentasikan aturan.
Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan
mereka juga dapat diekspresikan dalam
bentuk bahasa basis
data seperti Structured Query Language
untuk mencari record pada
kategori tertentu. Pohon
keputusan juga berguna
untuk mengeksplorasi data, menemukan
hubungan tersembunyi antara
sejumlah calon variabel input
dengan sebuah variabel target.Karena
pohon keputusan memadukan antara
eksplorasi data dan pemodelan, pohon
keputusan sangat bagus
sebagai langkah awal
dalam proses pemodelan bahkan
ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon
keputusan adalah sebuah
struktur yang dapat
digunakan untuk membagi kumpulan
data yang besar
menjadi himpunan-himpunan record
yang lebih kecil dengan
menerapkan serangkaian aturan
keputusan. Dengan masingmasing rangkaian pembagian, anggota
himpunan hasil menjadi mirip satu dengan yang lain (Berry dan
Linoff, 2004).
Untuk memudahkan
penjelasan mengenai algoritma
C 4.5 berikut
ini disertakan contoh kasus yang dituangkan dalam Tabel 2.1
Tabel 2.1 Keputusan Bermain Tenis
Dalam kasus
yang tertera pada
Tabel 2.1 akan
dibuat pohon keputusan untuk menentukan
main tenis atau
tidak dengan melihat
keadaan cuaca, temperatur,
kelembaban dan keadaan angin.
Secara umum algoritma C4.5
untuk membangun pohon
keputusan adalah
sebagai berikut:
1. Pilih atribut sebagai akar
2. Buat cabang untuk
masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk
masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih
atribut sebagai akar,
didasarkan pada nilai
Gain tertinggi dari atribut-atribut yang
ada. Untuk menghitung
Gain digunakan rumus
seperti tertera dalam Rumus 1 (Craw, 2005).
Gain(S,A) = Entrropy(S)
– * Entropy(Si)
Dengan
S : Himpunan Kasus
A : Atribut
N : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Sedangkan perhitungan
nilai Entropy dapat
dilihat pada rumus
2 berikut
(Craw, 2005):
Entropy(A) =
Dengan
S : Himpunan Kasus
A : Fitur
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
Berikut
ini adalah penjelasan
lebih rinci mengenai
masing-masing langkah dalam pembentukan pohon
keputusan dengan menggunakan
algoritma C4.5 untuk menyelesaikan permasalahan pada Tabel
2.1
1. Menghitung jumlah
kasus, jumlah kasus
untuk keputusan Ya,
jumlah kasus untuk keputusan Tidak, dan
Entropy dari semua
kasus dan kasus yang
dibagi berdasarkan atribut
cuaca, temperatur, kelembaban
dan angin. Setelah itu
lakukan penghitungan Gain
untuk masing-masing atribut.
Hasil perhitungan ditunjukkan oleh Tabel 2.2
Tabel 2.2
Perhitungan Node 1
Baris total
kolom Entropy pada
Tabel 2.2 dihitung
dengan rumus 2,
sebagai berikut
Dari
hasil pada Tabel 2.2 dapat
diketahui bahwa atribut
dengan Gain tertinggi adalah kelembaban yaitu sebesar
0.37. Dengan demikian
kelembaban dapat menjadi node
akar. Ada 2
nilai atribut dari kelembaban yaitu
tinggi dan normal. Dari
kedua nilai atribut
tersebut, nilai atribut normal sudah mengklasifikasikan kasus
menjadi 1 yaitu
keputusannya Ya, sehingga tidak perlu dilakukan perhitungan
lebih lanjut, tetapi
untuk nilai atribut
tinggi masih perlu dilakukan perhitungan lagi. Dari hasil
tersebut dapat digambarkan
pohon keputusan
sementara, tampak seperti Gambar 2.4
2. Menghitung
jumlah kasus, jumlah
kasus untuk keputusan
Ya, jumlah kasus untuk
keputusan Tidak, dan
Entropy dari semua
kasus dan kasus
yang dibagi berdasarkan atribut
cuaca, temperatur dan
angin yang dapat
menjadi node akar dari
nilai atribut tinggi.
Setelah itu lakukan
penghitungan Gain untuk
masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3
Tabel 2.3 Perhitungan Node 1.1
Dari
hasil pada Tabel 2.3 dapat
diketahui bahwa atribut
dengan Gain tertinggi adalah cuaca
yaitu sebesar 0.699.
Dengan demikian cuaca
dapat menjadi node cabang
dari nilai atribut
tinggi. Ada 3
nilai atribut dari
cuaca yaitu mendung, hujan dan
cerah. dari ketiga
nilai atribut tersebut,
nilai atribut mendung
sudah mengklasifikasikan
kasus menjadi 1
yaitu keputusannya Ya dan
nilai atribut cerah sudah
mengklasifikasikan kasus menjadi
satu dengan keputusan
Tidak, sehingga tidak perlu
dilakukan perhitungan lebih
lanjut, tetapi untuk
nilai atribut hujan masih perlu dilakukan perhitungan lagi.Pohon keputusan
yang terbentuk sampai
tahap ini ditunjukkan
pada Gambar 2.5 berikut
3. Menghitung
jumlah kasus, jumlah
kasus untuk keputusan
Ya, jumlah kasus untuk
keputusan Tidak, dan Entropy
dari semua kasus
dan kasus yang
dibagi berdasarkan atribut temperatur
dan angin yang
dapat menjadi node
cabang dari nilai atribut hujan.
Setelah itu lakukan
penghitungan Gain untuk
masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4 Tabel
2.4 Perhitungan Node 1.1.2
Dari hasil pada Tabel
2.4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah angin
yaitu sebesar 1.
Dengan demikian angin
dapat menjadi node cabang dari
nilai atribut hujan.
Ada 2 nilai
atribut dari angin
yaitu Tidak dan
Ya. Dari kedua nilai
atribut tersebut, nilai
atribut Tidak sudah
mengklasifikasikan kasus
menjadi 1 yaitu
keputusannya Ya dan
nilai atribut Ya sudah mengklasifikasikan kasus
menjadi satu dengan
keputusan Tidak, sehingga
tidak perlu dilakukan perhitungan
lebih lanjut untuk nilai
atribut ini. Pohon keputusan yang terbentuk sampai tahap ini
ditunjukkan pada Gambar 2.6
Dengan memperhatikan
pohon keputusan pada
Gambar 2.6 diketahui bahwa semua
kasus sudah masuk
dalam kelas. Dengan
demikian, pohon keputusan pada
Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.
Daftar Pustaka
Prabowo Pudjo widodo. 2013.
Penerapan Data Mining Dengan MatLab. Bandung: Penerbit
Rekayasa Sains.
Nurkholifah.2016.Makalah Konsep
Dasar Data Mining. Fakultas Ilmu Komputer Jurusan Sistem Informasi Universitas
Indo Global Mandiri
Komentar
Posting Komentar