Jumat, 31 Oktober 2025

REVIEW JOURNAL

 A Comprehensive Analysis of the Role of Artificial Intelligence and Machine Learning in Modern Digital Forensics and Incident Response

Dipo Dunsin a,, Mohamed C. Ghanem a & b,, Karim Ouazzane a, Vassil Vassilev 

 Cyber Security Research Centre, London Metropolitan University, London, N7 8DB, UK 

Department of Computer Sciences, University of Liverpool, Liverpool L69 3BX, UK

@2023 The Author(s). Published by Elsevier Ltd. This is an open-access article 

under the CC BY-NC-ND license 

https://www.sciencedirect.com/science/article/pii/S2666281723001944


Analisis Komprehensif Tentang Peran Kecerdasan Buatan dan Pembelajaran Mesin Dalam Forensik Digital Modern Dan Respons Insiden


 M. SODIKI

MAGISTER KOMPUTER

UNIVERSITAS PAMULANG


Ringkasan Umum

Jurnal ini merupakan tinjauan literatur sistematis (SLR) yang mengeksplorasi penerapan kecerdasan buatan (AI) dan pembelajaran mesin (ML) dalam forensik digital dan respons insiden (DFIR). Makalah ini memberikan analisis mendalam tentang teknik AI/ML yang digunakan dalam berbagai domain forensik digital, mencakup pengumpulan data, analisis big data, deteksi malware, dan investigasi kejahatan siber.

 

Kekuatan Jurnal

1. Cakupan Topik yang Komprehensif

  • Makalah mengeksplorasi berbagai aplikasi AI/ML dalam DFIR secara holistik
  • Mencakup tahap-tahap siklus hidup bukti forensik digital (identifikasi, pengumpulan, penyimpanan, pemeriksaan, analisis, presentasi)
  • Membahas domain yang luas: big data forensik, memori volatil, identifikasi file, malware detection, chain of custody

2. Analisis Perbandingan Sistematis

  • Tabel 3 menyajikan perbandingan detail dari 30+ penelitian berbeda
  • Mengidentifikasi kontribusi, manfaat, kekurangan, dan tingkat integrasi dari setiap pendekatan
  • Membantu pembaca memahami lanskap penelitian secara keseluruhan

3. Identifikasi Kesenjangan Penelitian

  • Makalah secara eksplisit mengidentifikasi gap dalam literatur yang ada
  • Menyoroti tantangan konkret: bias data, interpretabilitas, skalabilitas, validitas data lintas budaya
  • Menyediakan arah penelitian masa depan yang jelas

4. Relevansi Praktis

  • Membahas isu-isu real-world yang dihadapi praktisi forensik digital
  • Menghubungkan tantangan teknis dengan implikasi hukum dan etika
  • Menawarkan rekomendasi implementasi yang actionable

Kelemahan Jurnal

1. Metodologi Tinjauan yang Kurang Transparan

  • Tidak menjelaskan kriteria inklusi/eksklusi yang jelas untuk pemilihan literatur
  • Tidak menyebutkan database yang digunakan untuk pencarian literatur (Scopus, Web of Science, dll)
  • Tidak ada informasi tentang periode pencarian atau jumlah artikel yang dievaluasi
  • Kurangnya detail tentang proses screening dan selection

2. Bias Geografis dan Budaya

  • Makalah sendiri mengakui bahwa mayoritas penelitian berfokus pada konteks Barat (pasal 1)
  • Sebagian besar literatur yang dirujuk berasal dari negara berbahasa Inggris
  • Keterbatasan ini mengurangi generalisabilitas temuan untuk konteks global

3. Tingkat Analisis Kritis Terbatas

  • Beberapa bagian lebih bersifat deskriptif daripada analitik
  • Kurangnya diskusi mendalam tentang mengapa pendekatan tertentu berhasil atau gagal
  • Analisis tentang trade-off antara berbagai teknik masih superfisial

4. Validasi dan Standarisasi

  • Meskipun makalah mengidentifikasi masalah validasi data sebagai tantangan kritis, solusi konkret belum ditawarkan
  • Diskusi tentang standarisasi dalam forensik digital masih terbatas
  • Tidak ada framework komprehensif untuk mengatasi isu-isu ini

5. Status Publikasi

  • Dokumen adalah preprint yang belum melalui peer review (seperti dicatat berkali-kali dalam dokumen)
  • Ini berarti makalah belum divalidasi oleh komunitas ilmiah
  • Beberapa klaim mungkin masih perlu verifikasi lebih lanjut

6. Kedalaman Teknis Variabel

  • Beberapa section (misal 2.1-2.12) terasa fragmentaris dengan kedalaman yang tidak konsisten
  • Beberapa penelitian dijelaskan dengan detail tinggi, sementara yang lain hanya sekilas
  • Kurangnya penjelasan teknis tentang bagaimana algoritma ML tertentu diterapkan dalam konteks forensik

 

Analisis Detail Konten

Bagian Kuat:

  1. Diskusi Forensik Memori (Bagian 2.2, 2.11)
    • Menjelaskan dengan baik tantangan pengambilan memori volatil
    • Memberikan alat spesifik (DumpIt, OSXpmem) dengan keterbatasannya
  2. Malware Detection (Bagian 2.11-2.12)
    • Mendiskusikan berbagai teknik deteksi dengan akurasi yang dilaporkan
    • Membedakan antara deteksi malware yang ada vs. yang akan datang
  3. Big Data Forensics (Bagian 2.1)
    • Mengilustrasikan tantangan volume data yang besar
    • Mengusulkan kerangka kerja praktis untuk pengelolaan data

Bagian yang Perlu Perbaikan:

  1. Interpretabilitas dan Etika (Bagian 1.3)
    • Dibahas singkat, padahal merupakan isu kritis untuk adopsi praktis
    • Kurangnya diskusi tentang GDPR, CCPA, dan regulasi privasi lainnya
    • Tidak ada pembahasan tentang "black box" problem dalam konteks pengadilan
  2. Chain of Custody (Bagian 2.10)
    • Terbatas pada alat visualisasi (Tanner & Bruno, 2019)
    • Kurangnya diskusi tentang integritas data dan blockchain untuk chain of custody
  3. Adversarial Attacks (Bagian 1 & 2.5)
    • Diidentifikasi sebagai tantangan, tapi solusi tidak dibahas secara mendalam
    • Padahal ini kritis untuk implementasi AI/ML di lapangan

 

Temuan Kritis

Tantangan Utama yang Diidentifikasi:

  1. Data Validation Across Cultures - Bagaimana memvalidasi data dari berbagai budaya dan latar belakang
  2. Model Interpretability - Sulit menjelaskan keputusan ML dalam pengadilan
  3. Scalability - Tantangan pemrosesan data dalam jumlah besar
  4. Standardization Gap - Kurangnya standar industri untuk DFIR dengan AI/ML
  5. Adversarial Robustness - Model ML rentan terhadap manipulasi

Rekomendasi yang Diusulkan:

  1. Adopsi berkelanjutan AI/ML dalam komunitas forensik digital
  2. Investasi dalam pengembangan perangkat advanced
  3. Penelitian yang beragam dan ekstensif
  4. Monitoring etis terhadap penggunaan AI/ML
  5. Fokus pada malware detection dan Windows registry forensics

 

Penilaian Kualitas Secara Keseluruhan

Aspek

Rating

Komentar

Relevansi

4.5/5

Sangat relevan untuk era kontemporer

Kedalaman

3.5/5

Bervariasi; beberapa area lebih mendalam dari lain

Originalitas

3/5

SLR, bukan penelitian empiris original

Metodologi

3/5

Kurang transparan dan terdokumentasi

Struktur

4/5

Logis dan mudah diikuti

Implikasi Praktis

4/5

Berguna untuk praktisi dan peneliti

Rekomendasi Untuk Perbaikan

  1. Tambahkan Metodologi SLR yang Rigorous
    • Jelaskan PRISMA guidelines yang diikuti
    • Dokumentasikan kriteria inklusi/eksklusi
    • Sertakan PRISMA flow diagram
  2. Perluas Diskusi Etika & Hukum
    • Konteks hukum dan regulasi lebih rinci
    • Implikasi GDPR, CCPA, dll
    • Pertimbangan etika dalam penerapan AI
  3. Tambahkan Studi Empiris
    • Validasi temuan dengan kasus studi real-world
    • Bandingkan performa berbagai teknik AI/ML
    • Test di lingkungan forensik sebenarnya
  4. Perkuat Bagian Adversarial Attacks
    • Teknik pertahanan konkret
    • Best practices untuk robust ML models
    • Testing metodologi
  5. Diversifikasi Literatur
    • Inklusikan penelitian dari berbagai belahan dunia
    • Pertimbangkan konteks lokal dan regulasi berbeda
    • Kolaborasi dengan komunitas forensik global
  6. Tambahan Tools & Framework Comparison
    • Tabel komparatif tools forensik dengan AI/ML
    • Evaluasi cost-benefit dari berbagai solusi
    • Rekomendasi untuk berbagai skenario use-case

Jurnal ini memberikan kontribusi signifikan sebagai tinjauan literatur komprehensif tentang AI/ML dalam forensik digital. Makalah berhasil memetakan lanskap penelitian, mengidentifikasi kesenjangan, dan menyoroti tantangan implementasi praktis. Namun, status sebagai preprint yang belum peer-reviewed dan beberapa keterbatasan metodologi mengharuskan pembaca untuk memverifikasi klaim dengan sumber primer.

 

https://www.sciencedirect.com/science/article/pii/S2666281723001944


Rabu, 03 Januari 2018

Tahapan Dalam Text Mining

Text Mining
  • Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.
  • Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.
Tahapan Text Mining

Masalah Umum yang ditangani
  • Klasifikasi Dokumen
  • Information Retrieval
  • Pengorganisasian dan Clustering Dokumen
  • Information Extraction
Clustering Dokumen

Analisis Cluster
  • Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya
  • Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.
  • Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola.
  • Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.
Information Retrieval


Konsep dasar dari IR adalah pengukuran kesamaan
Sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya.
Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumen-dokumen lain.
Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.
Information Extraction


  • Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen.
  • Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem.
  • IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada.

Sebagai contoh:
o “Indonesia dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan komunikasi.”
o KerjaSama(Indonesia, Singapore, TIK)

Dengan IE, kita dapat menemukan:


o concepts (CLASS)
o concept inheritance (SUBCLASS-OF)
o concept instantiation (INSTANCE-OF)
o properties/relations (RELATION)
o domain and range restrictions (DOMAIN/RANGE)
o equivalence


Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang sering digunakan:
Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept. Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks.

  • Words.
  • Terms, merupakan single word dan frasa multiword yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.
  • Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain. Pada tugas akhir ini, konsep di-generate dari argument atau verb yang sudah diberi label pada suatu dokumen.

Proses text mining meliputi proses tokenizing, filtering, stemming, dan tagging.

Tokenizing
Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga menghasilkan kata-kata yang berdiri sendiri-sendiri.
Filtering
Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil tokenizing. Tahap filtering ini dapat menggunakan algoritma stoplist atau wordlist. Stoplist yaitu penyaringan (filtering) terhadap kata-kata yang tidak layak untuk dijadikan sebagai pembeda atau sebagai kata kunci dalam pencarian dokumen sehingga kata-kata tersebut dapat dihilangkan dari dokumen. Sedangkan wordlist adalah daftar kata-kata yang mungkin digunakan sebagai kata kunci dalam pencarian dokumen.
Stemming
Stemming adalah proses mengubah kata menjadi kata dasarnya dengan menghilangkan imbuhan-imbuhan pada kata dalam dokumen atau mengubah kata kerja menjadi kata benda. Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran).
Contoh: connect adalah stem dari connected, connecting, connection, dan connections.
Gambar. Bagan metode stemming
Porter stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional yang umum dari bahasa Inggris. Step-step algoritma Porter
Stemmer:
1. Step 1a : remove plural suffixation
2. Step 1b : remove verbal inflection
3. Step 1b1 : continued for -ed and -ing rules
4. Step 1c : y and i
5. Step 3
6. Step 4 : delete last suffix 4
7. Step 5a : remove e
8. Step 5b : reduction

Gambar. Control flow algoritma Porter Stemmer
Tagging
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Contoh: was  be, used  use, stori  story, dll.

Analyzing
Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata dengan dokumen yang ada.

Automatic Clustering
Clustering adalah proses membuat pengelompokan sehingga semua anggota dari setiap partisi mempunyai persamaan berdasarkan matrik tertentu. Sebuah cluster adalah sekumpulan objek yang digabung bersama karena persamaan atau kedekatannya. Clustering atau klasterisasi merupakan sebuah teknik yang sangat berguna karena akan mentranslasi ukuran persamaan yang intuitif menjadi ukuran yang kuantitatif.

CLHM (Centroid Linkage Hierarchical Method)
Centroid Linkage adalah proses pengklasteran yang didasarkan pada jarak antar centroidnya [6]. Metode ini baik untuk kasus clustering dengan normal data set distribution. Akan tetapi metode ini tidak cocok untuk data yang mengandung outlier. Algoritma Centroid Linkage Hierarchical Method adalah sebagai berikut:

1. Diasumsikan setiap data dianggap sebagai cluster. Kalau n=jumlah data dan c=jumlah cluster, berarti ada c=n.
2. Menghitung jarak antar cluster dengan Euclidian distance.
3. Mencari 2 cluster yang mempunyai jarak centroid antar cluster yang paling minimal dan digabungkan (merge) kedalam cluster baru (sehingga c=c-1).
4. Kembali ke langkah 3, dan diulangi sampai dicapai cluster yang diinginkan.
Analisa Cluster
Analisa cluster adalah suatu teknik analisa multivariate (banyak variabel) untuk mencari dan mengorganisir informasi tentang variabel tersebut sehingga secara relatif dapat dikelompokkan dalam bentuk yang homogen dalam sebuah cluster. Secara umum, bisa dikatakan sebagai proses menganalisa baik tidaknya suatu proses pembentukan cluster. Analisa cluster bisa diperoleh dari kepadatan cluster yang dibentuk (cluster density). Kepadatan suatu cluster bisa ditentukan dengan variance within cluster (Vw) dan variance between cluster (Vb). Varian tiap tahap pembentukan
cluster bisa dihitung dengan rumus:
..............(1)



Dimana:
Vc2 = varian pada cluster c
c = 1..k, dimana k = jumlah cluster
nc = jumlah data pada cluster c
yi = data ke-i pada suatu cluster
yi = rata-rata dari data pada suatu cluster
Selanjutnya dari nilai varian diatas, kita bisa menghitung nilai variance within cluster (Vw) dengan rumus:


.........(2)


Dimana, N = Jumlah semua data
ni = Jumlah data cluster i
Vi = Varian pada cluster i
Dan nilai variance between cluster (Vb) dengan rumus:


..............(3)


Dimana, y = rata-rata dari yi
Salah satu metode yang digunakan untuk menentukan cluster yang ideal adalah batasan variance, yaitu dengan menghitung kepadatan cluster berupa variance within cluster (Vw) dan variance between cluster (Vb). Cluster yang ideal mempunyai Vw minimum yang merepresentasikan internal homogenity dan maksimum Vb yang menyatakan external homogenity.

..................(4)


Hill Climbing
Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai global optimum terletak pada tahap ke-i, jika memenuhi persamaan berikut:

Vi+1 > α. Vi ...... (5)

Dimana, α adalah nilai tinggi.
Nilai tinggi digunakan untuk menentukan seberapa mungkin metode ini mencapai global optimum. Nilai α yang biasa digunakan adalah 2,3, dan 4. Persamaan diatas, diperoleh berdasar analisa pergerakan varian pola Hill climbing yang ditunjukkan pada gambar berikut:
Gambar. Pola nilai beda Hill-climbing

Berikut tabel 1 yang menunjukkan polapola valley tracing dan hill climbing yang mungkin mencapai global optimum. Pola yang mungkin ditandai dengan simbol √.
Tabel. Tabel kemungkinan pola hill climbing mencapai global optimum

Selanjutnya, dengan pendekatan metode hill climbing dilakukan identifikasi perbedaan nilai tinggi (∂) pada tiap tahap, yang didefinisikan dengan:
∂ = Vi+1 . (Vi * α) ...(6)

Nilai ∂ digunakan untuk menghindari local optima, dimana persamaan ini diperoleh dari maksimum ∂ yang dipenuhi pada persamaan 6. Untuk membentuk cluster secara otomatis, yaitu cluster yang mencapai global optima, digunakan nilai ë sebagai threshold, sehingga cluster secara
otomatis terbentuk ketika memenuhi:
max(∂) ≥  .....(7)
Untuk mengetahui keakuratan dari suatu metode pembentukan cluster pada hierarchical method, dengan menggunakan hill climbing digunakan persamaan sebagai berikut:


................(8)

Dimana nilai terdekat ke max (∂) adalah nilai kandidat max(∂) sebelumnya. Nilai ö yang lebih besar atau sama dengan 2 (ö≥2), menunjukkan cluster yang terbentuk merupakan cluster yang wellseparated (terpisah dengan baik).
Implementasi
Gambar. Use case utama (Architecturally Significant)
Gambar diatas adalah gambaran sistem secara garis besar yang dibedakan menjadi lima proses utama, yaitu proses searching dan simpan dokumen online, proses text mining, proses pengklasteran dengan algoritma Centroid Linkage Hierarchical Method, proses pembentukan jumlah cluster secara otomatis (automatic clustering) dan bagaimana menampilkan hasil pencarian dokumen.

Gambar. Use case diagram proses pencarian dan penyimpanan dokumen dari internet
Gambar ini adalah merupakan use-case diagram untuk proses pencarian dan penyimpanan dokumen yang diambil dari internet.

Gambar. Use case diagram proses text mining
Gambar di atas adalah use-case diagram untuk proses text mining dimana user yang akan melakukan pencarian dokumen harus memasukkan keywords (kata kunci) terlebih dahulu kemudian sistem akan melakukan proses dari text mining.

Gambar. Use case diagram proses clustering dengan CLHM
Gambar ini menunjukkan proses clustering dengan menggunakan metode CLHM (Centroid Linkage Hierarchical Method). Kata kunci yang dimasukkan oleh user akan dicari jumlahnya oleh sistem pada dokumen kemudian jumlah ini yang akan menentukan proses clustering berikut.
Gambar. Use case diagram proses automatic clustering dengan hill climbing
Gambar tersebut menunjukkan proses dari pembentukan automatic clustering dengan melihat pola pergerakan varian yang ada. Dengan menggunakan metode hill climbing maka dianalisa posisi global optimum yang mungkin sehingga bisa dibentuk jumlah cluster yang tepat.


Gambar. Use case diagram proses hasil pencarian dokumen sesuai kata kunci
Gambar terakhir menunjukkan hasil akhir dari proses clustering engine ini. Yaitu menampilkan hasil dokumen yang tepat sesuai dengan kata kunci yang diinputkan oleh user.

Kesimpulan Dari hasil uji coba dan analisa yang telah dilakukan, maka dapat diambil kesimpulan:
1. Penggunaan text mining untuk pengkategorisasian teks dokumen bahasa Inggris memudahkan dalam pencarian dokumen yang sesuai dengan keinginan dari pengguna.
2. Pencarian dokumen dengan menggunakan algoritma Centroid Linkage Hierarchical Method dengan pola analisa varian Hill Climbing dapat digunakan untuk mengelompokkan dokumen secara otomatis dengan jumlah cluster yang tepat.
3. Pola analisa varian dengan menggunakan metode Hill Climbing memerlukan waktu yang lebih cepat dalam melakukan analisa jumlah cluster jika dibandingkan dengan metode valley tracing. Hal ini disebabkan karena pengclusteran hasil dari Hill Climbing mendukung akses kecepatan penghitungan dokumen pada tiap clusternya.
4. Pola analisa varian dengan menggunakan metode Hill Climbing sangat sesuai untuk pencarian dokumen dengan jumlah yang sangat besar dan kata kunci yang panjang. Hal ini berpotensi untuk implementasi program dalam skala yang lebih luas.

Daftar Pustaka
Fauzi,hilman.dkk. Makalah Dokumen Data Mining.Universitas Komputer Indonesia.
web mining.pdf (http://www.google.com/)
text mining.pdf (http://www.google.com/)
data mining.pdf (http://www.google.com/)



Jumat, 29 Desember 2017

Contoh Data Mining: Keputusan Bermain Tenis Dengan Algoritma C 4.5

Algoritma  C  4.5  adalah  salah  satu  metode  untuk  membuat  decision  tree berdasarkan  training  data  yang  telah  disediakan.  Algoritma  C  4.5  merupakan pengembangan  dari  ID3.  Beberapa  pengembangan  yang  dilakukan  pada  C  4.5 adalah sebagai  antara  lain  bisa  mengatasi  missing  value, bisa  mengatasi  continue data, dan pruning.
Pohon  keputusan  merupakan  metode  klasifikasi  dan  prediksi  yang  sangat kuat  dan  terkenal.  Metode  pohon  keputusan  mengubah  fakta  yang  sangat  besar menjadi  pohon  keputusan  yang  merepresentasikan  aturan.  Aturan  dapat  dengan mudah dipahami  dengan bahasa alami.  Dan  mereka juga dapat  diekspresikan dalam bentuk  bahasa  basis  data  seperti  Structured Query  Language  untuk  mencari record    pada    kategori    tertentu.   Pohon    keputusan   juga    berguna    untuk mengeksplorasi  data,  menemukan  hubungan  tersembunyi  antara  sejumlah  calon variabel input dengan sebuah variabel target.Karena  pohon  keputusan  memadukan  antara  eksplorasi  data  dan pemodelan,  pohon  keputusan  sangat  bagus  sebagai  langkah  awal  dalam  proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah  pohon  keputusan  adalah  sebuah  struktur  yang  dapat  digunakan  untuk membagi  kumpulan  data  yang  besar  menjadi  himpunan-himpunan  record  yang lebih  kecil  dengan  menerapkan  serangkaian  aturan  keputusan.  Dengan  masingmasing rangkaian pembagian, anggota himpunan hasil  menjadi  mirip satu dengan yang lain (Berry dan Linoff, 2004).
Untuk   memudahkan   penjelasan   mengenai   algoritma   C   4.5   berikut   ini disertakan contoh kasus yang dituangkan dalam Tabel 2.1

Tabel 2.1  Keputusan Bermain Tenis




Dalam  kasus  yang  tertera  pada  Tabel  2.1  akan  dibuat  pohon  keputusan untuk   menentukan   main   tenis    atau   tidak   dengan   melihat   keadaan   cuaca, temperatur, kelembaban dan keadaan angin.
Secara  umum algoritma  C4.5  untuk  membangun  pohon  keputusan  adalah
sebagai berikut:
1.  Pilih atribut sebagai akar
2.  Buat cabang untuk masing-masing nilai
3.  Bagi kasus dalam cabang
4.  Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki  kelas yang sama.
Untuk  memilih  atribut  sebagai  akar,  didasarkan  pada  nilai  Gain  tertinggi dari  atribut-atribut  yang  ada.  Untuk  menghitung  Gain  digunakan  rumus  seperti tertera dalam Rumus 1 (Craw, 2005).
                  Gain(S,A) = Entrropy(S) –  * Entropy(Si)
Dengan
S    : Himpunan Kasus
A    : Atribut
N    : Jumlah partisi atribut A
|Si|    : Jumlah kasus pada partisi ke i
|S|    : Jumlah kasus dalam S
Sedangkan   perhitungan   nilai   Entropy   dapat   dilihat   pada   rumus   2   berikut
(Craw, 2005):
Entropy(A) =
Dengan
S    : Himpunan Kasus
A    : Fitur
n    : Jumlah partisi S
pi    : Proporsi dari Si terhadap S
Berikut ini  adalah  penjelasan  lebih  rinci  mengenai  masing-masing  langkah dalam pembentukan  pohon  keputusan  dengan  menggunakan  algoritma  C4.5  untuk menyelesaikan permasalahan pada Tabel 2.1
1.            Menghitung  jumlah  kasus,  jumlah  kasus  untuk  keputusan  Ya,  jumlah kasus  untuk  keputusan Tidak,  dan  Entropy  dari  semua  kasus  dan  kasus yang  dibagi  berdasarkan  atribut  cuaca,  temperatur,  kelembaban  dan angin.  Setelah  itu  lakukan  penghitungan  Gain  untuk  masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.2
Tabel 2.2 Perhitungan Node 1


Baris   total    kolom  Entropy   pada   Tabel   2.2   dihitung   dengan   rumus   2,
sebagai berikut
              Dari hasil  pada Tabel  2.2 dapat  diketahui  bahwa atribut dengan  Gain tertinggi  adalah kelembaban  yaitu  sebesar  0.37.  Dengan  demikian  kelembaban dapat  menjadi  node  akar.  Ada 2  nilai  atribut  dari  kelembaban  yaitu  tinggi  dan normal.  Dari  kedua  nilai  atribut  tersebut,  nilai  atribut normal  sudah mengklasifikasikan  kasus  menjadi  1  yaitu  keputusannya  Ya,  sehingga tidak perlu dilakukan  perhitungan  lebih  lanjut,  tetapi  untuk  nilai  atribut  tinggi  masih  perlu dilakukan perhitungan lagi. Dari   hasil    tersebut    dapat   digambarkan   pohon   keputusan   sementara, tampak seperti Gambar 2.4

2.            Menghitung  jumlah  kasus,  jumlah  kasus  untuk  keputusan  Ya,  jumlah  kasus untuk  keputusan  Tidak,  dan  Entropy  dari  semua  kasus  dan  kasus  yang  dibagi berdasarkan  atribut  cuaca,  temperatur  dan  angin  yang  dapat  menjadi  node  akar dari  nilai  atribut  tinggi.  Setelah  itu  lakukan  penghitungan  Gain  untuk  masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3
Tabel 2.3 Perhitungan Node 1.1











Dari hasil  pada Tabel  2.3 dapat  diketahui  bahwa atribut dengan  Gain tertinggi adalah  cuaca  yaitu  sebesar  0.699.  Dengan  demikian  cuaca  dapat  menjadi node  cabang  dari  nilai  atribut  tinggi.  Ada  3  nilai  atribut  dari  cuaca  yaitu mendung, hujan  dan  cerah.  dari  ketiga  nilai  atribut  tersebut,  nilai  atribut  mendung  sudah mengklasifikasikan  kasus  menjadi  1  yaitu  keputusannya  Ya dan  nilai  atribut  cerah sudah  mengklasifikasikan  kasus  menjadi  satu  dengan  keputusan  Tidak,  sehingga tidak  perlu  dilakukan  perhitungan  lebih  lanjut,  tetapi  untuk  nilai  atribut  hujan masih perlu dilakukan perhitungan lagi.Pohon   keputusan   yang   terbentuk   sampai   tahap   ini   ditunjukkan   pada Gambar 2.5 berikut



3.            Menghitung  jumlah  kasus,  jumlah  kasus  untuk  keputusan  Ya,  jumlah  kasus untuk  keputusan  Tidak, dan  Entropy  dari  semua  kasus  dan  kasus  yang  dibagi berdasarkan  atribut  temperatur  dan  angin  yang  dapat  menjadi  node  cabang dari nilai atribut  hujan. Setelah  itu  lakukan  penghitungan  Gain  untuk  masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4 Tabel 2.4 Perhitungan Node 1.1.2













                 Dari hasil  pada Tabel  2.4 dapat  diketahui  bahwa atribut dengan  Gain tertinggi adalah  angin  yaitu  sebesar  1.  Dengan  demikian  angin  dapat menjadi node cabang  dari nilai  atribut  hujan.  Ada  2  nilai  atribut  dari  angin  yaitu  Tidak  dan  Ya. Dari  kedua  nilai  atribut  tersebut,  nilai  atribut  Tidak  sudah  mengklasifikasikan kasus  menjadi  1  yaitu  keputusannya  Ya  dan  nilai  atribut  Ya  sudah mengklasifikasikan  kasus  menjadi  satu  dengan  keputusan  Tidak,  sehingga  tidak perlu  dilakukan  perhitungan  lebih  lanjut  untuk nilai  atribut ini.  Pohon  keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.6

Dengan  memperhatikan  pohon  keputusan  pada  Gambar  2.6  diketahui bahwa    semua    kasus    sudah    masuk    dalam kelas. Dengan    demikian,    pohon keputusan pada Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.


Daftar Pustaka
Prabowo Pudjo widodo. 2013. Penerapan Data Mining Dengan MatLab. Bandung: Penerbit
Rekayasa Sains.
Nurkholifah.2016.Makalah Konsep Dasar Data Mining. Fakultas Ilmu Komputer Jurusan Sistem Informasi Universitas Indo Global Mandiri

REVIEW JOURNAL

 A Comprehensive Analysis of the Role of Artificial Intelligence and Machine Learning in Modern Digital Forensics and Incident Response Dip...