Text Mining
Masalah Umum yang ditangani
Analisis Cluster
Konsep dasar dari IR adalah pengukuran kesamaan
Sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya.
Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumen-dokumen lain.
Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.
Information Extraction
Sebagai contoh:
o “Indonesia dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan komunikasi.”
o KerjaSama(Indonesia, Singapore, TIK)
Dengan IE, kita dapat menemukan:
o concepts (CLASS)
o concept inheritance (SUBCLASS-OF)
o concept instantiation (INSTANCE-OF)
o properties/relations (RELATION)
o domain and range restrictions (DOMAIN/RANGE)
o equivalence
Proses text mining meliputi proses tokenizing, filtering, stemming, dan tagging.
Tokenizing
Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga menghasilkan kata-kata yang berdiri sendiri-sendiri.
Automatic Clustering
CLHM (Centroid Linkage Hierarchical Method)
1. Diasumsikan setiap data dianggap sebagai cluster. Kalau n=jumlah data dan c=jumlah cluster, berarti ada c=n.
2. Menghitung jarak antar cluster dengan Euclidian distance.
3. Mencari 2 cluster yang mempunyai jarak centroid antar cluster yang paling minimal dan digabungkan (merge) kedalam cluster baru (sehingga c=c-1).
4. Kembali ke langkah 3, dan diulangi sampai dicapai cluster yang diinginkan.
Analisa Cluster
Dimana:
Vc2 = varian pada cluster c
c = 1..k, dimana k = jumlah cluster
nc = jumlah data pada cluster c
yi = data ke-i pada suatu cluster
yi = rata-rata dari data pada suatu cluster
Selanjutnya dari nilai varian diatas, kita bisa menghitung nilai variance within cluster (Vw) dengan rumus:
.........(2)
Dimana, N = Jumlah semua data
ni = Jumlah data cluster i
Vi = Varian pada cluster i
Dan nilai variance between cluster (Vb) dengan rumus:
..............(3)
Dimana, y = rata-rata dari yi
..................(4)
Hill Climbing
Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai global optimum terletak pada tahap ke-i, jika memenuhi persamaan berikut:
Vi+1 > α. Vi ...... (5)
Dimana, α adalah nilai tinggi.
Nilai tinggi digunakan untuk menentukan seberapa mungkin metode ini mencapai global optimum. Nilai α yang biasa digunakan adalah 2,3, dan 4. Persamaan diatas, diperoleh berdasar analisa pergerakan varian pola Hill climbing yang ditunjukkan pada gambar berikut:
Berikut tabel 1 yang menunjukkan polapola valley tracing dan hill climbing yang mungkin mencapai global optimum. Pola yang mungkin ditandai dengan simbol √.
Tabel. Tabel kemungkinan pola hill climbing mencapai global optimum
Selanjutnya, dengan pendekatan metode hill climbing dilakukan identifikasi perbedaan nilai tinggi (∂) pada tiap tahap, yang didefinisikan dengan:
∂ = Vi+1 . (Vi * α) ...(6)
Untuk mengetahui keakuratan dari suatu metode pembentukan cluster pada hierarchical method, dengan menggunakan hill climbing digunakan persamaan sebagai berikut:
................(8)
Dimana nilai terdekat ke max (∂) adalah nilai kandidat max(∂) sebelumnya. Nilai ö yang lebih besar atau sama dengan 2 (ö≥2), menunjukkan cluster yang terbentuk merupakan cluster yang wellseparated (terpisah dengan baik).
Implementasi
Gambar. Use case diagram proses pencarian dan penyimpanan dokumen dari internet
Gambar ini adalah merupakan use-case diagram untuk proses pencarian dan penyimpanan dokumen yang diambil dari internet.
Kesimpulan Dari hasil uji coba dan analisa yang telah dilakukan, maka dapat diambil kesimpulan:
Daftar Pustaka
Fauzi,hilman.dkk. Makalah Dokumen Data Mining.Universitas Komputer Indonesia.
web mining.pdf (http://www.google.com/)
text mining.pdf (http://www.google.com/)
data mining.pdf (http://www.google.com/)
- Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.
- Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.
Masalah Umum yang ditangani
- Klasifikasi Dokumen
- Information Retrieval
- Pengorganisasian dan Clustering Dokumen
- Information Extraction
Analisis Cluster
- Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya
- Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.
- Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola.
- Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.
Konsep dasar dari IR adalah pengukuran kesamaan
Sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya.
Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumen-dokumen lain.
Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.
Information Extraction
- Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen.
- Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem.
- IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada.
Sebagai contoh:
o “Indonesia dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan komunikasi.”
o KerjaSama(Indonesia, Singapore, TIK)
Dengan IE, kita dapat menemukan:
o concepts (CLASS)
o concept inheritance (SUBCLASS-OF)
o concept instantiation (INSTANCE-OF)
o properties/relations (RELATION)
o domain and range restrictions (DOMAIN/RANGE)
o equivalence
Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang sering digunakan:
Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept. Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks.
- Words.
- Terms, merupakan single word dan frasa multiword yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.
- Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain. Pada tugas akhir ini, konsep di-generate dari argument atau verb yang sudah diberi label pada suatu dokumen.
Proses text mining meliputi proses tokenizing, filtering, stemming, dan tagging.
Tokenizing
Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga menghasilkan kata-kata yang berdiri sendiri-sendiri.
Filtering
Stemmer:
1. Step 1a : remove plural suffixation
2. Step 1b : remove verbal inflection
3. Step 1b1 : continued for -ed and -ing rules
4. Step 1c : y and i
5. Step 3
6. Step 4 : delete last suffix 4
7. Step 5a : remove e
8. Step 5b : reduction
Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil tokenizing. Tahap filtering ini dapat menggunakan algoritma stoplist atau wordlist. Stoplist yaitu penyaringan (filtering) terhadap kata-kata yang tidak layak untuk dijadikan sebagai pembeda atau sebagai kata kunci dalam pencarian dokumen sehingga kata-kata tersebut dapat dihilangkan dari dokumen. Sedangkan wordlist adalah daftar kata-kata yang mungkin digunakan sebagai kata kunci dalam pencarian dokumen.
Stemming
Stemming adalah proses mengubah kata menjadi kata dasarnya dengan menghilangkan imbuhan-imbuhan pada kata dalam dokumen atau mengubah kata kerja menjadi kata benda. Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran).
Contoh: connect adalah stem dari connected, connecting, connection, dan connections.
Gambar. Bagan metode stemming
Porter stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional yang umum dari bahasa Inggris. Step-step algoritma PorterStemmer:
1. Step 1a : remove plural suffixation
2. Step 1b : remove verbal inflection
3. Step 1b1 : continued for -ed and -ing rules
4. Step 1c : y and i
5. Step 3
6. Step 4 : delete last suffix 4
7. Step 5a : remove e
8. Step 5b : reduction
Gambar. Control flow algoritma Porter Stemmer
Tagging
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Contoh: was be, used use, stori story, dll.
Analyzing
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Contoh: was be, used use, stori story, dll.
Analyzing
Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata dengan dokumen yang ada.
Clustering adalah proses membuat pengelompokan sehingga semua anggota dari setiap partisi mempunyai persamaan berdasarkan matrik tertentu. Sebuah cluster adalah sekumpulan objek yang digabung bersama karena persamaan atau kedekatannya. Clustering atau klasterisasi merupakan sebuah teknik yang sangat berguna karena akan mentranslasi ukuran persamaan yang intuitif menjadi ukuran yang kuantitatif.
CLHM (Centroid Linkage Hierarchical Method)
Centroid Linkage adalah proses pengklasteran yang didasarkan pada jarak antar centroidnya [6]. Metode ini baik untuk kasus clustering dengan normal data set distribution. Akan tetapi metode ini tidak cocok untuk data yang mengandung outlier. Algoritma Centroid Linkage Hierarchical Method adalah sebagai berikut:
1. Diasumsikan setiap data dianggap sebagai cluster. Kalau n=jumlah data dan c=jumlah cluster, berarti ada c=n.
2. Menghitung jarak antar cluster dengan Euclidian distance.
3. Mencari 2 cluster yang mempunyai jarak centroid antar cluster yang paling minimal dan digabungkan (merge) kedalam cluster baru (sehingga c=c-1).
4. Kembali ke langkah 3, dan diulangi sampai dicapai cluster yang diinginkan.
Analisa Cluster
Analisa cluster adalah suatu teknik analisa multivariate (banyak variabel) untuk mencari dan mengorganisir informasi tentang variabel tersebut sehingga secara relatif dapat dikelompokkan dalam bentuk yang homogen dalam sebuah cluster. Secara umum, bisa dikatakan sebagai proses menganalisa baik tidaknya suatu proses pembentukan cluster. Analisa cluster bisa diperoleh dari kepadatan cluster yang dibentuk (cluster density). Kepadatan suatu cluster bisa ditentukan dengan variance within cluster (Vw) dan variance between cluster (Vb). Varian tiap tahap pembentukan
cluster bisa dihitung dengan rumus:
..............(1)Dimana:
Vc2 = varian pada cluster c
c = 1..k, dimana k = jumlah cluster
nc = jumlah data pada cluster c
yi = data ke-i pada suatu cluster
yi = rata-rata dari data pada suatu cluster
Selanjutnya dari nilai varian diatas, kita bisa menghitung nilai variance within cluster (Vw) dengan rumus:
.........(2)
Dimana, N = Jumlah semua data
ni = Jumlah data cluster i
Vi = Varian pada cluster i
Dan nilai variance between cluster (Vb) dengan rumus:
..............(3)
Dimana, y = rata-rata dari yi
Salah satu metode yang digunakan untuk menentukan cluster yang ideal adalah batasan variance, yaitu dengan menghitung kepadatan cluster berupa variance within cluster (Vw) dan variance between cluster (Vb). Cluster yang ideal mempunyai Vw minimum yang merepresentasikan internal homogenity dan maksimum Vb yang menyatakan external homogenity.
..................(4)
Hill Climbing
Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai global optimum terletak pada tahap ke-i, jika memenuhi persamaan berikut:
Vi+1 > α. Vi ...... (5)
Dimana, α adalah nilai tinggi.
Nilai tinggi digunakan untuk menentukan seberapa mungkin metode ini mencapai global optimum. Nilai α yang biasa digunakan adalah 2,3, dan 4. Persamaan diatas, diperoleh berdasar analisa pergerakan varian pola Hill climbing yang ditunjukkan pada gambar berikut:
Gambar. Pola nilai beda Hill-climbing
Tabel. Tabel kemungkinan pola hill climbing mencapai global optimum
Selanjutnya, dengan pendekatan metode hill climbing dilakukan identifikasi perbedaan nilai tinggi (∂) pada tiap tahap, yang didefinisikan dengan:
∂ = Vi+1 . (Vi * α) ...(6)
Nilai ∂ digunakan untuk menghindari local optima, dimana persamaan ini diperoleh dari maksimum ∂ yang dipenuhi pada persamaan 6. Untuk membentuk cluster secara otomatis, yaitu cluster yang mencapai global optima, digunakan nilai ë sebagai threshold, sehingga cluster secara
otomatis terbentuk ketika memenuhi:
max(∂) ≥ .....(7)Untuk mengetahui keakuratan dari suatu metode pembentukan cluster pada hierarchical method, dengan menggunakan hill climbing digunakan persamaan sebagai berikut:
................(8)
Dimana nilai terdekat ke max (∂) adalah nilai kandidat max(∂) sebelumnya. Nilai ö yang lebih besar atau sama dengan 2 (ö≥2), menunjukkan cluster yang terbentuk merupakan cluster yang wellseparated (terpisah dengan baik).
Gambar. Use case utama (Architecturally Significant)
Gambar diatas adalah gambaran sistem secara garis besar yang dibedakan menjadi lima proses utama, yaitu proses searching dan simpan dokumen online, proses text mining, proses pengklasteran dengan algoritma Centroid Linkage Hierarchical Method, proses pembentukan jumlah cluster secara otomatis (automatic clustering) dan bagaimana menampilkan hasil pencarian dokumen.Gambar. Use case diagram proses pencarian dan penyimpanan dokumen dari internet
Gambar ini adalah merupakan use-case diagram untuk proses pencarian dan penyimpanan dokumen yang diambil dari internet.
Gambar. Use case diagram proses text mining
Gambar di atas adalah use-case diagram untuk proses text mining dimana user yang akan melakukan pencarian dokumen harus memasukkan keywords (kata kunci) terlebih dahulu kemudian sistem akan melakukan proses dari text mining.
Gambar. Use case diagram proses clustering dengan CLHM
Gambar ini menunjukkan proses clustering dengan menggunakan metode CLHM (Centroid Linkage Hierarchical Method). Kata kunci yang dimasukkan oleh user akan dicari jumlahnya oleh sistem pada dokumen kemudian jumlah ini yang akan menentukan proses clustering berikut.
Gambar. Use case diagram proses automatic clustering dengan hill climbing
Gambar tersebut menunjukkan proses dari pembentukan automatic clustering dengan melihat pola pergerakan varian yang ada. Dengan menggunakan metode hill climbing maka dianalisa posisi global optimum yang mungkin sehingga bisa dibentuk jumlah cluster yang tepat.
Gambar. Use case diagram proses hasil pencarian dokumen sesuai kata kunci
Gambar terakhir menunjukkan hasil akhir dari proses clustering engine ini. Yaitu menampilkan hasil dokumen yang tepat sesuai dengan kata kunci yang diinputkan oleh user.Kesimpulan Dari hasil uji coba dan analisa yang telah dilakukan, maka dapat diambil kesimpulan:
1. Penggunaan text mining untuk pengkategorisasian teks dokumen bahasa Inggris memudahkan dalam pencarian dokumen yang sesuai dengan keinginan dari pengguna.
2. Pencarian dokumen dengan menggunakan algoritma Centroid Linkage Hierarchical Method dengan pola analisa varian Hill Climbing dapat digunakan untuk mengelompokkan dokumen secara otomatis dengan jumlah cluster yang tepat.
3. Pola analisa varian dengan menggunakan metode Hill Climbing memerlukan waktu yang lebih cepat dalam melakukan analisa jumlah cluster jika dibandingkan dengan metode valley tracing. Hal ini disebabkan karena pengclusteran hasil dari Hill Climbing mendukung akses kecepatan penghitungan dokumen pada tiap clusternya.
4. Pola analisa varian dengan menggunakan metode Hill Climbing sangat sesuai untuk pencarian dokumen dengan jumlah yang sangat besar dan kata kunci yang panjang. Hal ini berpotensi untuk implementasi program dalam skala yang lebih luas.
Fauzi,hilman.dkk. Makalah Dokumen Data Mining.Universitas Komputer Indonesia.
web mining.pdf (http://www.google.com/)
text mining.pdf (http://www.google.com/)
data mining.pdf (http://www.google.com/)
mantab banget gan
BalasHapusmesin pemisah lcd