ANALISIS PEMBOBOTAN KATA PADA KLASIFIKASI TEXT MINING

Abstract

Abstract - In this era, we need to extract the text needed to visualize or need knowledge from a large collection of document texts. Text mining is the process of obtaining high-quality information from text. High-quality information obtained because of attention to patterns and trends by reading statistical patterns. In the process of extracting the text, we need to pay for the words offered to give value/weight to the terms provided in a document. The weight given to the term depends on the method used. In weighting many words such as algorithms for example such as TF, IDF, RF, TF-IDF, TF.RF, TF.CHI, WIDF. This research will be analyzed and compared with the TF-IDF, TF.RF, and WIDF algorithms. For the test method, the naïve Bayes classification method will be used and the valuation analysis using the confusion matrix. With a dataset used as many as 130 documents in which 100 data transfer and 30 test data. Based on the analysis of the results of the classification that has been done, it can determine the weighting of TF.RF with naif classification is better than weighting TF.IDF and WIDF with Accuracy values of 98.67%, Precision 93.81%, and Recall 96.67%.Keywords - Text Mining, TF-IDF, TF-RF, WIDF, Classification, Naïve Bayes. Abstract - Pada era sekarang ini pemanfaatan text mining sangatlah diperlukan untuk mevisualkan atau mengevaluasi pengetahuan dari kumpulan besar dari teks dokumen. Text mining adalah proses untuk memperoleh informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya didapatkan karena memperhatikan pola dan tren dengan cara mempelajari pola statistik. Pada proses teks mining terdapat pembobobtan kata yang bertujuan untuk memberikan nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan pada term tergantung kepada metode yang digunakan. Dalam pembobotan kata banyak sekali terdapat algoritma-algoritma contohnya seperti TF, Idf, RF, TF-IDF, TF.RF, TF.CHI, WIDF. Pada penelitian ini akan dianalisis dan dibandingkan algoritma  TF-IDF, TF.RF, dan WIDF. Untuk metode pengujiannya akan digunakan metode klasifikasi naïve bayes  dan analisis perbandingannya menggunakan confussion matrix. Dengan dataset yang digunakan sebanyak 130 dokumen yang mana 100 data traning dan 30 data uji. Berdasarkan analisa pada hasil klasifikasi yang telah dilakukan, dapat disimpulkan bahwa pembobotan TF.RF dengan klasifikasi Naïve bayes lebih baik dari pembobotan TF.IDF dan WIDF dengan nilai Accuracy 98,67%, Precision 93,81%, dan Recall 96,67%.   Kata Kunci - Text Mining, TF-IDF, TF-RF, WIDF, Klasifikasi, Naïve Bayes.