Klasifikasi Berita Menggunakan Algoritma C4.5

Abstract

Abstrak - Perkembangan zaman mengalami kemajuan yang sangat pesat, saat ini penyebaran berita yang paling populer adalah melalui internet. Berita yang disajikan di situs berita online biasanya hanya dalam kategori umum, sehingga ketika pembaca ingin mendapatkan kategori berita yang lebih spesifik harus dilakukan secara manual yang tentunya menjadi kegiatan yang cukup merepotkan. Hal ini juga dialami oleh Badan Pusat Statistik Provinsi Riau yang kesulitan dalam mencari dan mengklasifikasikan berita tentang Provinsi Riau. Dalam hal ini penerapan klasifikasi otomatis dirasa sangat diperlukan. Penelitian ini menggunakan metode klasifikasi C4.5 dengan 510 data berita yang akan diklasifikasikan menjadi 3 kategori yaitu demokrasi, kemiskinan dan ketenagakerjaan. Proses klasifikasi berita dalam penelitian ini meliputi: pengumpulan data, pelabelan manual, teks preprocessing, pembobotan kata, dan metode klasifikasi C4.5. Berdasarkan penelitian yang dilakukan, hasil uji akurasi adalah 84% dengan menggunakan pembagian data 90%:10%. Dapat disimpulkan bahwa metode C4.5 cocok digunakan dalam klasifikasi berita.Kata kunci: Badan Pusat Statistik, Berita, C4.5, Klasifikasi. Abstract - The development of the times has progressed very rapidly, currently the most popular spread of news is through the internet. The news presented on online news sites is usually only in general categories, so when readers want to get a more specific category of news, it must be done manually, which of course will be a bit of a hassle. This is also experienced by the social sector of the Badan Pusat Statistik of Riau, which has difficulty finding and classifying news about Riau Province. In this case the application of automatic classification is felt to be very necessary. This study uses the C4.5 classification method with 510 news data which will be classified into 3 categories, namely democracy, poverty and employment. The news classification process in this study includes: data collection, manual labeling, preprocessing text, word weighting, and C4.5 classification method. Based on the research conducted, the results of the accuracy test were 84% using 90%:10% data sharing. It can be concluded that the C4.5 method is suitable for use in news classification.Keywords : Badan Pusat Statistik, C4.5, Classification, News.