Klasifikasi Tweet E-Commerce dengan Menggunakan Metode Support Vector Machine

Abstract

Aktifitas belanja online telah menjadi kebutuhan masyarakat. Online shop di media sosial merupakan pilihan tempat berbelanja karena pembeli dapat berinteraksi dan berkonsultasi langsung dengan penjual. Tantangan dalam mengumpulkan informasi transaksi e‑commerce di media sosial adalah banyaknya pemilik online shop dan kerahasiaan data. Namun demikian, informasi transaksi e‑commerce di Twitter dapat ditemukan pada tweet yang dapat diakses publik. Tweet biasanya berisikan aktifitas sebelum pembelian, aktifitas pembelian, aktifitas pengiriman oleh penjual, atau aktifitas penerimaan oleh pembeli. Hal ini menjadi indikator adanya transaksi. Tantangan lainnya adalah teks di media sosial menggunakan bahasa alami manusia yang seringkali dituliskan secara tidak terstruktur. Dalam penelitian ini, diklasifikasikan apakah suatu tweet berkaitan dengan transaksi e‑commerce atau tidak. Oleh karena itu, tweet yang telah dikumpulkan dan diberi label perlu dipraproses, meliputi case folding, cleaning, tokenisasi, normalisasi kata, stopword removal dan stemming. Selanjutnya, dilakukan ekstraksi fitur berdasarkan nilai document frequency dan threshold minimum bagi kata untuk dipilih sebagai fitur. Untuk setiap tweet, ditentukan nilai fitur dengan term frequency-inverse document frequency. Setelah dilakukan cross-validation dengan menggunakan kernel RBF, diketahui parameter terbaik adalah pasangan parameter C=0,9 dan γ=0,8 dengan rataan akurasi sebesar 96,1%. Model terbaik merupakan model yang menghasilkan nilai akurasi tertinggi. Akhirnya dilakukan pengujian dengan hasil akurasi sebesar 94%.