Comparison Of Naïve Bayes And Support Vector Machines In Classifying Sentiment On Twitter About Artificial Intelligence Development
Abstract
Analisis sentimen merupakan bagian dari data mining yang digunakan untuk mengolah dan memproses teks dengan tujuan untuk mengetahui bagaimana opini atau pandangan masyarakat tentang suatu isu atau masalah tertentu. Metode klasifikasi yang digunakan untuk melakukan analisis sentimen pada data berupa teks, diantaranya Naive Bayes dan Support Vector Machine (SVM). Dalam mengevaluasi performa model klasifikasi yang telah dibuat, biasanya akan diukur nilai akurasinya. Oleh karena itu, penelitian ini bertujuan untuk membandingkan performa dari model klasifikasi sentimen yang menggunakan metode Naive Bayes dan SVM, dengan TF-IDF dan CountVectorizer sebagai ekstraksi fitur serta Information Gain sebagai seleksi fitur. Selain itu, digunakan juga N-gram sebagai upaya untuk dapat meningkatkan akurasi model klasifikasi. Penelitian ini menggunakan dataset berupa cuitan pengguna Twitter tentang perkembangan Artificial Intelligence. Data tersebut nantinya dikategorikan menjadi dua kelas, yaitu positif dan negatif, serta akan diolah dengan menggunakan tahapan knowledge discovery in databases (KDD). Hasil penelitian menunjukkan bahwa model hasil Naive Bayes mendapatkan akurasi tertinggi saat menggunakan ekstraksi fitur CountVectorizer, sedangkan model hasil SVM mendapatkan akurasi tertinggi saat menggunakan TF-IDF. Selain itu, penggunaan Information Gain ternyata dapat meningkatkan nilai akurasi model hasil Naive Bayes sebesar 12% menggunakan CountVectorizer dengan N-gram. Namun penggunaan Information Gain justru menurunkan nilai akurasi model hasil SVM sebesar 0,73% menggunakan TF-IDF dengan N-gram.