Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer
DOI:
https://doi.org/10.69688/dike.v1i2.35Keywords:
Analisis sentiment, K-Nearest Neighbors, Pra-Pemrosesan Data, CountVectorizer, TF-IDFAbstract
Analisis sentimen tweet terkait COVID-19 telah menjadi topik penelitian yang menarik karena memberikan wawasan tentang pandangan dan perasaan pengguna media sosial terhadap situasi kesehatan global ini. Dalam penelitian ini, kami melakukan analisis sentimen tweet COVID-19 menggunakan metode K-Nearest Neighbors (K-NN) dengan dua metode ekstraksi fitur yang berbeda, yaitu Term Frequency-Inverse Document Frequency (TF-IDF) dan CountVectorizer. Langkah pertama dalam penelitian ini adalah mengumpulkan dataset tweet terkait COVID-19 dari sumber yang dapat dipercaya. Setelah itu, kami membersihkan dan melakukan pra-pemrosesan data untuk mengatasi masalah seperti tanda baca, stop words, dan tautan. Selanjutnya, kami menerapkan dua teknik ekstraksi fitur, yaitu TF-IDF dan CountVectorizer, untuk mengubah teks tweet menjadi representasi vektor yang dapat digunakan oleh algoritma K-Nearest Neighbors. Dalam implementasi K-NN, kami menentukan parameter K yang optimal melalui validasi silang untuk meningkatkan kinerja model. Kami juga membagi dataset menjadi subset pelatihan dan pengujian untuk mengukur akurasi dan kinerja model secara objektif. Hasil eksperimen menunjukkan bahwa K-Nearest Neighbors dengan ekstraksi fitur TF-IDF dan CountVectorizer keduanya memberikan hasil yang baik dalam analisis sentimen tweet COVID-19. Namun, kami menemukan bahwa satu metode mungkin memberikan performa yang lebih baik tergantung pada karakteristik dataset tertentu. Dalam kesimpulan, analisis sentimen tweet COVID-19 dengan menggunakan K-Nearest Neighbors dan dua metode ekstraksi fitur, TF-IDF dan CountVectorizer, dapat memberikan wawasan berharga tentang pandangan dan perasaan pengguna media sosial selama masa pandemi. Penelitian ini memberikan kontribusi untuk memahami persepsi publik tentang COVID-19 dan dapat berguna untuk menginformasikan kebijakan kesehatan dan strategi komunikasi yang lebih efektifPada studi ini digunakan KNN (K-Nearest Neighbor) yang memiliki kompleksitas komputasi rendah untuk mengklasifikasikan tweet. Kemudian ekstraksi fitur yang digunakan adalah TF-IDF (Term Frequency - Inverse Document Frequency) dan CountVectorizer. Hasil pengujian pada studi ini menghasilkan hasil akurasi terbaik 73,2% dengan menggunakan TF-IDF.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2023 DIKE : Jurnal Ilmu Multidisiplin

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.