Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer

Muhammad Hafizh Mahendra; Danang Triantoro Murdiansyah; Kemas Muslim Lhaksmana

doi:10.69688/dike.v1i2.35

Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer

Authors

Muhammad Hafizh Mahendra Universitas Telkom, Bandung
Danang Triantoro Murdiansyah Universitas Telkom, Bandung
Kemas Muslim Lhaksmana Universitas Telkom, Bandung

DOI:

https://doi.org/10.69688/dike.v1i2.35

Keywords:

Analisis sentiment, K-Nearest Neighbors, Pra-Pemrosesan Data, CountVectorizer, TF-IDF

Abstract

Analisis sentimen tweet terkait COVID-19 telah menjadi topik penelitian yang menarik karena memberikan wawasan tentang pandangan dan perasaan pengguna media sosial terhadap situasi kesehatan global ini. Dalam penelitian ini, kami melakukan analisis sentimen tweet COVID-19 menggunakan metode K-Nearest Neighbors (K-NN) dengan dua metode ekstraksi fitur yang berbeda, yaitu Term Frequency-Inverse Document Frequency (TF-IDF) dan CountVectorizer. Langkah pertama dalam penelitian ini adalah mengumpulkan dataset tweet terkait COVID-19 dari sumber yang dapat dipercaya. Setelah itu, kami membersihkan dan melakukan pra-pemrosesan data untuk mengatasi masalah seperti tanda baca, stop words, dan tautan. Selanjutnya, kami menerapkan dua teknik ekstraksi fitur, yaitu TF-IDF dan CountVectorizer, untuk mengubah teks tweet menjadi representasi vektor yang dapat digunakan oleh algoritma K-Nearest Neighbors. Dalam implementasi K-NN, kami menentukan parameter K yang optimal melalui validasi silang untuk meningkatkan kinerja model. Kami juga membagi dataset menjadi subset pelatihan dan pengujian untuk mengukur akurasi dan kinerja model secara objektif. Hasil eksperimen menunjukkan bahwa K-Nearest Neighbors dengan ekstraksi fitur TF-IDF dan CountVectorizer keduanya memberikan hasil yang baik dalam analisis sentimen tweet COVID-19. Namun, kami menemukan bahwa satu metode mungkin memberikan performa yang lebih baik tergantung pada karakteristik dataset tertentu. Dalam kesimpulan, analisis sentimen tweet COVID-19 dengan menggunakan K-Nearest Neighbors dan dua metode ekstraksi fitur, TF-IDF dan CountVectorizer, dapat memberikan wawasan berharga tentang pandangan dan perasaan pengguna media sosial selama masa pandemi. Penelitian ini memberikan kontribusi untuk memahami persepsi publik tentang COVID-19 dan dapat berguna untuk menginformasikan kebijakan kesehatan dan strategi komunikasi yang lebih efektifPada studi ini digunakan KNN (K-Nearest Neighbor) yang memiliki kompleksitas komputasi rendah untuk mengklasifikasikan tweet. Kemudian ekstraksi fitur yang digunakan adalah TF-IDF (Term Frequency - Inverse Document Frequency) dan CountVectorizer. Hasil pengujian pada studi ini menghasilkan hasil akurasi terbaik 73,2% dengan menggunakan TF-IDF.

Downloads

Published

2023-08-31

How to Cite

Mahendra, M. H., Murdiansyah, D. T., & Lhaksmana, K. M. (2023). Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer. Dike, 1(2), 37–43. https://doi.org/10.69688/dike.v1i2.35