KLASIFIKASI TOPIK TUGAS AKHIR BERDASARKAN FITUR LEKSIKAL MENGGUNAKAN ALGORITMA MACHINE LEARNING

Setio Basuki, Gita Indah M, Maskur Maskur, Sofyan Arifianto

Abstract


Pada penelitian ini, dilakukan klasifikasi topik Tugas Akhir (TA) di Teknik Informatika Universitas Muhammadiyah Malang (UMM). Permasalahan yang dihadapi adalah sulitnya mendeteksi distribusi topik dan penentuan kategori topik TA. Tujuan penelitian ini adalah untuk mendapatkan distribusi topik penelitian mahasiswa berdasarkan judul TA. Topik yang digunakan merupakan jenis bidang minat pada program studi, yaitu Jaringan Komputer, Game Cerdas, dan Rekayasa Perangkat Lunak (RPL). Topik ini juga yang digunakan sebagai target class dalam klasifikasi. Data traiening yang digunakan bersumber dari kumpulan judul TA yang berjumlah 300 judul. Tahap selanjutnya adalah pembentukan data training, data testing, dan pelabelan. Data judul dikategorikan menjadi dua yaitu data training dengan proporsi sebanyak 210 judul dan data testing sebanyak 90 judul. Fitur yang digunakan adalah level leksikal atau level kata dari teks judul. Fitur ini juga sering dikenal sebagai fitur leksikal. Terdapat dua jenis eksperimen yang dilakukan. Pertama, eksperimen untuk membandingkan hasil akurasi klasifikasi terhadap fitur training tanpa melalui proses preprocessing seperti case-folding dan stopword removal (baseline leksikal) dan yang melibatkan mekanisme preprocessing. Kedua, eksperimen dilaukan untuk mendapatkan algoritma machine learning yang paling cocok untuk kasus ini. Eksperimen kedua dilakukan dengan membandingkan beberapa algoritma klasifikasi seperti Naive Bayes, C4.5, dan SMO terhadap kedua jenis fitur tersebut diatas. Dari hasil eksperimen menggunakan data testing, akurasi tertinggi dicapai dengan menggunakan algoritma SMO dan Naive Bayes dengan nilai 93.33% terhadap fitur dengan preprocessing. Sebagai kesimpulan, bahwa penggunaan mekanisme preprocessing tidak memberikan peningkatan hasil yang signifikan terhadap akurasi klasifikasi.

Full Text:

PDF

References


. Cortes, C. & Vapnik, V., 1995. Support-Vector Networks. Machine Leaming, Kluwer Academic Publishers, Boston, Volume 20, pp. 273-297.

. Darujati, C., 2010. Perbandingan Klasifikasi Dokumen Teks Menggunakan Metode Naïve Bayes Dengan K-Nearest Neighbor. Jurnal Link, Vol 13(No. 1).

. Mardiana, T. & Dwi Nyoto, D., 2015. Kluster Bag-of-Word Menggunakan Weka. Jurnal Edukasi dan Penelitian Informatika (JEPIN) , Vol. 1(No. 1).

. Michell, T., 1997. Machine Learning. s.l.:McGraw-Hill.

. Quinlan, R., 1993. Programs for Machine Learning. Machine Learning, Volume 16, pp. 235-240.

. Rasywir, E. & Purwarianti, A., 2015. Eksperimen pada Sistem Klasifikasi Berita Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin. Jurnal Cybermatika, Vol. 3(No. 2).

. Samodra, J., Sumpeno, S. & Hariadi, M., 2009. Klasifikasi Dokumen Teks Bahasa Indonesia dengan Menggunakan Naive Bayes. Seminar Nasional Electrical, Informatics, and It's Educations, pp. 71-74.




DOI: https://doi.org/10.22219/sentra.v0i2.1892

Refbacks

  • There are currently no refbacks.


Seketariat

Fakultas Teknik

Universitas Muhammadiyah Malang Kampus III

Jl. Raya Tlogomas 246 Malang, 65144